主要内容

高配列の使用によるビッグデ,タの統計および機械学習

この例では,メモリ不足になるデータに対してMATLAB®と统计和机器学习工具箱™で統計解析と機械学習を実行する方法を示します。

高配列および高表はメモリ不足になるデータを処理するように設計されています。このタイプのデータは,少数の列(変数)に対して非常に多くの数の行(観測値)から構成されています。MapReduceのようにデータの巨大なサイズを考慮する特殊なコードを記述する代わりに,高配列を使用して,インメモリのMATLAB配列に似た方法で大規模なデータセットを処理できます。基本的な違いは,高配列は通常,計算の実行要求があるまで評価されない,という点です。

高配列に対する計算を実行する場合,MATLAB®は並列プール(并行计算工具箱™がある場合は既定)またはローカルのMATLABセッションを使用します。并行计算工具箱がある場合にローカルのMATLABセッションを使用して例を実行するには,関数mapreduceを使用してグロ,バルな実行環境を変更します。

mapreduce (0)

この例では,単一のコンピューターでデータのサブセットを処理して線形回帰モデルを作成してから,データセット全体を分析するように拡張します。この分析は,次にも拡張できます。

  • メモリに読み込めないデ,タの処理

  • MATLAB Parallel Server™の使用によるクラスタ,間分散されたデ,タの処理

  • Hadoop®やSpark®などのビッグデタシステムとの統合

高配列を使用する機械学習にいて

统计和机器学习工具箱の教師なしおよび教師あり学習アルゴリズムのいくつかは高配列を扱う処理に利用可能であり,メモリ不足になるデータについてデータマイニングや予測モデリングを実行します。これらのアルゴリズムは,メモリ不足になるデータに適しており,インメモリアルゴリズムとわずかに異なる場合があります。機能には以下があります。

  • K-meansクラスタリング

  • 線形回帰

  • 一般化線形回帰

  • ロジスティック回帰

  • 判別分析

MATLABでは,メモリ不足になるデータに対する機械学習ワークフローはインメモリデータの場合と似ています。

  1. 前処理

  2. 調査

  3. モデルの開発

  4. モデルの検証

  5. より大きいデ,タへの拡張

この例では,飛行機の遅れに対する予測モデルの開発と同様の構造に従います。このデータには,1987 ~ 2008年における飛行機のフライト情報に関する大規模なファイルが含まれています。この例の目標は,いくかの変数に基づいて出発の遅れを予測することです。

高配列の基本的な側面に関する詳細は,高大配列を使用したMATLABでのビッグデ,タの解析の例に含まれています。この例では,高配列配列を使用する機械学習を含めるように分析を拡張します。

飛行機デタの高桌の作成

デ,タストアとは,大きすぎてメモリに収まらないデ,タの集合を格納するリポジトリです。外部のデータソースから高配列を作成する1番目のステップとして,いくつかの異なるファイル形式からデータストアを作成できます。

サンプルファ@ @ルairlinesmall.csvのデ,タストアを作成します。対象とする変数を選択し,“NA”値を欠損デ,タとして扱い,デ,タのプレビュ,テ,ブルを生成します。

Ds =数据存储(fullfile(matlabroot,“工具箱”matlab的“演示”“airlinesmall.csv”));ds。SelectedVariableNames = {“年”“月”“DayofMonth”“DayOfWeek”...“DepTime”“ArrDelay”“DepDelay”“距离”};ds。TreatAsMissing =“NA”;预=预览(ds)
pre =8×8表Year Month DayofMonth DayOfWeek DepTime ArrDelay DepDelay Distance _________ __________ _________ _______ ________ ________ ________ 1987 1021 3 642 8 12 308 1987 10 26 1 1021 8 1 296 1987 10 23 5 2055 21 20 480 1987 10 23 5 1332 13 12 296 1987 10 22 4 629 4 1 373 1987 10 28 3 1446 59 63 308 1987 10 8 4 928 3 -2 447 1987 10 10 6 6 859 11 1 954

デ,タの処理を容易にするため,デ,タストアによって支援される高表を作成します。高配列の基となる型はデ,タストアの型によって異なります。この場合,デ,タストアはテ,ブル形式のテキストなので,高桌が返されます。表示にはデ、タのプレビュ、が含まれており、サ、ズが不明であることが示されています。

Tt =高(ds)
tt = Mx8高表年月DayofMonth DayOfWeek DepTime ArrDelay DepDelay距离  ____ _____ __________ _________ _______ ________ ________ ________ 1987 10 21 3 642 8 308 1987 10 26 1 1021 8 1 296 1987 10 23 5 2055 21 480 1987 10 23 5 1332 13 629年12 296 1987 10 22日4 4 1 373 1987 10 28 1446 59 63 308 1987 928 4 3 2 447 1987 10 10 6 859 11 954  : : : : : : : : : : : : : : : :

デ,タの前処理

この例の目的は,時刻と曜日をさらに詳しく調べることです。ラベルがある分类配列に曜日を変換し,出発時間の数値変数から時間を判別します。

tt。DayOfWeek =绝对的(tt。DayOfWeek 1:7, {“太阳”“我的”“面前”...“结婚”“星期四”“星期五”“坐”});tt。人力资源= discretize(tt.DepTime,0:100:2400,0:23)
tt = Mx9高表年月DayofMonth DayOfWeek DepTime ArrDelay DepDelay距离人力资源  ____ _____ __________ _________ _______ ________ ________ ________ __ 21个外胎1987 642 8 1021 308 6 1987年10 26太阳8 2055 296 1987 10 23日星期四21 480 296 1987 10 1332年清华23日13 12 13 1987 629 22结婚4 1 373 6 1987 10 28外胎1446 59 63 308 928 1987 10 8结婚3 2 447 9 1987 10 859星期五11 1 954 8  : : : : : : : : : : : : : : : : : :

2000年以後の年のみを含め,欠損デ,タがある行は無視します。対象のデ,タは,論理条件によって識別します。

Idx = tt。一年>= 2000 &...~任何(ismissing (tt), 2);Tt = Tt (idx,:);

グル,プごとのデ,タ調査

いくかの調査関数では高配列を利用できます。たとえば,関数grpstatsは高配列のグル,プ化された統計を計算します。曜日でグループ化された要約統計量を使用してデータの中心性と広がりを判別することによりデータを調べます。また,出発の遅れと到着の遅れとの相関を調べます。

G = grpstats(tt(:,{“ArrDelay”“DepDelay”“DayOfWeek”}),“DayOfWeek”...“的意思是”“性病”“偏斜”“峰度”})
g = Mx11高表GroupLabel DayOfWeek GroupCount mean_ArrDelay std_ArrDelay skewness_ArrDelay kurtosis_ArrDelay mean_DepDelay std_DepDelay skewness_DepDelay kurtosis_DepDelay  __________ _________ __________ _____________ ____________ _________________ _________________ _____________ ____________ _________________ _________________ ?????????? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? : : : : : : : : : : : : : : : : : : : : : :
C = corr(tt.DepDelay,tt.ArrDelay)
C = MxNx…高阵???...???...? ? ? ... : : : : : :

これらのコマンドにより,さらに高配列が生成されます。結果が明示的にワ,クスペ,スに収集されるまでコマンドは実行されません。收集コマンドは実行をトリガーし,計算を実行するためにデータを通過しなければならない回数を最小限に抑えようとします。收集では,生成される変数がメモリに収まる必要があります。

[statsByDay,C] = collect (g,C)
使用本地MATLAB会话评估tall表达式:-通过1 / 1:在1.7秒内完成评估在2.4秒内完成
statsByDay =7×11表GroupLabel DayOfWeek GroupCount mean_ArrDelay std_ArrDelay skewness_ArrDelay kurtosis_ArrDelay mean_DepDelay std_DepDelay skewness_DepDelay kurtosis_DepDelay  __________ _________ __________ _____________ ____________ _________________ _________________ _____________ ____________ _________________ _________________ {' 星期五的}星期五7339 4.1512 32.1 7.082 120.53 7.0857 29.339 8.9387 168.37{‘我的’}Mon 8443 5.2487 32.453 4.5811 37.175 6.8319 28.573 5.6468 50.271{“坐”}坐8045 7.132 33.108 3.645722.991 9.1557 29.731 4.5135 31.228 {'Sun'} Sun 8570 7.7515 36.003 5.7943 80.91 9.3324 32.516 7.2146 118.25 {'Thu'} Thu 8601 10.053 36.18 4.1381 37.051 10.923 34.708 1.1414 138.38 {'Tues'} Tues 8381 6.4786 32.322 4.374 38.694 7.6083 28.394 5.2012 46.249 {'Wed'} Wed 8489 9.3324 37.406 5.1638 57.479 10 33.426 6.4336 85.426
C = 0.8966

結果が含まれている変数はこの時、ワ、クスペ、ス内の、ンメモリ変数です。これらの計算に基づいてデ,タ内で変動が発生します。遅れの間に相関があり,さらに調べることができます。

曜日と時刻の影響を調べ,平均の標準誤差や平均の95%信頼区間など追加の統計情報を取得します。高桌全体を渡して,計算の対象となる変数を指定できます。

byDayHr = grpstats(tt,{“人力资源”“DayOfWeek”},...“的意思是”扫描电镜的“meanci”},“DataVar”“DepDelay”);byDayHr = gather(byDayHr);
使用本地MATLAB会话评估tall表达式:-通过1 / 1:在2秒内完成评估在2.4秒内完成

高配列のデ,タ分割が原因となって,出力が順序付けされない可能性があります。さらに調べるため,メモリ内のデ,タを再配置します。

x = unstack(byDayHr(:,{“人力资源”“DayOfWeek”“mean_DepDelay”}),...“mean_DepDelay”“DayOfWeek”);X = sortrows(X)
x =24×8表人力资源孙Mon外胎结婚星期四星期五坐  __ _______ ________ ________ _______ _______ _______ _______ 0 38.519 71.914 39.656 34.667 90 25.536 65.579 45.846 27.875 93.6 125.23 52.765 38.091 29.182 - 2南39 102 78.25 - -1.5南南南南南南-7.3333 - -10.5 -377.5 -6.2857 53.5南4 7 7 5南5 6 -2.2409 -3.7099 -4.0146 -3.9565 -3.5897 -3.5766 -4.1474 0.4 -1.8909 -1.9802 -1.8304 -1.3578 0.84161 -2.2537 7 8 3.4173 -0.47222 -0.18893 0.71546 0.08 1.069 -1.3221 2.3759 1.4054 1.6745 2.2345 2.96681.6727 0.88213 9 2.5325 1.6805 2.7656 2.683 5.6138 3.4838 2.5011 10 6.37 5.2868 3.6822 7.5773 5.3372 6.9391 4.5939 5.5936 7.0435 4.8989 5.2839 12 5.673 5.1193 5.7081 7.9178 7.5269 8.0625 7.4686 13 8.0879 7.1017 5.0857 8.8082 8.2878 8.0675 6.2107 14 9.5164 5.8343 7.416 9.5954 8.6667 6.0677 8.444 15 8.1257 4.8802 7.4726 9.8674 10.235 7.167 8.6219

高配列のデ,タの可視化

現在,高配列のデ,タの可視化には柱状图histogram2binScatterPlotおよびksdensityを使用できます。すべての可視化で,関数收集の呼び出しと同じように実行がトリガ,されます。

binScatterPlotを使用して変数人力资源と変数DepDelayの関係を調べます。

binScatterPlot (tt.Hr tt.DepDelay,“伽马”, 0.25)
使用本地MATLAB会话计算tall表达式:-通过1 / 1:在1秒内完成计算在1.5秒内完成计算使用本地MATLAB会话计算tall表达式:-通过1 / 1:在0.89秒内完成计算在0.93秒内完成
Ylim ([0 500]) xlabel(“一天中的时间”) ylabel (“延迟(分钟)”

{

出力表示に記されているように,多くの場合,可視化ではデ,タを2回通過します。ビンにまとめるための1回と,ビンに対する計算を実行して可視化を生成するための1回です。

学習セットと検証セットへのデ,タの分割

機械学習モデルを開発するには,データの一部をモデルの学習および開発用に保持し,データの別の部分をモデルの検定用に保持すると有益です。デタを学習セットと検証セットに分割する方法はいくかあります。

datasampleを使用してデ,タの無作為標本を抽出します。次に,cvpartitionを使用してデ,タを検定セットと学習セットに分割します。非層化区分を取得するため,デ,タ標本にゼロを乗算して一様なグル,プ化変数を設定します。

再現性を得るため,tallrngを使用して乱数発生器のシ,ドを設定します。高配列の場合,ワ,カ,の個数と実行環境によって結果が異なる可能性があります。詳細にいては,コ,ドの実行場所の制御を参照してください。

tallrng (“默认”) data = datasample(tt,25000,“替换”、假);group = 0*data.DepDelay;Y = cvpartition(groups,“坚持”, 1/3);dataTrain =数据(训练(y),:);dataTest =数据(测试(y),:);

教師あり学習モデルの当てはめ

いくかの変数に基づいて出発の遅れを予測するモデルを構築します。線形回帰モデル関数fitlmは@ @ンメモリ関数と同じように動作します。ただし,高配列を使用して計算を行うと,大規模なデ,タセットでより効率的なCompactLinearModelが生成されます。モデルの当てはめは反復的なプロセスなので,実行がトリガ,されます。

model = fitlm(dataTrain,“ResponseVar”“DepDelay”
使用本地MATLAB会话评估tall表达式:-通过2中的第1步:在0.52秒内完成-通过2中的第2步:在1.7秒内完成评估在2.6秒内完成
模型=紧凑线性回归模型:DepDelay ~[8个预测因子中9项的线性公式]估计SE tStat pValue __________ __________ ________ __________ (Intercept) 30.715 75.873 0.40482 0.68562 Year -0.01585 0.037853 -0.41872 0.67543 Month 0.03009 0.028097 1.0709 0.28421 DayofMonth -0.0094266 0.010903 -0.86457 0.38729 DayOfWeek_Mon -0.36333 0.35527 -1.0227 0.30648 DayOfWeek_Tues -0.2858 0.35245 -0.81091 0.41743 DayOfWeek_Wed -0.56082 0.35309 -1.5883 0.11224 DayOfWeek_Thu -0.25295 0.35239 -0.71782 0.47288 DayOfWeek_Fri 0.45668 0.36625 2.5056 0.012234 DayOfWeek_Sat 0.45668 0.357851.2762 0.20191 DepTime -0.011551 0.0053851 -2.145 0.031964 ArrDelay 0.8081 0.002875 281.08 0 Distance 0.0012881 0.00016887 7.6281 2.5106e-14 Hr 1.4058 0.53785 2.6138 0.0089613 Number of observations: 16667, Error degrees of freedom: 16653 Root Mean Squared Error: 12.4 R-squared: 0.834, Adjusted R-Squared: 0.833 F-statistic vs. constant model: 6.41e+03, p-value = 0

モデルの予測と検証

表示には,当てはめの情報,係数および関連する係数統計が示されています。

変数模型には当てはめたモデルに関する情報がプロパティとして含まれており,ドット表記を使用してアクセスできます。または,ワ,クスペ,スで変数をダブルクリックして対話的にプロパティを確認します。

模型。Rsquared
ans =带字段的结构:普通:0.8335调整:0.8334

モデルに基づいて新しい値を予測し,残差を計算し,ヒストグラムを使用して可視化を行います。関数预测はtallデタとンメモリデタの両方にいて新しい値を予測します。

pred = predict(model,dataTest);err = pred - dataTest.DepDelay;图直方图(呃,“BinLimits”(-100 100),“归一化”“pdf”
使用本地MATLAB会话评估tall表达式:-通过2中的第1步:在1.5秒内完成-通过2中的第2步:在0.89秒内完成评估在2.9秒内完成
标题(“残差直方图”

图中包含一个轴对象。标题为“残差直方图”的axis对象包含一个类型为直方图的对象。

モデルの評価と調整

表示の出力p値を見ると,一部の変数はモデルに不要であると考えられます。このような変数を削除すると,モデルの複雑度を減らすことができます。

方差分析を使用して,モデルにおける変数の有意性をより詳しく確認します。

A =方差(模型)
一个=9×5表SumSq DF MeanSq F pValue __________ _____ __________ _______ __________ Year 26.88 1 26.88 0.17533 0.67543 Month 175.84 1 175.84 1.1469 0.28421 DayofMonth 114.6 1 114.6 0.74749 0.38729 DayOfWeek 3691.4 6 615.23 4.0129 0.00050851 DepTime 705.42 1 705.42 4.6012 0.031964 ArrDelay 1.2112e+07 1 1.2112e+07 79004 0 Distance 8920.9 1 8920.9 58.188 2.5106e-14 Hr 1047.5 1 1047.5 6.8321 0.0089613 Error 2.5531e+06 16653 153.31

P値に基づくと,変数一年およびDayOfMonthはこのモデルでは有意ではないので,これらを削除してもモデルの品質にマ。

これらのモデルパラメ,タ,をさらに調べるには,plotSliceplotInterationsplotEffectsなどの対話的な可視化を使用します。たとえば,出発の遅れに対する各予測子変数の推定効果を調べるには,plotEffectsを使用します。

plotEffects(模型)

图中包含一个轴对象。axis对象包含10个line类型的对象。

これらの計算に基づくと,モデルの主効果はArrDelayです(DepDelayと高い相関があります)。他の効果は観測可能ですが,影響は非常に小さくなっています。さらに,人力资源DepTimeから決定したので,これらの変数のうモデルに必要なのは1だけです。

変数の数を減らしてすべての日付成分を除外し,新しいモデルを当てはめます。

model2 = fitlm(dataTrain,'DepDelay ~ DepTime + ArrDelay + Distance'
使用本地MATLAB会话评估tall表达式:-通过1 / 1:在1.4秒内完成评估,在1.6秒内完成
model2 =紧凑线性回归模型:DepDelay ~ 1 + DepTime + ArrDelay + Distance估计系数:估计SE tStat pValue _________ __________ _______ __________(截距)-1.4646 0.31696 -4.6207 3.8538e-06 DepTime 0.0025087 0.00020401 12.297 1.3333e-34 ArrDelay 0.80767 0.0028712 281.3 0 Distance 0.0012981 0.00016886 7.6875 1.5838e-14观测数:16667,误差自由度:16663均方根误差:12.4 r平方:0.833,调整后r平方:0.833 f统计量与常数模型:2.77e+04, p值= 0

モデルの開発

モデルを単純化した状態でも,変数間の関係をさらに調整して明確な交互作用を含めると有益な可能性があります。さらに調べるには,小さい高配列でこのワ,クフロ,を繰り返します。モデルを調整するときのパフォーマンスを高めるには,インメモリデータを少量抽出,処理した後に高配列全体に拡張することが考えられます。

この例では,反復的なインメモリモデル開発に適している,ステップワイズ回帰に似た機能を使用できます。モデルを調整した後で,高配列を使用するように拡張できます。

デ,タのサブセットをワ,クスペ,スに収集し,stepwiselmを使用してメモリ内で反復的にモデルを開発します。

子集= gather(dataTest);
使用本地MATLAB会话评估tall表达式:-通过1 / 1:在0.82秒内完成评估,在0.87秒内完成
sModel = stepwiselm(子集,“ResponseVar”“DepDelay”
1.添加ArrDelay, FStat = 42200.3016, pValue = 0。添加DepTime, FStat = 51.7918, pValue = 6.70647e-13添加DepTime:ArrDelay, FStat = 42.4982, pValue = 7.48624e-11添加距离,FStat = 15.4303, pValue = 8.62963e-05添加ArrDelay:Distance, FStat = 231.9012, pValue = 1.135326e-51添加DayOfWeek, FStat = 3.4704, pValue = 0.00199178.添加DayOfWeek:ArrDelay, FStat = 26.334, pValue = 3.16911e-31添加DayOfWeek:DepTime, FStat = 2.1732, pValue = 0.042528
sModel =线性回归模型:DepDelay ~[4个预测因子中9项的线性公式]估计SE tStat pValue ___________ __________ ________ __________ (Intercept) 1.1799 1.0675 1.1053 0.26904 DayOfWeek_Mon -2.1377 1.4298 -1.4951 0.13493 DayOfWeek_Tues -4.2868 1.4683 -2.9196 0.0035137 DayOfWeek_Wed -1.6233 1.476 -1.0998 0.27145 DayOfWeek_Thu -0.74772 1.5226 -0.49109 0.62338 DayOfWeek_Fri -1.7618 1.5079 -1.1683 0.2427 DayOfWeek_Sat -2.1121 1.5214 -1.3882 0.16511 DepTime 7.5229e-05 0.00073613 0.10219 0.9186 ArrDelay 0.8671 0.013836 62.669 0 Distance 0.0015163 0.00023426 6.47281.0167e-10 DayOfWeek_Mon:DepTime 0.0017633 0.0010106 1.7448 0.081056 DayOfWeek_Tues:DepTime 0.0032578 0.0010331 3.1534 0.0016194 DayOfWeek_Wed:DepTime 0.00097506 0.001044 0.93398 0.35034 DayOfWeek_Thu:DepTime 0.0012517 0.0010694 1.1705 0.24184 DayOfWeek_Fri:DepTime 0.0026464 0.0010711 2.4707 0.013504 DayOfWeek_Sat:DepTime 0.0021477 0.0010646 2.0174 0.043689 DayOfWeek_Mon:ArrDelay -0.11023 0.014744 -7.4767 8.399e-14 DayOfWeek_Tues:ArrDelay -0.14589 0.014814 -9.8482 9.2943e-23DayOfWeek_Wed:ArrDelay -0.041878 0.012849 -3.2593 0.0011215 DayOfWeek_Thu:ArrDelay -0.096741 0.013308 -7.2693 3.9414e-13 DayOfWeek_Fri:ArrDelay -0.077713 0.015462 -5.0259 5.1147e-07 DayOfWeek_Sat:ArrDelay -0.13669 0.014652 -9.329 1.3471e-20 DepTime:ArrDelay 6.4148e-05 7.7372e-06 8.2909 1.3002e-16 ArrDelay:Distance -0.00010512 7.3888e-06 -14.227 2.1138e-45观测数:8333,误差自由度:8309 Root Mean Squared Error: 12 R-squared: 0.845, Adjusted R-squared:0.845 f统计量与常数模型:1.97e+03, p值= 0

ステップワ@ @ズ近似から生成したモデルには交互作用項が含まれています。

次に,stepwiselmによって返された式と共にfitlmを使用することにより,高デ,タ用のモデルの当てはめを試します。

model3 = fitlm(dataTrain, model . formula)
使用本地MATLAB会话评估tall表达式:-通过1 / 1:在1.3秒内完成评估,在1.4秒内完成
model3 =紧凑线性回归模型:DepDelay ~[4个预测因子中9项的线性公式]估计SE tStat pValue ___________ __________ ________ __________ (Intercept) -0.31595 0.74499 -0.4241 0.6715 DayOfWeek_Mon -0.64218 1.0473 -0.61316 0.53978 DayOfWeek_Tues -0.90163 1.0383 -0.86836 0.38521 DayOfWeek_Wed -1.0798 1.0417 -1.0365 0.29997 DayOfWeek_Thu -3.2765 1.0379 -3.157 0.0015967 DayOfWeek_Fri 0.44193 1.0813 0.40869 0.68277 DayOfWeek_Sat 1.1428 1.0777 1.0604 DepTime 0.0014188 0.00051612 2.7489 0.0059853 ArrDelay 0.72526 0.011907 0 Distance 0.0014824 0.000170278.7059 3.4423e-18 DayOfWeek_Mon:DepTime 0.00040994 0.00073548 0.55738 0.57728 DayOfWeek_Tues:DepTime 0.00051826 0.00073645 0.70373 0.48161 DayOfWeek_Wed:DepTime 0.00058426 0.00073695 0.79281 0.4279 DayOfWeek_Thu:DepTime 0.0026229 0.00073649 3.5614 0.00036991 DayOfWeek_Fri:DepTime 0.0002959 0.00077194 0.38332 0.70149 DayOfWeek_Sat:DepTime -0.00060921 0.00075776 -0.80396 0.42143 DayOfWeek_Mon:ArrDelay -0.034886 0.010435 -3.3432 0.00082993 DayOfWeek_Tues:ArrDelay -0.0073661 0.010113 -0.72837 0.4664DayOfWeek_Wed:ArrDelay -0.028158 0.0099004 -2.8441 0.0044594 DayOfWeek_Thu:ArrDelay -0.061065 0.010381 -5.8821 4.1275e-09 DayOfWeek_Fri:ArrDelay 0.052437 0.010927 4.7987 1.6111e-06 DayOfWeek_Sat:ArrDelay 0.014205 0.01039 1.3671 0.1716 DepTime:ArrDelay 7.2632e-05 5.3946e-06 13.464 4.196e-41 ArrDelay:Distance -2.4743e-05 4.6508e-06 -5.3203 1.0496e-07 Number of observations: 16667, Error degrees of freedom: 16643 Root Mean Squared Error: 12.3 R-squared: 0.837, Adjusted R-Squared: 0.836 F-statistic vs. constant model: 3.7e+03, p-value = 0

このプロセスを繰り返して引き続き線形モデルを調整することができます。しかし,このケスでは,このデタにさらに適している可能性がある別のタプの回帰を調べるべきです。たとえば,到着の遅れを含めない場合,このタesc escプの線形モデルは適切ではなくなります。詳細は,高大配列を使用するロジスティック回帰を参照してください。

Sparkへの拡張

MATLABと统计和机器学习工具箱の高配列の主要な機能の一つとして,Hadoopや火花などのプラットフォームへの接続があります。MATLAB编译器™を使用すると,コードをコンパイルして火花で実行することもできます。以下の製品の使用に関する詳細にいては,他の製品による高配列の拡張を参照してください。

  • 数据库工具箱™

  • 并行计算工具箱

  • MATLAB®并行服务器

  • MATLAB编译器™

関連するトピック