文档

LinearModel类

超类:CompactLinearModel

线性回归模型类

描述

一个包含训练数据、模型描述、诊断信息和线性回归拟合系数的对象。预测模型响应预测函数宏指令方法。

建设

mdl= fitlm (资源描述mdl= fitlm (Xy创建表或数据集数组的线性模型资源描述,或回答y到一个数据矩阵X.详细信息请参见fitlm

mdl= stepwiselm (资源描述mdl= stepwiselm (Xy创建表或数据集数组的线性模型资源描述,或回答y到一个数据矩阵X,排除了不重要的预测因素。详细信息请参见stepwiselm

输入参数

全部展开

输入数据,指定为表或数据集数组。当modelspec是一个公式,它指定了用作预测器和响应的变量。否则,如果您没有指定预测器和响应变量,默认情况下,最后一个变量是响应变量,其他变量是预测器变量。

预测变量可以是数字变量,也可以是任何分组变量类型,比如逻辑变量或分类变量(参见分组变量).响应必须是数字的或逻辑的。

要将另一列设置为响应变量,请使用ResponseVar名称-值对参数。要使用列的子集作为预测器,请使用PredictorVars名称-值对参数。

预测变量,指定为n——- - - - - -p矩阵,n观察的次数和p是预测变量的数量。的每一列X表示一个变量,每一行表示一个观察结果。

默认情况下,模型中有一个常数项,除非您显式地删除它,所以不要包含1的列X

数据类型:||逻辑

响应变量,指定为n-by-1向量,其中n是观测的数量。每一项y对应的行是否为响应X

数据类型:||逻辑

属性

全部展开

系数估计的协方差矩阵,存储为p——- - - - - -p数值矩阵。p为拟合模型中的系数数。

系数名称,存储为包含每个系数标签的字符向量单元格数组。

系数值,存储为表。系数每个系数都有一行,列如下:

  • 估计-估计系数值

  • SE-估算的标准误差

  • tStat- - - - - -t统计为一个检验,系数为零

  • pValue- - - - - -p-valuet统计

若要以向量的形式获取这些列,请使用点表示法将其索引到属性中。例如,在mdl估计的系数向量为

beta = mdl.系数。估计

使用coefTest对系数进行其他测试。

误差的自由度(残差),等于观测数减去估计系数数,存储为正整数值。

诊断值,存储为与输入数据具有相同行数的表(资源描述X).诊断包含有助于发现异常值和有影响的观察值的诊断。许多诊断学描述了删除单个观测值对拟合的影响。诊断包含以下字段。

意义 实用程序
利用 对角线元素HatMatrix 利用表示某一观测值的预测值在多大程度上由该观测值的观测值决定。值接近于1表明该预测在很大程度上是由该观测决定的,其他观测的贡献很小。值接近于0表明拟合在很大程度上是由其他观测决定的。对于一个模型P系数和N的平均值利用P / N.观察到利用2 * P / N可视为具有高杠杆。
CooksDistance 库克对拟合值的比例变化的度量 CooksDistance是拟合值的比例变化的度量。观察到CooksDistance超过平均库克距离的三倍可能是一个异常值。
Dffits 删除拟合值与观测数的1个比例差异 Dffits是将每个观测值从拟合中排除而导致的拟合值的比例变化。绝对值大于的值2 *倍根号(P / N)可能被认为是有影响力的。
S2_i 删除1方差与观察数 S2_i是通过依次删除每个观察值而获得的一组剩余方差估计值。这些都可以与价值进行比较均方误差财产。
CovRatio 删除1协方差行列式与观测数的比值 CovRatio是依次删除每个观测值后的系数协方差矩阵行列式与完整模型的协方差矩阵行列式的比值。大于的值1 + 3 * P / N或者小于1 - 3 * P / N指出影响点。
Dfbetas 删除1个协方差估计与观察数的比例差异 Dfbetas是一个N——- - - - - -P矩阵的比例变化系数估计,将导致排除每个观测轮流。大于的值3 /√(N)以绝对值表示观测值对相应系数的影响较大。
HatMatrix 从观测到的响应计算拟合的投影矩阵 HatMatrix是一个N——- - - - - -N这样的矩阵拟合= HatMatrix*Y,在那里Y响应向量是和吗安装为拟合响应值的向量。

由于缺少值而未在拟合中使用的行(在ObservationInfo。失踪)包含值。

由于被排除的值(在ObservationInfo。被排除在外)包含值,但有以下例外:Delete-1诊断是指包含或不包含该观察值(行)的统计数据。这些诊断有助于识别重要的观察结果。

根据输入数据拟合(预测)响应值,存储为n-by-1的数值向量。n输入数据中的观察数。使用预测计算对其他预测值的预测,或计算的置信范围安装

模型信息,存储为LinearFormula对象或NonLinearFormula对象。如果你适合线性或广义线性回归模型,那么公式是一个LinearFormula对象。如果你符合非线性回归模型,那么公式是一个NonLinearFormula对象。

模型分布在响应值处的对数似然,存储为数值。均值从模型中拟合,其他参数作为模型拟合的一部分进行估计。

模型比较的标准,存储为具有以下字段的结构:

  • 另类投资会议-赤池信息准则。AIC = -2 *logL + 2*m,在那里logLloglikelihood和是估计参数的个数。

  • AICc-赤池信息标准校正样本量。AICc = AIC + (2*m*(m+1))/(n-m-1),在那里n是观测的数量。

  • BIC-贝叶斯信息准则。BIC = -2 *logL + m*log(n)

  • 中安集团经贸—一致赤池信息标准。CAIC = -2 *logL + m*(log(n)+1)

信息标准是模型选择工具,您可以使用它来比较适合相同数据的多个模型。这些标准是基于可能性的模型拟合度量,包括对复杂性的惩罚(具体地说,参数的数量)。不同的信息标准通过处罚的形式来区分。

当对多个模型进行比较时,信息准则值最低的模型为最佳拟合模型。最佳拟合模型可以根据用于模型比较的标准而变化。

若要以标量形式获取任何标准值,请使用点表示法将其索引到属性中。例如,在模型中mdl, AIC值另类投资会议是:

aic = mdl.ModelCriterion.AIC

均方误差(残差),存储为数值。均方误差计算为均方误差上交所/教育部,在那里均方误差是均方误差,上交所误差平方和,和教育部就是自由度。

模型系数数,存储为正整数。NumCoefficients包括当模型项秩亏时设置为零的系数。

模型中估计的系数数,存储为正整数。NumEstimatedCoefficients不包括当模型项秩亏时设置为零的系数。NumEstimatedCoefficients是回归的自由度。

拟合函数在拟合中使用的观察数,以正整数形式存储。这是原始表、数据集或矩阵中提供的观测数据的数量,减去任何排除的行(用被排除在外名称-值对)或缺少值的行。

用于拟合模型的预测变量数,存储为正整数。

输入数据中的变量数,存储为正整数。NumVariables原始表或数据集中的变量数,或者当拟合基于这些数组时,预测器矩阵和响应向量中的列总数。它包括不用作预测器或响应的变量(如果有的话)。

观测信息,存储为n-by-4表,其中n等于输入数据的行数。的四列ObservationInfo包含以下内容:

描述
权重 观察权重。默认是全部1
被排除在外 逻辑值,1属性不匹配的观测值排除名称-值对。
失踪 逻辑值,1指示输入中缺少的值。在拟合中不使用缺失值。
子集 逻辑值,1表示观测值未被排除或缺失,因此在拟合中使用。

观测值名称,存储为包含拟合中使用的观测值名称的字符向量单元格数组。

  • 如果拟合是基于包含观测名称的表或数据集,ObservationNames使用这些名字。

  • 否则,ObservationNames是空单元格数组吗

用于拟合模型的预测器名称,存储为字符向量的单元格数组。

拟合模型的残差,存储为一个表,每个观察值包含一行和以下列。

描述
观测值减去拟合值。
皮尔森 原始残差除以RMSE。
标准化 原始残差除以估计的标准差。
Studentized 残差除以独立估计的残差标准差。用于观察的残差除以基于除观测以外的所有观测的误差标准偏差的估计

若要以向量的形式获取这些列,请使用点表示法将其索引到属性中。例如,在一个模型中mdl,为普通原始残差向量r是:

r = mll . residuals . raw

由于缺少值而未在拟合中使用的行(在ObservationInfo。失踪)包含值。

由于被排除的值(在ObservationInfo。被排除在外)包含值,但有以下例外:

  • 包含观测值和预测值之间的差值。

  • 标准化是残差,用通常的方法标准化。

  • studentized匹配标准化值,因为该残差未用于残差标准差的估计。

响应变量名,存储为字符向量。

均方根误差(残差),存储为数值。均方根误差(RMSE)等于RMSE=√均方误差,在那里均方误差是均方误差。

健壮的拟合信息,存储为具有以下字段的结构:

描述
WgtFun 鲁棒加权函数等“bisquare”(见robustfit
调优 为调优参数(可以为[]
权重 鲁棒拟合最终迭代中使用的权重向量。此字段为空,用于压缩CompactLinearModel模型。

这个结构是空的,除非fitlm采用稳健回归方法构建模型。

模型的r平方值,存储为结构。

对于线性或非线性模型,Rsquared是具有两个字段的结构:

  • 普通的-普通(未经调整)r平方

  • 调整- r平方调整系数的数量

对于广义线性模型,Rsquared是一个具有五个字段的结构:

  • 普通的-普通(未经调整)r平方

  • 调整- r平方调整系数的数量

  • LLR-对数似然比

  • 异常——异常

  • AdjGeneralized-调整广义r平方

r平方值是由模型解释的总平方和的比例。普通的r平方值与苏维埃社会主义共和国而且风场属性:

r平方= SSR/SST = 1 - SSE/SST

若要以标量形式获取这些值,请使用点表示法将其索引到属性中。例如,调整后的r平方值mdl

r2 = mll . rsquared .已调整

误差平方和(残差),存储为数值。

毕达哥拉斯定理意味着

SST = sse + SSR

回归平方和,存储为数值。回归平方和等于拟合值与其平均值的偏差平方和。

毕达哥拉斯定理意味着

SST = sse + SSR

总平方和,存储为数值。总平方和等于响应向量偏差的平方和y意思是(y)

毕达哥拉斯定理意味着

SST = sse + SSR

逐步拟合信息,存储为具有以下字段的结构。

描述
开始 表示起始模型的公式
较低的 表示模型下界的公式,这些项必须保留在模型中
公式表示模型的上限,模型中不能包含超过的项
标准 准则用于逐步算法,如上交所的
被关闭的 参数的值,例如0.05
PRemove 参数的值,例如0.10
历史 表表示在配合中所采取的步骤

历史表中每个步骤都有一行,包括初始拟合和以下变量(列)。

描述
行动

在这一步骤中采取的行动,其中之一:

  • “开始”-第一步

  • “添加”—新增术语

  • “删除”—删除术语

TermName
  • “开始”步骤:起始模型规格

  • “添加”“删除”这个术语进入了那个阶段

条款 术语矩阵(见modelspecfitlm
DF 这一步之后的回归自由度
delDF 与前一步相比回归自由度的变化(删除项的步骤为负)
异常 该步骤的偏差(残差平方和)
函数 F统计数据导致了这一步
PValue p的-valueF统计

结构是空的,除非你使用stepwiselmstepwiseglm为了适应模型。

中包含的输入变量的信息变量,存储为一个表,每个模型术语对应一行,并包含以下列。

描述
字符向量给出变量类等“双”
范围

给出可变范围的单元格数组:

  • 连续变量-两元向量最小值马克斯为最小值和最大值

  • 分类变量-不同变量值的单元格数组

InModel 逻辑向量,其中真正的指示变量在模型中
IsCategorical 逻辑向量,其中真正的指示分类变量

拟合中使用的变量名称,存储为字符向量的单元格数组。

  • 如果拟合基于表或数据集,则此属性提供该表或数据集中的变量名。

  • 如果拟合是基于预测矩阵和响应向量,VariableNames的值是VarNames拟合方法的名值对。

  • 否则,变量有默认的拟合名称。

用于拟合模型的数据,存储为表。变量同时包含观察值和响应值。如果拟合基于表或数据集数组,变量包含来自该表或数据集数组的所有数据。否则,变量是否从输入数据矩阵创建表X响应向量y

方法

addTerms 在线性回归模型中添加项
紧凑的 紧凑线性回归模型
dwt 线性模型的Durbin-Watson检验
适合 创建线性回归模型
情节 线性模型的散点图或加变量图
plotAdded 为线性模型增加了变量图或杠杆图
plotAdjustedResponse 线性回归模型调整响应图
plotDiagnostics 线性回归模型的图诊断
plotResiduals 线性回归模型残差图
removeTerms 从线性模型中移除项
一步 通过增减项对线性回归模型进行改进
逐步 通过逐步回归建立线性回归模型

继承的方法

方差分析 线性模型的方差分析
coefCI 线性模型系数估计的置信区间
coefTest 线性回归模型系数的线性假设检验
disp 显示线性回归模型
函数宏指令 评估线性回归模型预测
plotEffects 在线性回归模型中绘制各预测因子的主要效应
plotInteraction 线性回归模型中两个预测因子的交互作用
plotSlice 通过拟合的线性回归曲面绘制切片图
预测 预测线性回归模型的响应
随机 模拟线性回归模型的响应

复制语义

价值。要了解值类如何影响复制操作,请参见复制对象(MATLAB)。

例子

全部折叠

拟合Hald数据的线性模型。

加载数据。

负载哈尔德X =配料;%预测变量Y =热量;%响应

为数据拟合一个默认的线性模型。

mdl = fitlm(X,y)
mdl =线性回归模型:y ~ 1 + x1 + x2 + x3 + x4估计系数:估计SE tStat pValue ________ _______ ________ ________(截距)62.405 70.071 0.8906 0.39913 x1 1.5511 0.74477 2.0827 0.070822 x2 0.51017 0.72379 0.70486 0.5009 x3 0.10191 0.75471 0.13503 0.89592 x4 -0.14406 0.70905 -0.20317 0.84407观测数量:13,误差自由度:8均方根误差:2.45 r平方:0.982,调整r平方0.974 f统计量vs常数模型:111, p-value = 4.76e-07

拟合一个包含分类预测器的表模型。

加载carsmall数据。

负载carsmall

构造一个包含连续预测变量的表重量,名义预测变量一年,响应变量英里/加仑

tbl = table(MPG,Weight);资源描述。一年=nominal(Model_Year);

创建一个合适的模型英里/加仑作为函数一年重量,体重^ 2.(你不需要写重量因为它是的低阶项体重^ 2),并自动包括在内。

MDL = fitlm(tbl,MPG ~年+重量^2
mdl =线性回归模型:MPG ~ 1 + Weight + Year + Weight^2估计系数:估计SE tStat pValue __________ __________ _______ __________(截距)54.206 4.7117 11.505 2.6648e-19 Weight -0.016404 0.0031249 -5.2493 1.0283e-06 Year_76 2.0887 0.71491 2.9215 0.0044137 Year_82 8.1864 0.81531 10.041 2.6364e-16 Weight^2 1.5573e-06 4.9454e-07 3.149 0.0022303观测数:94,误差自由度:89均方根误差:2.78 r平方:0.885,调整后r平方0.88 f统计量vs常数模型:172,p值= 5.52e-41

fitlm为名义变量创建两个虚拟(指标)变量,一年.哑变量Year_76如果模型年份是1976年,则取1,如果不是,则取0。哑变量Year_82如果模型年份是1982年,则取1,如果不是,则取0。1970年是参照年。对应的模型为

使用稳健拟合方法拟合线性回归模型。

加载样例数据。

负载哈尔德

哈尔德数据测量水泥成分对其硬化热的影响。矩阵成分含有水泥中四种化学物质的百分比组成。数组包含每个水泥样品180天后的硬化热。

为数据拟合一个稳健的线性模型。

配料,热量,“线性”“RobustOpts”“上”
mdl =线性回归模型(稳健拟合):y ~ 1 + x1 + x2 + x3 + x4估计系数:估计SE tStat pValue ________ _______ ________ ________(截距)60.09 75.818 0.79256 0.4509 x1 1.5753 0.80585 1.9548 0.086346 x2 0.5322 0.78315 0.67957 0.51596 x3 0.13346 0.8166 0.16343 0.87424 x4 -0.12052 0.7672 -0.15709 0.87906观测数量:13,误差自由度:8均方根误差:2.65 r平方:0.979,调整r平方0.969 f统计量vs常数模型:94.6, p-value = 9.003 -07

更多关于

全部展开

算法

主要的拟合算法是QR分解。对于鲁棒拟合,算法为robustfit

选择

若要使用套索或弹性网去除线性回归中的冗余预测因子,请使用套索函数。

若要使用岭回归将具有相关项的回归正则化,请使用套索功能。

要使用偏最小二乘正则化具有相关项的回归,请使用plsregress函数。

扩展功能

在R2012a中引入

这个话题有用吗?