线性回归模型类
或mdl
= fitlm (资源描述
)
创建表或数据集数组的线性模型mdl
= fitlm (X
,y
)资源描述
,或回答y
到一个数据矩阵X
.详细信息请参见fitlm
.
或mdl
= stepwiselm (资源描述
)
创建表或数据集数组的线性模型mdl
= stepwiselm (X
,y
)资源描述
,或回答y
到一个数据矩阵X
,排除了不重要的预测因素。详细信息请参见stepwiselm
.
资源描述
- - - - - -输入数据输入数据,指定为表或数据集数组。当modelspec
是一个公式
,它指定了用作预测器和响应的变量。否则,如果您没有指定预测器和响应变量,默认情况下,最后一个变量是响应变量,其他变量是预测器变量。
预测变量可以是数字变量,也可以是任何分组变量类型,比如逻辑变量或分类变量(参见分组变量).响应必须是数字的或逻辑的。
要将另一列设置为响应变量,请使用ResponseVar
名称-值对参数。要使用列的子集作为预测器,请使用PredictorVars
名称-值对参数。
X
- - - - - -预测变量预测变量,指定为n——- - - - - -p矩阵,n观察的次数和p是预测变量的数量。的每一列X
表示一个变量,每一行表示一个观察结果。
默认情况下,模型中有一个常数项,除非您显式地删除它,所以不要包含1的列X
.
数据类型:单
|双
|逻辑
y
- - - - - -反应变量响应变量,指定为n-by-1向量,其中n是观测的数量。每一项y
对应的行是否为响应X
.
数据类型:单
|双
|逻辑
CoefficientCovariance
- - - - - -系数估计的协方差矩阵系数估计的协方差矩阵,存储为p——- - - - - -p数值矩阵。p为拟合模型中的系数数。
CoefficientNames
- - - - - -系数的名字系数名称,存储为包含每个系数标签的字符向量单元格数组。
系数
- - - - - -系数值系数值,存储为表。系数
每个系数都有一行,列如下:
估计
-估计系数值
SE
-估算的标准误差
tStat
- - - - - -t统计为一个检验,系数为零
pValue
- - - - - -p-valuet统计
若要以向量的形式获取这些列,请使用点表示法将其索引到属性中。例如,在mdl
估计的系数向量为
beta = mdl.系数。估计
使用coefTest
对系数进行其他测试。
教育部
- - - - - -误差的自由度误差的自由度(残差),等于观测数减去估计系数数,存储为正整数值。
诊断
- - - - - -诊断价值诊断值,存储为与输入数据具有相同行数的表(资源描述
或X
).诊断
包含有助于发现异常值和有影响的观察值的诊断。许多诊断学描述了删除单个观测值对拟合的影响。诊断
包含以下字段。
场 | 意义 | 实用程序 |
---|---|---|
利用 |
对角线元素HatMatrix |
利用 表示某一观测值的预测值在多大程度上由该观测值的观测值决定。值接近于1 表明该预测在很大程度上是由该观测决定的,其他观测的贡献很小。值接近于0 表明拟合在很大程度上是由其他观测决定的。对于一个模型P 系数和N 的平均值利用 是P / N .观察到利用 比2 * P / N 可视为具有高杠杆。 |
CooksDistance |
库克对拟合值的比例变化的度量 | CooksDistance 是拟合值的比例变化的度量。观察到CooksDistance 超过平均库克距离的三倍可能是一个异常值。 |
Dffits |
删除拟合值与观测数的1个比例差异 | Dffits 是将每个观测值从拟合中排除而导致的拟合值的比例变化。绝对值大于的值2 *倍根号(P / N) 可能被认为是有影响力的。 |
S2_i |
删除1方差与观察数 | S2_i 是通过依次删除每个观察值而获得的一组剩余方差估计值。这些都可以与价值进行比较均方误差 财产。 |
CovRatio |
删除1协方差行列式与观测数的比值 | CovRatio 是依次删除每个观测值后的系数协方差矩阵行列式与完整模型的协方差矩阵行列式的比值。大于的值1 + 3 * P / N 或者小于1 - 3 * P / N 指出影响点。 |
Dfbetas |
删除1个协方差估计与观察数的比例差异 | Dfbetas 是一个N ——- - - - - -P 矩阵的比例变化系数估计,将导致排除每个观测轮流。大于的值3 /√(N) 以绝对值表示观测值对相应系数的影响较大。 |
HatMatrix |
从观测到的响应计算拟合的投影矩阵 | HatMatrix 是一个N ——- - - - - -N 这样的矩阵拟合= HatMatrix*Y ,在那里Y 响应向量是和吗安装 为拟合响应值的向量。 |
由于缺少值而未在拟合中使用的行(在ObservationInfo。失踪
)包含南
值。
由于被排除的值(在ObservationInfo。被排除在外
)包含南
值,但有以下例外:Delete-1诊断是指包含或不包含该观察值(行)的统计数据。这些诊断有助于识别重要的观察结果。
安装
- - - - - -根据输入数据拟合响应值根据输入数据拟合(预测)响应值,存储为n-by-1的数值向量。n输入数据中的观察数。使用预测
计算对其他预测值的预测,或计算的置信范围安装
.
公式
- - - - - -模型信息LinearFormula
对象|NonLinearFormula
对象模型信息,存储为LinearFormula
对象或NonLinearFormula
对象。如果你适合线性或广义线性回归模型,那么公式
是一个LinearFormula
对象。如果你符合非线性回归模型,那么公式
是一个NonLinearFormula
对象。
LogLikelihood
- - - - - -日志的可能性模型分布在响应值处的对数似然,存储为数值。均值从模型中拟合,其他参数作为模型拟合的一部分进行估计。
ModelCriterion
- - - - - -模型比较准则模型比较的标准,存储为具有以下字段的结构:
另类投资会议
-赤池信息准则。AIC = -2 *logL + 2*m
,在那里logL
loglikelihood和米
是估计参数的个数。
AICc
-赤池信息标准校正样本量。AICc = AIC + (2*m*(m+1))/(n-m-1)
,在那里n
是观测的数量。
BIC
-贝叶斯信息准则。BIC = -2 *logL + m*log(n)
.
中安集团经贸
—一致赤池信息标准。CAIC = -2 *logL + m*(log(n)+1)
.
信息标准是模型选择工具,您可以使用它来比较适合相同数据的多个模型。这些标准是基于可能性的模型拟合度量,包括对复杂性的惩罚(具体地说,参数的数量)。不同的信息标准通过处罚的形式来区分。
当对多个模型进行比较时,信息准则值最低的模型为最佳拟合模型。最佳拟合模型可以根据用于模型比较的标准而变化。
若要以标量形式获取任何标准值,请使用点表示法将其索引到属性中。例如,在模型中mdl
, AIC值另类投资会议
是:
aic = mdl.ModelCriterion.AIC
均方误差
- - - - - -均方误差均方误差(残差),存储为数值。均方误差计算为均方误差=上交所/教育部,在那里均方误差是均方误差,上交所误差平方和,和教育部就是自由度。
NumCoefficients
- - - - - -模型系数数模型系数数,存储为正整数。NumCoefficients
包括当模型项秩亏时设置为零的系数。
NumEstimatedCoefficients
- - - - - -估计系数数模型中估计的系数数,存储为正整数。NumEstimatedCoefficients
不包括当模型项秩亏时设置为零的系数。NumEstimatedCoefficients
是回归的自由度。
NumObservations
- - - - - -观察次数拟合函数在拟合中使用的观察数,以正整数形式存储。这是原始表、数据集或矩阵中提供的观测数据的数量,减去任何排除的行(用被排除在外
名称-值对)或缺少值的行。
NumPredictors
- - - - - -预测变量数量用于拟合模型的预测变量数,存储为正整数。
NumVariables
- - - - - -变量数量输入数据中的变量数,存储为正整数。NumVariables
原始表或数据集中的变量数,或者当拟合基于这些数组时,预测器矩阵和响应向量中的列总数。它包括不用作预测器或响应的变量(如果有的话)。
ObservationInfo
- - - - - -观测信息观测信息,存储为n-by-4表,其中n等于输入数据的行数。的四列ObservationInfo
包含以下内容:
场 | 描述 |
---|---|
权重 |
观察权重。默认是全部1 . |
被排除在外 |
逻辑值,1 属性不匹配的观测值排除 名称-值对。 |
失踪 |
逻辑值,1 指示输入中缺少的值。在拟合中不使用缺失值。 |
子集 |
逻辑值,1 表示观测值未被排除或缺失,因此在拟合中使用。 |
ObservationNames
- - - - - -观察的名字观测值名称,存储为包含拟合中使用的观测值名称的字符向量单元格数组。
如果拟合是基于包含观测名称的表或数据集,ObservationNames
使用这些名字。
否则,ObservationNames
是空单元格数组吗
PredictorNames
- - - - - -用于拟合模型的预测因子名称用于拟合模型的预测器名称,存储为字符向量的单元格数组。
残差
- - - - - -拟合模型的残差拟合模型的残差,存储为一个表,每个观察值包含一行和以下列。
场 | 描述 |
---|---|
生 |
观测值减去拟合值。 |
皮尔森 |
原始残差除以RMSE。 |
标准化 |
原始残差除以估计的标准差。 |
Studentized |
残差除以独立估计的残差标准差。用于观察的残差我除以基于除观测以外的所有观测的误差标准偏差的估计我. |
若要以向量的形式获取这些列,请使用点表示法将其索引到属性中。例如,在一个模型中mdl
,为普通原始残差向量r
是:
r = mll . residuals . raw
由于缺少值而未在拟合中使用的行(在ObservationInfo。失踪
)包含南
值。
由于被排除的值(在ObservationInfo。被排除在外
)包含南
值,但有以下例外:
生
包含观测值和预测值之间的差值。
标准化
是残差,用通常的方法标准化。
studentized
匹配标准化值,因为该残差未用于残差标准差的估计。
ResponseName
- - - - - -响应变量名响应变量名,存储为字符向量。
RMSE
- - - - - -均方根误差均方根误差(残差),存储为数值。均方根误差(RMSE)等于RMSE=√均方误差),在那里均方误差是均方误差。
Rsquared
- - - - - -模型的r平方值模型的r平方值,存储为结构。
对于线性或非线性模型,Rsquared
是具有两个字段的结构:
普通的
-普通(未经调整)r平方
调整
- r平方调整系数的数量
对于广义线性模型,Rsquared
是一个具有五个字段的结构:
普通的
-普通(未经调整)r平方
调整
- r平方调整系数的数量
LLR
-对数似然比
异常
——异常
AdjGeneralized
-调整广义r平方
r平方值是由模型解释的总平方和的比例。普通的r平方值与苏维埃社会主义共和国
而且风场
属性:
r平方= SSR/SST = 1 - SSE/SST
.
若要以标量形式获取这些值,请使用点表示法将其索引到属性中。例如,调整后的r平方值mdl
是
r2 = mll . rsquared .已调整
上交所
- - - - - -误差平方和误差平方和(残差),存储为数值。
毕达哥拉斯定理意味着
SST = sse + SSR
.
苏维埃社会主义共和国
- - - - - -回归平方和回归平方和,存储为数值。回归平方和等于拟合值与其平均值的偏差平方和。
毕达哥拉斯定理意味着
SST = sse + SSR
.
风场
- - - - - -总平方和总平方和,存储为数值。总平方和等于响应向量偏差的平方和y
从意思是(y)
.
毕达哥拉斯定理意味着
SST = sse + SSR
.
步骤
- - - - - -逐步拟合信息逐步拟合信息,存储为具有以下字段的结构。
场 | 描述 |
---|---|
开始 |
表示起始模型的公式 |
较低的 |
表示模型下界的公式,这些项必须保留在模型中 |
上 |
公式表示模型的上限,模型中不能包含超过的项上 |
标准 |
准则用于逐步算法,如上交所的 |
被关闭的 |
参数的值,例如0.05 |
PRemove |
参数的值,例如0.10 |
历史 |
表表示在配合中所采取的步骤 |
的历史
表中每个步骤都有一行,包括初始拟合和以下变量(列)。
场 | 描述 |
---|---|
行动 |
在这一步骤中采取的行动,其中之一:
|
TermName |
|
条款 |
术语矩阵(见modelspec 的fitlm ) |
DF |
这一步之后的回归自由度 |
delDF |
与前一步相比回归自由度的变化(删除项的步骤为负) |
异常 |
该步骤的偏差(残差平方和) |
函数 |
F统计数据导致了这一步 |
PValue |
p的-valueF统计 |
结构是空的,除非你使用stepwiselm
或stepwiseglm
为了适应模型。
VariableInfo
- - - - - -关于输入变量的信息中包含的输入变量的信息变量
,存储为一个表,每个模型术语对应一行,并包含以下列。
场 | 描述 |
---|---|
类 |
字符向量给出变量类等“双” |
范围 |
给出可变范围的单元格数组:
|
InModel |
逻辑向量,其中真正的 指示变量在模型中 |
IsCategorical |
逻辑向量,其中真正的 指示分类变量 |
VariableNames
- - - - - -适合使用的变量名称拟合中使用的变量名称,存储为字符向量的单元格数组。
如果拟合基于表或数据集,则此属性提供该表或数据集中的变量名。
如果拟合是基于预测矩阵和响应向量,VariableNames
的值是VarNames
拟合方法的名值对。
否则,变量有默认的拟合名称。
变量
- - - - - -用于拟合模型的数据用于拟合模型的数据,存储为表。变量
同时包含观察值和响应值。如果拟合基于表或数据集数组,变量
包含来自该表或数据集数组的所有数据。否则,变量
是否从输入数据矩阵创建表X
响应向量y
.
addTerms | 在线性回归模型中添加项 |
紧凑的 | 紧凑线性回归模型 |
dwt | 线性模型的Durbin-Watson检验 |
适合 | 创建线性回归模型 |
情节 | 线性模型的散点图或加变量图 |
plotAdded | 为线性模型增加了变量图或杠杆图 |
plotAdjustedResponse | 线性回归模型调整响应图 |
plotDiagnostics | 线性回归模型的图诊断 |
plotResiduals | 线性回归模型残差图 |
removeTerms | 从线性模型中移除项 |
一步 | 通过增减项对线性回归模型进行改进 |
逐步 | 通过逐步回归建立线性回归模型 |
方差分析 | 线性模型的方差分析 |
coefCI | 线性模型系数估计的置信区间 |
coefTest | 线性回归模型系数的线性假设检验 |
disp | 显示线性回归模型 |
函数宏指令 | 评估线性回归模型预测 |
plotEffects | 在线性回归模型中绘制各预测因子的主要效应 |
plotInteraction | 线性回归模型中两个预测因子的交互作用 |
plotSlice | 通过拟合的线性回归曲面绘制切片图 |
预测 | 预测线性回归模型的响应 |
随机 | 模拟线性回归模型的响应 |
价值。要了解值类如何影响复制操作,请参见复制对象(MATLAB)。
拟合Hald数据的线性模型。
加载数据。
负载哈尔德X =配料;%预测变量Y =热量;%响应
为数据拟合一个默认的线性模型。
mdl = fitlm(X,y)
mdl =线性回归模型:y ~ 1 + x1 + x2 + x3 + x4估计系数:估计SE tStat pValue ________ _______ ________ ________(截距)62.405 70.071 0.8906 0.39913 x1 1.5511 0.74477 2.0827 0.070822 x2 0.51017 0.72379 0.70486 0.5009 x3 0.10191 0.75471 0.13503 0.89592 x4 -0.14406 0.70905 -0.20317 0.84407观测数量:13,误差自由度:8均方根误差:2.45 r平方:0.982,调整r平方0.974 f统计量vs常数模型:111, p-value = 4.76e-07
拟合一个包含分类预测器的表模型。
加载carsmall
数据。
负载carsmall
构造一个包含连续预测变量的表重量
,名义预测变量一年
,响应变量英里/加仑
.
tbl = table(MPG,Weight);资源描述。一年=nominal(Model_Year);
创建一个合适的模型英里/加仑
作为函数一年
,重量
,体重^ 2
.(你不需要写重量
因为它是的低阶项体重^ 2
),并自动包括在内。
MDL = fitlm(tbl,MPG ~年+重量^2)
mdl =线性回归模型:MPG ~ 1 + Weight + Year + Weight^2估计系数:估计SE tStat pValue __________ __________ _______ __________(截距)54.206 4.7117 11.505 2.6648e-19 Weight -0.016404 0.0031249 -5.2493 1.0283e-06 Year_76 2.0887 0.71491 2.9215 0.0044137 Year_82 8.1864 0.81531 10.041 2.6364e-16 Weight^2 1.5573e-06 4.9454e-07 3.149 0.0022303观测数:94,误差自由度:89均方根误差:2.78 r平方:0.885,调整后r平方0.88 f统计量vs常数模型:172,p值= 5.52e-41
fitlm
为名义变量创建两个虚拟(指标)变量,一年
.哑变量Year_76
如果模型年份是1976年,则取1,如果不是,则取0。哑变量Year_82
如果模型年份是1982年,则取1,如果不是,则取0。1970年是参照年。对应的模型为
使用稳健拟合方法拟合线性回归模型。
加载样例数据。
负载哈尔德
的哈尔德
数据测量水泥成分对其硬化热的影响。矩阵成分
含有水泥中四种化学物质的百分比组成。数组热
包含每个水泥样品180天后的硬化热。
为数据拟合一个稳健的线性模型。
配料,热量,“线性”,“RobustOpts”,“上”)
mdl =线性回归模型(稳健拟合):y ~ 1 + x1 + x2 + x3 + x4估计系数:估计SE tStat pValue ________ _______ ________ ________(截距)60.09 75.818 0.79256 0.4509 x1 1.5753 0.80585 1.9548 0.086346 x2 0.5322 0.78315 0.67957 0.51596 x3 0.13346 0.8166 0.16343 0.87424 x4 -0.12052 0.7672 -0.15709 0.87906观测数量:13,误差自由度:8均方根误差:2.65 r平方:0.979,调整r平方0.969 f统计量vs常数模型:94.6, p-value = 9.003 -07
的帽子矩阵H是用数据矩阵定义的吗X:
H=X(XTX)1XT.
对角线元素h2满足
在哪里n观察数(行数X),p是回归模型中的系数数。
的利用的观察我是值我对角线项,h2,是帽子矩阵的H.因为杠杆值的和是p(回归模型中的系数数),一个观察结果我可以被认为是一个异常值,如果它的杠杆率大大超过p/n,在那里n是观测的数量。
库克距离是拟合值的比例变化。中的每个元素CooksDistance
是由于删除观测值而导致系数向量的归一化变化。库克的距离,D我,表示观察我是
在哪里
是j拟合响应值。
是j拟合的响应值,其中拟合不包括观测值我.
均方误差是均方误差。
p是回归模型中的系数数。
库克距离在代数上等价于以下表达式:
在哪里r我是我残差,和h2是我杠杆价值。
CooksDistance
是一个n的-by-1列向量诊断
表格LinearModel
对象。
主要的拟合算法是QR分解。对于鲁棒拟合,算法为robustfit
.
若要使用套索或弹性网去除线性回归中的冗余预测因子,请使用套索
函数。
若要使用岭回归将具有相关项的回归正则化,请使用脊
或套索
功能。
要使用偏最小二乘正则化具有相关项的回归,请使用plsregress
函数。
使用注意事项和限制:
当你用fitlm
或stepwiselm
,则不能在包含至少一个分类预测器的表中提供训练数据,并且不能使用“CategoricalVars”
名称-值对参数。代码生成不支持分类预测器。万博1manbetx若要对希望被视为类别的变量进行伪编码,请使用dummyvar
在拟合模型之前。
有关代码生成示例,请参见用于预测的代码生成工作流而且为代码生成指定可变大小的参数.有关更多信息,请参阅中的主题代码生成.
你点击了一个对应于这个MATLAB命令的链接:
在MATLAB命令窗口中输入该命令来运行该命令。Web浏览器不支持MATLAB命令。万博1manbetx
您也可以从以下列表中选择一个网站:
选择中国站点(中文或英文)以获得最佳站点性能。其他MathWorks国家站点没有针对您所在位置的访问进行优化。