相关量化两个变量之间线性关系的强度。当两个变量之间没有相关性时,则变量的值不存在串联增加或减少的趋势。然而,两个不相关的变量不一定是独立的,因为它们可能具有非线性关系。
您可以使用线性相关来调查变量之间是否存在线性关系,而不必为数据假设或拟合特定的模型。线性相关性很小或没有线性相关性的两个变量可能具有很强的非线性关系。然而,在拟合模型之前计算线性相关是识别具有简单关系的变量的有用方法。探索变量之间关系的另一种方法是制作数据的散点图。
协方差量化两个变量之间线性关系的强度,单位相对于它们的方差。相关性是标准化的协方差,给出一个衡量线性关系程度的无量纲量,与任何变量的尺度分离。
下面三个MATLAB®函数计算样本相关系数和协方差。这些样本系数是真实协方差和总体相关系数的估计值,从中提取数据样本。
使用MATLAB浸
函数计算数据矩阵的样本协方差矩阵(其中每列表示一个单独的量)。
样本协方差矩阵具有以下性质:
在这里,X
可以是向量也可以是矩阵。对于一个米——- - - - - -n矩阵,协方差矩阵是n——- - - - - -n.
对于计算协方差的示例,加载示例数据count.dat
它包含一个24 × 3矩阵:
负载count.dat
计算此数据的协方差矩阵:
浸(计数)
MATLAB得到如下结果:
Ans = 1.0e+003 * 0.6437 0.9802 1.6567 0.9802 1.7144 2.6908 1.6567 2.6908 4.6278
该数据的协方差矩阵有如下形式:
在这里,年代2ij列之间的样本协方差是多少我和列j数据的。因为数
矩阵包含三列,协方差矩阵为3 × 3。
在特殊情况下,一个向量是的参数浸
,函数返回方差。
MATLAB函数corrcoef
为数据矩阵生成样本相关系数矩阵(其中每一列表示一个单独的量)。相关系数取值范围为-1 ~ 1,其中
接近1的值表示数据列之间存在正线性关系。
接近-1的值表示一列数据与另一列数据之间存在负线性关系(anticorrelation).
接近或等于0的值表明数据列之间没有线性关系。
对于一个米——- - - - - -n矩阵,相关系数矩阵为n——- - - - - -n.相关系数矩阵中元素的排列对应于协方差矩阵中元素的位置,如中所述协方差.
作为计算相关系数的示例,请加载示例数据count.dat
它包含一个24 × 3矩阵:
负载count.dat
输入以下语法来计算相关系数:
corrcoef(计数)
这就产生了以下3 × 3的相关系数矩阵:
卖出价= 1.0000 0.9331 0.9599 0.9331 1.0000 0.9553 0.9599 0.9553 1.0000
由于所有的相关系数都接近于1,因此中每对数据列之间都存在很强的正相关关系数
矩阵。