比较多个分布符合
这个例子展示了如何适应多个概率分布对象相同的样本数据集,和如何获得视觉的比较以及每个分布与数据的吻合程度。
步骤1。加载示例数据。
加载示例数据。
负载carsmall
这些数据包含英里每加仑(英里/加仑
)测量不同品牌和型号的汽车,按原产国(分组起源
),模型(Model_Year
)和其他车辆的特征。
步骤2。创建一个分类数组。
变换起源
到一个分类数组和删除的意大利汽车示例数据。由于只有一个意大利的汽车,fitdist
不能适应分布以外的小组使用一个内核。
起源=分类(cellstr(起源));MPG2 = MPG(原点~ =“意大利”);Origin2 =来源(来源~ =“意大利”);Origin2 = removecats (Origin2,“意大利”);
步骤3。适合多个分布的组。
使用fitdist
符合威布尔,正常、物流和内核发行版中的每个原产国集团英里/加仑
数据。
[WeiByOrig、国家]= fitdist (MPG2“威布尔”,“通过”,Origin2);[NormByOrig、国家]= fitdist (MPG2“正常”,“通过”,Origin2);[LogByOrig、国家]= fitdist (MPG2“物流”,“通过”,Origin2);[KerByOrig、国家]= fitdist (MPG2“内核”,“通过”,Origin2);
WeiByOrig
WeiByOrig =1×5单元阵列{1 x1概率。x1 prob.WeibullDistribution WeibullDistribution} {1}{1 x1概率。x1 prob.WeibullDistribution WeibullDistribution} {1}{1 x1概率。WeibullDistribution}
国家
国家=5 x1细胞{“法国”}{“德国”}{‘日本’}{“瑞典”}{'美国'}
每个国家集团现在有四个分布与它相关联的对象。例如,单元阵列WeiByOrig
包含五个威布尔分布对象,一个用于每个国家代表在样例数据。同样,单元阵列常态ByOrig
包含5个正态分布对象,等等。每个对象包含属性保存的信息数据,分布和参数。数组国家
列出了原产国为每个组在相同的顺序分布对象存储在单元格数组。
步骤4。计算每个分布的pdf。
为美国和提取四个概率分布对象计算每个分布的pdf。如步骤3所示,美国在每个单元阵列在位置5。
WeiUSA = WeiByOrig {5};NormUSA = NormByOrig {5};LogUSA = LogByOrig {5};KerUSA = KerByOrig {5};x = 0:1:50;pdf_Wei = pdf (WeiUSA x);pdf_Norm = pdf (NormUSA x);pdf_Log = pdf (LogUSA x);pdf_Ker = pdf (KerUSA x);
第5步。pdf为每个分布的阴谋。
阴谋每个分布适合美国的pdf数据叠加在一个示例数据的柱状图。规范化的直方图显示更容易。
创建一个美国样本数据的柱状图。
data = MPG (Origin2 = =“美国”);图直方图(数据、10“归一化”,“pdf”,“FaceColor”,1,0.8,0);
每个安装分布的pdf。
线(x, pdf_Wei“线型”,“- - -”,“颜色”,“r”)线(x, pdf_Norm“线型”,“-”。,“颜色”,“b”)线(x, pdf_Log“线型”,“——”,“颜色”,‘g’)线(x, pdf_Ker“线型”,“:”,“颜色”,“k”)传说(“数据”,“威布尔”,“正常”,“物流”,“内核”,“位置”,“最佳”)标题(“从美国汽车MPG”)包含(“英里”)
叠加pdf情节在一个示例数据的柱状图提供了一个视觉比较的每种类型的分布与数据的吻合程度。只有非参数核分布KerUSA
接近原始数据揭示了两种模式。
步骤6。美国进一步组织数据。
探讨两种模式显示在步骤5中,集团的英里/加仑
数据由原产国(起源
)和模型(Model_Year
),用fitdist
每组以适应内核发行版。
[KerByYearOrig,名称]= fitdist(英里/加仑,“内核”,“通过”,{起源Model_Year});
每个独特的起源和组合模型年现在有一个内核分配与之关联的对象。
的名字
名称=14 x1细胞{“法国…'}{“法国…'}{'Germany...'} {'Germany...'} {'Germany...'} {'Italy...' } {'Japan...' } {'Japan...' } {'Japan...' } {'Sweden...' } {'Sweden...' } {'USA...' } {'USA...' } {'USA...' }
阴谋每个美国的三种概率分布模型,在职位12、13和14单元阵列KerByYearOrig
。
图保存在为我= 12:14情节(x, pdf (KerByYearOrig {}, x))结束传奇(“1970”,“1976”,“1982”)标题(“美国汽车模型年英里”)包含(“英里”)举行从
当进一步分组模型,pdf的情节揭示两种截然不同的山峰英里/加仑
数据对美国生产的汽车为模型——一个1982年1970年,另一个用于模型。这就解释了为什么美国的直方图结合英里每加仑数据显示两个峰值,而不是一个。