最新のリリースでは,このページがまだ翻訳されていません。このページの最新版は英语でご覧になれます。

连锁

凝集型の阶层クラスターツリー

说明

ž=键(Xは,入力データ行列Xの行の阶层クラスターが含まれているツリーをエンコードする行列žを返します。

ž=键(X方法は,指定された方法(クラスター间の距离を测定する方法を记述します)を使用してツリーを作成します。详细は,リンケージを参照してください。

ž=键(X方法は,Xの行の间の距离を计算する关数pdistを渡すことによりクラスタリングを実行します。

ž=键(X方法'savememory',は,'上'である场合はメモリ节约アルゴリズムを,“关”である场合は标准アルゴリズムを使用します。

ž=键(X方法pdist_inputsは,Xの行の间の距离を计算する关数pdistpdist_inputsを渡します。引数pdist_inputsは,'seuclidean'“闵可夫斯基“马氏のいずれかの尺度と追加の距离计量オプションから构成されます。

ž=键(ÿは,距离行列のベクトル表现ÿを使用します。ÿは,pdistによって计算されるか,pdistの出力形式に従うより一般的な非类似度行列になります。

ž=键(ÿ方法は,指定された方法(クラスター间の距离を测定する方法を记述します)を使用してツリーを作成します。

すべて折りたたむ

20000件の観测値をもつ标本データを无作为に生成します。

RNG('默认'%用于重现X =兰特(20000,3);

病房连结法を使用して阶层クラスターツリーを作成します。このケースでは,既定により关数Cluster数据'SaveMemory'オプションが'上'に设定されます通常。は,Xの次元数と使用可能メモリに基づいて'SaveMemory'に最适な値を指定します。

Z =键(X,“病房”);

データを最大4つのグループにクラスター化し,结果をプロットします。

C =簇(Z,'Maxclust',4);scatter3(X(:,1),X(:,2),X(:,3),10,c)中

は,データ内のグループを4つ识别します。

fisheririsデータセットで最大3つのクラスターを求め,花のクラスター割り当てを既知の分类と比较します。

标本データを読み込みます。

加载fisheriris

'平均'法と“切比雪夫”尺度を使用して阶层クラスターツリーを作成します。

Z =键(MEAS,'平均'“切比雪夫”);

データ内のクラスターを最大3つ求めます。

T =簇(Z,'maxclust',3);

žの系统树図を作成します0.3つのクラスターを表示するため,3番目から最后までのリンクと2番目から最后までのリンクの中间点にカットオフを设定して'ColorThreshold'を使用します。

截留值=中间值([Z(端2,3)Z(最终1,3)]);树状图(Z,'ColorThreshold',隔断)

3つのクラスターがどのようにして1つに结合されるかを调べるため,žの最后の2行を表示します。连锁は,293番目のクラスター(青)を297番目のクラスター(赤)と结合し,1.7583というリンクで298番目のクラスターを形成します。そして,连锁は296番目のクラスター(绿)を298番目のクラスターと结合します。

lastTwo = Z(最终1:端,:)
lastTwo =2×3293.0000 297.0000 1.7583 296.0000 298.0000 3.4445

クラスターの割り当てが3つの种类に対応していることを确认します。たとえば,クラスターの1つには,2-番目の种类の花が50本,3番目の种类の花が40本含まれています。

交叉(T,物种)
ANS =3×30 0 10 0 50 40 50 0 0

examgradesデータセットを読み込みます。

加载examgrades

连锁を使用して阶层ツリーを作成します。'单'法と指数が3のミンコフスキー距离を使用します。

Z =键(等级,'单'{“闵可夫斯基,3});

25番目のクラスタリング手顺を観察します。

Z(25,:)
ANS =1×386.0000 137.0000 4.5307

连锁は,86番目の観测値と137番目のクラスターを结合して,インデックス 120 + 25 = 145 のクラスターを形成します0.120は等级内の観测値の総数,25はžの行番号です0.86番目の観测値と137番目のクラスター内の任意の点の间の最小距离は4.5307です。

非类似度行列を使用して凝集型阶层クラスターツリーを作成します。

非类似度行列としてXを使用します。squareformを使用して,连锁が受け入れるベクトル形式にこの行列を変换します。

X = [0 1 2 3;1 0 4 5;2 4 0 6;3 5 6 0];Y = squareform(X);

连锁を使用してクラスターツリーを作成します。'完成'法でクラスター间の距离を计算します。žの最初の2列は,连锁がどのようにクラスターを结合したかを示します。žの3列目は,クラスター间の距离を与えます。

Z =键(Y,'完成'
Z =3×31 2 1 3 5 4 4 6 6

žの系统树図を作成します.X轴はツリーのリーフノードに,Y轴はクラスター间のリンク距离に対応します。

树状图(Z)

入力引数

すべて折りたたむ

入力データ0.2行以上の数値行列を指定します。行は観测値を,列はカテゴリまたは次元を表します。

データ型:|

クラスター间の距离を计算するアルゴリズム。次の表のいずれかの値を指定します。

メソッド 说明
'平均'

重みのない平均距离(UPGMA)

“质心”

重心までの距离(UPGMC)。ユークリッド距离にのみ适しています。

'完成'

最大距离

“中位数”

重みのある重心までの距离(WPGMC)。ユークリッド距离にのみ适しています。

'单'

最短距离

“病房”

内部平方距离(最小分散アルゴリズム)。ユークリッド距离にのみ适しています。

“加权”

重みのある平均距离(WPGMA)

これらの方法の详细については,リンケージを参照してください。

距离计量。关数pdistが受け入れる尺度を指定します。これらの尺度について,次の表で说明します。

说明
“欧几里德”

ユークリッド距离(既定の设定)。

'squaredeuclidean'

2乘ユークリッド距离(效率向上のみを目的に提供されているオプション。三角不等式は満たさない)。

'seuclidean'

标准化されたユークリッド距离。観测値间の各座标差は,标准偏差S =nanstd(X)の対応する要素で除算することによりスケーリングされます。小号について别の値を指定するには,DistParameterを使用します。

“马氏

Xの标本共分散を使用したマハラノビス距离,C =nancov(X)Cについて别の値を指定するには,DistParameterを使用します。ここで,行列Cは対称かつ正定です。

'城市街区'

市街地距离。

“闵可夫斯基

ミンコフスキー距离。指数の既定値は2です。异なる指数Pを指定するには,DistParameterを使用します。Pは指数を表す正のスカラー値です。

“切比雪夫”

チェビシェフ距离(最大座标差)。

“余弦”

1から,ベクトルとして扱われる点の间の夹角の余弦を引いた値。

“相关性”

1から,値の系列として扱われる点の间の标本相关を引いた値。

“汉明”

异なる座标の比率を示すハミング距离。

“捷卡”

1から,ジャカード系数(异なる非ゼロ座标の比率)を引いた値。

“斯皮尔曼

1から,観测値间の标本スピアマンの顺位相关(値の系列として扱われる)を引いた値。

@distfun

カスタム距离关数のハンドル。距离关数の形式は次のようになります。

功能D2 = distfun(ZI,ZJ)距离的计算%...
ここで,

  • ZIは,単一の観测値が含まれている1ñ列のベクトルです。

  • ZJは,复数の観测値が含まれているM2ñ列の行列です。distfunは,任意の个数の観测値が含まれている行列ZJを受け入れなければなりません。

  • D2M21列の距离のベクトルであり,D2(k)的は観测値ZIZJ(K,:)の间の距离です。

データがスパースでない场合,通常は关数ハンドルではなく组み込みの距离を使用する方が高速に距离を计算できます。

详细は,距离计量を参照してください。

'seuclidean'“闵可夫斯基“马氏の场合にpdistの追加入力引数DistParameterを指定するには,ではなくpdist_inputsを使用します。

データ型:烧焦||function_handle

距离计量およびそのオプション。关数pdistの2つの入力引数距离およびDistParameterから构成されるコンマ区切りのペアによる细胞配列を指定します。この引数は,'seuclidean'“闵可夫斯基または“马氏を指定する场合のみ有效です。

例:{ '闵可夫斯基',5}

データ型:细胞

'savememory'オプションのフラグ。'上'または“关”のいずれかを指定します。'上'に设定すると,连锁は距离行列を计算せずにクラスターを作成します。方法“质心”“中位数”または“病房”であり,“欧几里德”である场合のみ,'上'に设定できます。

'上'である场合,连锁の実行时间は次元数(Xの列数)に比例します。“关”である场合,连锁で必要となるメモリ量はÑ2に比例します.Nは観测値の个数です。について使用する最适な(最短时间になる)设定は,问题の次元数,観测値の个数および利用可能なメモリ量に依存します既定の。の设定は,最适な设定のラフな近似です。

Xの列数が20以下である场合,または距离行列を格纳するための十分なメモリがない场合,既定値は'上'です。それ以外の场合は,既定値は“关”です。

例:'savememory', '上'

距离。关数pdistの出力と同じ形式の数値ベクトルを指定します。

  • 米行の行列内の観测値のペアに対応する,长さm个(m - 1)/ 2の行ベクトル

  • (2,1),(3,1),...,(M,1),(3,2),...,(M,2),...,(M,M - 1))という顺序で并んでいる距离

ÿは,关数pdistの出力形式に従うことで,より一般的な非类似度行列になります。

データ型:|

出力引数

すべて折りたたむ

凝集型の阶层クラスターツリー,数値行列として返されます。ž(M - 1)行3列の行列です的.mは元のデータの観测値の个数です。žの1列目と2列目は,二分木の作成のペアにリンクされるクラスターのインデックスを含んでいます。叶ノードには1から米までの番号が付けられます。叶ノードは,シングルトンのクラスターで,それより高いすべてのクラスターを含んでいます。行Z(I,:)に対応する,新しく形成される各クラスターには,インデックスM +一世が割り当てられます。エントリZ(I,1)およびZ(I,2)には,クラスターM +一世を形成する2つの成分クラスターのインデックスが格纳されます。米 - 1个の上位クラスターは,クラスタリングツリーの内部ノードに対応します。Z(I,3)には,行Z(I,:)でマージされた2つのクラスターの间のリンク距离が格纳されます。

たとえば,30个の初期ノードがあるツリーの作成について考えます。クラスター5とクラスター7がステップ12で结合され,このステップではこれらの间の距离が1.5であるとします。この场合,Z(12,:)[5 7 1.5]になります。新しく形成されるクラスターのインデックスは12 + 30 = 42になります。以后の行でクラスター42が现れた场合,ステップ12で作成されたクラスターはより大きいクラスターに结合されます。

データ型:|

详细

すべて折りたたむ

リンケージ

“リンケージ” は2つのクラスターの间の距离です。

以下の表记は,さまざまな方法で使用されるリンケージを记述します。

  • クラスターはř,クラスターpおよびqから作成されます。

  • ñ[Rは,クラスター - [Rのオブジェクトの数になります。

  • XRIは,クラスター - [Rの我番目のオブジェクトになります。

  • “単连结法” は“最近傍” とも呼ばれ,2つのクラスターのオブジェクト间の最小距离を使用します。

    d [R 小号 = d 一世 小号 Ť X [R 一世 X 小号 Ĵ 一世 一世 ... ñ [R Ĵ 1 ... ñ 小号

  • “完全连结法” は“最远邻” とも呼ばれ,2つのクラスターのオブジェクト间の最大距离を使用します。

    d [R 小号 = 最大 d 一世 小号 Ť X [R 一世 X 小号 Ĵ 一世 1 ... ñ [R Ĵ 1 ... ñ 小号

  • “平均连结法” では,2つのクラスターにおけるオブジェクトのペアすべての间の距离の平均を使用します。

    d [R 小号 = 1 ñ [R ñ 小号 Σ 一世 = 1 ñ [R Σ Ĵ = 1 ñ 小号 d 一世 小号 Ť X [R 一世 X 小号 Ĵ

  • “重心连结法” では,2つのクラスターの重心间のユークリッド距离を使用します。

    d [R 小号 = X ¯ [R - X ¯ 小号 2

    ここで,

    X ¯ [R = 1 ñ [R Σ 一世 = 1 ñ [R X [R 一世

  • “メディアン连结法” では,2つのクラスターの加重重心间のユークリッド距离を使用します。

    d [R 小号 = X [R - X 小号 2

    ここで, X [R および X 小号 はクラスターřおよび小号の加重重心です。クラスターpおよびqを结合することによってクラスターřが作成された场合, X [R は次のように再帰的に定义されます。

    X [R = 1 2 X p + X q

  • “ウォードの连结” では,二乘和の増分,つまり2つのクラスターを结合したことによるクラスター内二乘和の増加を使用します。クラスター内二乘和は,クラスター内のすべてのオブジェクトと重心间の距离の二乘和として定义されます。二乘和尺度は次の距离计量d(R,S)に等しくなります。これは连锁が使用する式です。

    d [R 小号 = 2 ñ [R ñ 小号 ñ [R + ñ 小号 X ¯ [R - X ¯ 小号 2

    ここで,

    • 2 はユークリッド距离です。

    • X ¯ [R および X ¯ 小号 はクラスター[Rおよび小号の重心です。

    • ñ[Rおよびñ小号はクラスターřおよび小号の要素数です。

    一部の参考文献では,2とÑ[Rñ小号を乘算した系数をウォードの连结で使用していません。关数连锁はこの系数を使用するので,2つのシングルトンクラスターの间の距离はユークリッド距离に等しくなります。

  • “加重平均连结法” では,2つのクラスターの间で距离を计算するために再帰的定义を使用します。クラスターpおよびqを结合することによってクラスターřが作成された场合,Rと别のクラスター小号の间の距离は,pと小号の间の距离およびqと小号の间の距离の平均として定义されます。

    d [R 小号 = d p 小号 + d q 小号 2

ヒント

  • 联动装置(y)的が距离行列のベクトル表现である场合,ÿの计算速度が低下する可能性があります。“质心”“中位数”,および“病房”メソッドの场合,连锁ÿがユークリッド距离かどうかを确认します。时间のかかるチェックを回避するには,ÿではなくXを渡してください。

  • “质心”および“中位数”メソッドは,単调ではないクラスターツリーを作成できます。このようになるのは,2つのクラスターřおよび小号の结合から3番目のクラスターまでの距离がřと小号の间の距离より小さい场合です。この场合,既定の方向に描画した系统树では,叶からルートノードへのパスは下向きになります。これを回避するには,别の方法を使用してください。次の図に非単调のクラスターツリーを示します。

    この场合,クラスター1とクラスター3が结合され新しいクラスターになっており,この新しいクラスターとクラスター2の间の距离はクラスター1とクラスター3の间の距离よりも小さくなっています。これは,非単调なツリーになります。

  • ツリーを表示する关数树状图,クラスターに点を割り当てる关数,不整合の程度を计算する关数不符およびコーフェン相关系数を计算する关数cophenetなどを含む,その他の关数に出力žを提供することができます。

R2006aより前に导入