クラスター分析2
クラスター分析は別名
数値分類法(numerical taxonomy)ともいう。
クラスター分析の利用法をBall(Classification Analysis:1971)は7つあげている。
- 真の類型を見出す
- モデルの当てはめ
- グループ化に基づく予測
- 仮設の検定
- データ探索
- 仮設形成
- データ集約
クラスター分析は類似の度合いを定量化するが、その測定法は類似度と非類似度に大別される距離の計測による。
距離
- ユークリッド距離(前回参照)
- 市街距離:2点間の差の絶対値の総和
- ミンコフスキー距離:上の2つを含む一般的測度
- 重み付きユークリッド距離:単位系が異なる場合に行う標準化
- マハラノビス距離:非類似性による指標
類似性の測度
- ピアソンの積率相関係数:-1≦R(a,b)≦1のいわゆる相関係数
- パターン類似率(Pattern Similarity):積和を2乗和の平方根で除して標準化した0≦S(a,b)≦1の指数
- 偏差パターン類似率:-1≦S(a,b)≦1の指数
質的変数
- 一致係数
- 類似比
- 点相関係数
代表的なクラスター計算法
- 階層的方法
- 最近隣法(鎖効果という問題が生じる場合がある)
- 最遠隣法(完全連結法ともいう)
- 重心法(セントロイド法ともいう)
- メディアン法
- 群平均法
- ウォード法(Ward's method)
- 非階層的方法
- 最適化法:あらかじめ設定された基準を最適化するように分割を行う。
- 密度探索法
**********************************************************
ウォード法は最小分散法ともいい、比較的明快なクラスター構造が得られ、心理学では常用されているらしい。
次のデータにウォード法を適用してみよう。
example1
A 2
B 3
C 8
D 10
E 11
F 15
G 18
なお、SASによるクラスター分析では固有値が出力されるが、これは分散共分散行列によるデータ変動の情報である。主成分分析と同じで、固有値にはこのような『利用法もある。
セミパーシャル重相関係数(Semipartial R-Squared)はクラスター内の分散あるいは説明率であり、
部分的説明率である。小さいほどばらつきのないまとまったものと解釈できる。R-Squaredはクラスター間の分散である。
部分的説明率が突然増大するとクラスター内のまとまりの悪化を意味し、その直前を
最適な分類とするのが無難である。
**********************************************************
example2
Kは「京都」で他は「小京都」と呼ばれる日本各地の市である。これを
x1:歴史の古さ
x2:寺社の多さ
x3:自然の豊さ
の10点満点で評価したのが次のデータである。
K 8 9 8
B 3 5 10
C 2 3 12
D 4 7 15
E 6 1 10
ここではproc cluster のオプションである
「pseudo」について説明する。
これはF比、t値といった統計量と対比される
擬似統計量の算出を行うものである。
SASの出力について
NCL :クラスター数
FREQ :新クラスター内の対象数
SPRSQ :セミパーシャル重相関係数
RSQ :クラスター間の分散比
Pseudo F :擬似F比で、クラスター間の分散をクラスター内の分散で除したもの。
分散分析で用いるF値に近い。
Pseudo t**2:擬似t2乗値結合された2つのクラスター間の距離でF=t^2の関係にある。
Fは大きいほうが良い、tは小さいほうが良い。両方の塩梅で最適なクラスター数を決定すると良い。クラスター数の客観的な指標といってよいだろう。