Cluster Analysis 目的 – 將資料分成幾個相異性最大的群組 基本問題 – 如何衡量事務之間的相似性 – 如何將相似的資料歸入同一群組 – 如何解釋群組的特性
步驟 – 研究問題 – 變數的選擇 – 相似性衡量 – 集群方法的選擇 – 集群數目的決定 – 集群的解釋 – 集群的驗證
研究問題 – 將一組資料作客觀的分類 –Example: 從人們購買汽車的種類, 汽車 的特色以及消費者的個人特質, 描述不同 的汽車消費群的特色
變數的選擇 – 變數的選擇必須兼顧理論 / 實務的考量 – 集群分析對於納入不相關的變數非常敏 感, 不應該把不相關的變數引入, 增加異 常觀察值 (outliers) –Outliners 是指與其他觀察值相差極大的 資料
相似性衡量 –Distance –Association measures 集群方法的選擇 – 相似矩陣的空間化 – 層級集群方法 ( Hierarchical Methods) – 非層級集群方法 (Non- Hierarchical Methods) Sequential threshold Paralleled threshold Optimizing partitioning
集群數目的決定 – 依據研究者的設定 – 依據理論 集群的解釋 – 以集群的重心, 平均值, 來描述集群 – 以集群的變異情況來描述集群 集群的驗證 –ANOVA –Scheffe
相似性衡量 Distance – 歐基里得 (Euclidean distance) – 馬氏距離 (Mahalanobis distance) – 街道距離 (city block distance)
相似性衡量 關聯衡量 (Association measures) – 如果資料是名目尺度或虛數 Match coefficient Similarity ration
集群方法的選擇 層級集群方法 ( Hierarchical Methods) –Linkage methods 單一連鎖 (single linkage)
集群方法的選擇 層級集群方法 ( Hierarchical Methods) –Linkage methods 完全連鎖 (complete linkage)
集群方法的選擇 層級集群方法 ( Hierarchical Methods) –Linkage methods 平均連鎖 (average linkage)
集群方法的選擇 層級集群方法 ( Hierarchical Methods) – 華德法 (Ward’s method) 每一個資料都是一個集群 計算集群之內的變異數 合併變異數最小的集群
集群方法的選擇 - 非層級集群方法 (Non- Hierarchical Methods) K-means methods – 將資料分割為 K 個原始集群 – 計算資料點到各個集群的重心距離 ( 歐基里 得距離 ) – 將靠近重心的資料歸到對應的集群 – 從新計算加入新資料的集群之重心 – 重複步驟二直到資料歸類完成
Factor analysis vs. Cluster analysis – 分析單位是變數之間 – 分析的方式在同時考 量變數間的關係 – 分析單位是觀察值個 體 – 分析的方式是階層式 的判別
SPSS 操作
集群方法的選擇 – 相似矩陣的空間化 – 層級集群方法 ( Hierarchical Methods) – 非層級集群方法 (Non- Hierarchical Methods) Sequential threshold Paralleled threshold Optimizing partitioning
Outcome
Cluster1 (14,15,11,13,12)
K-mean 操作
Outcome- K mean