Cluster Analysis 目的 – 將資料分成幾個相異性最大的群組 基本問題 – 如何衡量事務之間的相似性 – 如何將相似的資料歸入同一群組 – 如何解釋群組的特性.

Slides:



Advertisements
Similar presentations
第二章 研究主題(研究題 目)與研究問題.
Advertisements

McGraw-Hill/Irwin © 2003 The McGraw-Hill Companies, Inc.,All Rights Reserved. 肆 資料分析與表達.
本章結構 前言 符號介紹與立透法則 指數機率分配 基本無限來源模式 基本有限來源模式 等候系統的經濟分析-最佳化 進階等候模式 16-1.
1 Chemical and Engineering Thermodynamics Chapter 2 Conservation of mass and energy Sandler.
第七章 抽樣與抽樣分配 蒐集統計資料最常見的方式是抽查。這 牽涉到兩個問題: 抽出的樣本是否具有代表性?是否能反應出母體的特徵?
Section 1.2 Describing Distributions with Numbers 用數字描述分配.
Advanced Chemical Engineering Thermodynamics
序列分析工具:MDDLogo 謝勝任 林宗慶 指導教授:李宗夷 教授.
McGraw-Hill/Irwin © 2003 The McGraw-Hill Companies, Inc.,All Rights Reserved. 參 實驗法.
1 政治大學財政所與東亞所選修 -- 應用計量分析 -- 中國財政研究 黃智聰 政治大學財政所與東亞所選修 課程名稱:應用計量分析 -- 中國財政研究 授課老師:黃智聰 授課內容: 簡單線性迴歸模型: 共線性與虛擬變數 參考書目: Hill, C. R., W. E. Griffiths, and G.
1 Advanced Chemical Engineering Thermodynamics Chapter 1 The phase equilibrium problem.
: OPENING DOORS ? 題組: Problem Set Archive with Online Judge 題號: 10606: OPENING DOORS 解題者:侯沛彣 解題日期: 2006 年 6 月 11 日 題意: - 某間學校有 N 個學生,每個學生都有自己的衣物櫃.
消費者物價指數反映生活成本。當消費者物價指數上升時,一般家庭需要花費更多的金錢才能維持相同的生活水準。經濟學家用物價膨脹(inflation)來描述一般物價持續上升的現象,而物價膨脹率(inflation rate)為物價水準的變動百分比。
Section 2.3 Least-Squares Regression 最小平方迴歸
STAT0_sampling Random Sampling  母體: Finite population & Infinity population  由一大小為 N 的有限母體中抽出一樣本數為 n 的樣 本,若每一樣本被抽出的機率是一樣的,這樣本稱 為隨機樣本 (random sample)
第 4 章 迴歸的同步推論與其他主題.
1 政大公企中心產業人才投資課程 -- 企業決策分析方法 -- 黃智聰 政大公企中心產業人才投資課程 課程名稱:企業決策分析方法 授課老師:黃智聰 授課內容:利用分公司之追蹤資料進行企業決策分析 參考書目: Hill, C. R., W. E. Griffiths, and G. G. Judge,
STAT0_corr1 二變數的相關性  變數之間的關係是統計研究上的一大目標  討論二分類變數的相關性,以列聯表來表示  討論二連續隨機變數時,可以作 x-y 散佈圖觀察它 們的關係強度  以相關係數來代表二者關係的強度.
Canonical Correlation 典型相關 目標 1 – 決定兩組變數 ( 對相同事務的衡量 ) 是否獨立, 或決定這兩組變數之間關係的強度 –Example: Y1+Y2+…+Ym=X1+X2+…Xn ( 一般式 ) Y1, Y2,…Ym 是否與 X1, X2,..,Xn 有相關 / 無相關.
Section 2.2 Correlation 相關係數. 散佈圖 1 散佈圖 2 散佈圖的盲點 兩座標軸的刻度不同,散佈圖的外觀呈 現的相聯性強度,會有不同的感受。 散佈圖 2 相聯性看起來比散佈圖 1 來得強。 以統計數字相關係數做為客觀標準。
McGraw-Hill/Irwin © 2003 The McGraw-Hill Companies, Inc.,All Rights Reserved. 肆 資料分析與表達.
1 政治大學東亞所選修 -- 計量分析與中國大陸研究黃智聰 政治大學東亞所選修 課程名稱:計量分析與中國大陸研究 (量化分析) 授課老師:黃智聰 授課內容:時間序列與橫斷面資料的共用 參考書目: Hill, C. R., W. E. Griffiths, and G. G. Judge, (2001),
Monte Carlo Simulation Part.2 Metropolis Algorithm Dept. Phys. Tunghai Univ. Numerical Methods C. T. Shih.
投資分析與決策 1. 投資分析技術簡介 2. 損益平衡分析 3. 要素評分法 4. 狀況評估法 5. 工程經濟分析法.
第一章 演算法:效率、分析與量級 1.1演算法 1.2發展有效率演算法的重要性 1.3演算法的分析 1.4量級(Order)
1 Part IC. Descriptive Statistics Multivariate Statistics ( 多變量統計 ) Focus: Multiple Regression ( 多元迴歸、複迴歸 ) Spring 2007.
變異數分析 檢定 類型 One Way ANOVA Two way ANOVA Three way ANOVA ..five..
© The McGraw-Hill Companies, Inc., 2008 第 6 章 製造流程的選擇與設計.
1 政治大學公企中心必修課 -- 社會科學研究方法(量化分析) -- 黃智聰 政治大學公企中心必修課 課程名稱:社會科學研究方法(量化分析) 授課老師:黃智聰 授課內容: 簡單線性迴歸模型: 共線性與虛擬變數 參考書目: Hill, C. R., W. E. Griffiths, and G. G.
1 第四章 多變數函數的微分學 § 4.1 偏導數定義 定義 極限值 ■. 2 定理 極限值的基本定理 (1) 極限值的唯一性 : 若 存在,則 其值必為唯一。 (2) 若 且 ( 與 為常數 ) , 則 且 為常數且.
1 開南大學公管所與國企所合開選修課 -- 量化分析與應用 -- 黃智聰 開南大學公管所與國企所合開選修課 課程名稱:量化分析與應用 授課老師:黃智聰 授課內容: 簡單線性迴歸模型: 共線性與虛擬變數 參考書目: Hill, C. R., W. E. Griffiths, and G. G. Judge,
實驗十一 有機酸在水與有機溶劑間之分佈.
McGraw-Hill/Irwin © 2003 The McGraw-Hill Companies, Inc.,All Rights Reserved. 貳 研究設計.
Introduction to Java Programming Lecture 17 Abstract Classes & Interfaces.
第三部分:研究設計 ( 二): 研究工具的信效度 與研究效度 (第九章之第 306 頁 -308 頁;第四章)
Ch05 確定研究變項.
1 政大公企中心產業人才投資課程 -- 企業決策分析方法 -- 黃智聰 政大公企中心產業人才投資課程 課程名稱:企業決策分析方法 授課老師:黃智聰 授課內容: 質化因素在企業決策分析之重要性 參考書目: Hill, C. R., W. E. Griffiths, and G. G. Judge, (2001),
選舉制度、政府結構與政 黨體系 Cox (1997) Electoral institutions, cleavage strucuters, and the number of parties.
緒論 統計的範圍 敘述統計 推論統計 有母數統計 無母數統計 實驗設計 統計的本質 大量 數字 客觀.
生物統計學 期中報告 組員 : 醫放一 A 王小明 醫放一 A 王小明 醫放一 A 王大明 醫放一 A 王大明 2009/04/14.
Introduction to Chemical Engineering Thermodynamics
研究資料的分析. 資料分析的基本策略  General data analysis strategies 1.Sketching ideas 2.Taking notes 3.Summarize field nores 4.Getting feedback on ideas 5.Working with.
政治大學公企中心必修課-- 社會科學研究方法(量化分析)--黃智聰
觀測量的權 權的觀念與計算.
1 政治大學國務院國安碩專班選修課 -- 社會科學研究方法(量化分析) -- 黃智聰 政治大學國務院國安碩專班選修課 課程名稱:社會科學研究方法(量化分析) 授課老師:黃智聰 授課內容: 簡單線性迴歸模型: 共線性與虛擬變數 參考書目: Hill, C. R., W. E. Griffiths, and.
變異數分析 迴歸分析 因素分析 區別分析 集區分析
Section 4.2 Probability Models 機率模式. 由實驗看機率 實驗前先列出所有可能的實驗結果。 – 擲銅板:正面或反面。 – 擲骰子: 1~6 點。 – 擲骰子兩顆: (1,1),(1,2),(1,3),… 等 36 種。 決定每一個可能的實驗結果發生機率。 – 實驗後所有的實驗結果整理得到。
演算法 8-1 最大數及最小數找法 8-2 排序 8-3 二元搜尋法.
Chapter 3 Entropy : An Additional Balance Equation
Learning Method in Multilingual Speech Recognition Author : Hui Lin, Li Deng, Jasha Droppo Professor: 陳嘉平 Reporter: 許峰閤.
The effect of task on the information-related behaviors of individuals in a work-group environment. The effect of task on the information-related behaviors.
描述統計 描述統計(Descriptive Statistics)-將蒐集到的資料加以整理和記錄,並以數字和統計圖表的方式來分析及解釋資料所具有的特性. 基本統計值(平均數,中位數,標準差,變異量….) 相關性測量(卡方,相關係數,迴歸…)
Unit 3 : 變異數分析 --ANOVA 3.1 範例說明 行銷研究方面, One-Way ANOVA 可 用以研擬市場區隔及目標選擇策略。 教育研究方面,此一模式可用以評估 教師之教學績效。 農業研究方面,此一模式則可用以挑 選使玉米收穫量極大化的肥料。
Chapter 7 Sampling Distribution
第十二章 變異數分析 12.1 單因子變異數分析 1-way ANOVA Subject : 比較三組以上的母體平均數 k 組資料,母體平均數為 μ 1, …, μ i, …, μ k Data : k 組資料,樣本數為 n 1,…, n k. x ij --- 第 i 組的第 j 個觀察值 N =
第七章自動群集偵測 Automatic Cluster Detection. 自動群集偵測 簡介 簡介 K 平均法 K 平均法 凝聚方法 凝聚方法 變數的變化 變數的變化 自動群集偵測的優、缺點 自動群集偵測的優、缺點.
Structural Equation Modeling Chapter 8 潛伏變數路徑分析=完全 SEM 潛伏變數路徑分析.
連續隨機變數 連續變數:時間、分數、重量、……
McGraw-Hill/Irwin © 2003 The McGraw-Hill Companies, Inc.,All Rights Reserved. 壹 企業研究導論.
McGraw-Hill/Irwin © 2003 The McGraw-Hill Companies, Inc.,All Rights Reserved. 壹 企業研究導論.
McGraw-Hill/Irwin © 2003 The McGraw-Hill Companies, Inc.,All Rights Reserved. 參 資料蒐集的方法.
Ch05 確定研究變項.
Regression 相關 –Cross table –Bivariate –Contingency Cofficient –Rank Correlation 簡單迴歸 多元迴歸.
: Finding Paths in Grid ★★★★☆ 題組: Contest Archive with Online Judge 題號: 11486: Finding Paths in Grid 解題者:李重儀 解題日期: 2008 年 10 月 14 日 題意:給一個 7 個 column.
財務管理概論 劉亞秋‧薛立言 合著 (東華書局, 2007)
幼兒行為觀察與記錄 第八章 事件取樣法.
1 Chemical and Engineering Thermodynamics Chapter 1 Introduction Sandler.
McGraw-Hill/Irwin © 2003 The McGraw-Hill Companies, Inc.,All Rights Reserved. 肆 資料分析與表達.
第七章 計算複雜度概論:排序問題 7.1計算複雜度 7.2插入排序與選擇排序 7.3每次比較至多移除一個導致之演算法的下限
Presentation transcript:

Cluster Analysis 目的 – 將資料分成幾個相異性最大的群組 基本問題 – 如何衡量事務之間的相似性 – 如何將相似的資料歸入同一群組 – 如何解釋群組的特性

步驟 – 研究問題 – 變數的選擇 – 相似性衡量 – 集群方法的選擇 – 集群數目的決定 – 集群的解釋 – 集群的驗證

研究問題 – 將一組資料作客觀的分類 –Example: 從人們購買汽車的種類, 汽車 的特色以及消費者的個人特質, 描述不同 的汽車消費群的特色

變數的選擇 – 變數的選擇必須兼顧理論 / 實務的考量 – 集群分析對於納入不相關的變數非常敏 感, 不應該把不相關的變數引入, 增加異 常觀察值 (outliers) –Outliners 是指與其他觀察值相差極大的 資料

相似性衡量 –Distance –Association measures 集群方法的選擇 – 相似矩陣的空間化 – 層級集群方法 ( Hierarchical Methods) – 非層級集群方法 (Non- Hierarchical Methods) Sequential threshold Paralleled threshold Optimizing partitioning

集群數目的決定 – 依據研究者的設定 – 依據理論 集群的解釋 – 以集群的重心, 平均值, 來描述集群 – 以集群的變異情況來描述集群 集群的驗證 –ANOVA –Scheffe

相似性衡量 Distance – 歐基里得 (Euclidean distance) – 馬氏距離 (Mahalanobis distance) – 街道距離 (city block distance)

相似性衡量 關聯衡量 (Association measures) – 如果資料是名目尺度或虛數 Match coefficient Similarity ration

集群方法的選擇 層級集群方法 ( Hierarchical Methods) –Linkage methods 單一連鎖 (single linkage)

集群方法的選擇 層級集群方法 ( Hierarchical Methods) –Linkage methods 完全連鎖 (complete linkage)

集群方法的選擇 層級集群方法 ( Hierarchical Methods) –Linkage methods 平均連鎖 (average linkage)

集群方法的選擇 層級集群方法 ( Hierarchical Methods) – 華德法 (Ward’s method) 每一個資料都是一個集群 計算集群之內的變異數 合併變異數最小的集群

集群方法的選擇 - 非層級集群方法 (Non- Hierarchical Methods) K-means methods – 將資料分割為 K 個原始集群 – 計算資料點到各個集群的重心距離 ( 歐基里 得距離 ) – 將靠近重心的資料歸到對應的集群 – 從新計算加入新資料的集群之重心 – 重複步驟二直到資料歸類完成

Factor analysis vs. Cluster analysis – 分析單位是變數之間 – 分析的方式在同時考 量變數間的關係 – 分析單位是觀察值個 體 – 分析的方式是階層式 的判別

SPSS 操作

集群方法的選擇 – 相似矩陣的空間化 – 層級集群方法 ( Hierarchical Methods) – 非層級集群方法 (Non- Hierarchical Methods) Sequential threshold Paralleled threshold Optimizing partitioning

Outcome

Cluster1 (14,15,11,13,12)

K-mean 操作

Outcome- K mean