Cluster Analysis 目的 – 將資料分成幾個相異性最大的群組基本問題 – 如何衡量事務之間的相似性 – 如何將相似的資料歸入同一群組 – 如何解釋群組的特性.

Slides:

Advertisements

Similar presentations

第二章研究主題（研究題目）與研究問題.

Advertisements

McGraw-Hill/Irwin © 2003 The McGraw-Hill Companies, Inc.,All Rights Reserved. 肆資料分析與表達.

本章結構前言符號介紹與立透法則指數機率分配基本無限來源模式基本有限來源模式等候系統的經濟分析-最佳化進階等候模式 16-1.

1 Chemical and Engineering Thermodynamics Chapter 2 Conservation of mass and energy Sandler.

第七章抽樣與抽樣分配蒐集統計資料最常見的方式是抽查。這牽涉到兩個問題：抽出的樣本是否具有代表性?是否能反應出母體的特徵?

Section 1.2 Describing Distributions with Numbers 用數字描述分配.

Advanced Chemical Engineering Thermodynamics

序列分析工具:MDDLogo 謝勝任林宗慶指導教授:李宗夷教授.

McGraw-Hill/Irwin © 2003 The McGraw-Hill Companies, Inc.,All Rights Reserved. 參實驗法.

1 政治大學財政所與東亞所選修 -- 應用計量分析 -- 中國財政研究黃智聰政治大學財政所與東亞所選修課程名稱：應用計量分析 -- 中國財政研究授課老師：黃智聰授課內容：簡單線性迴歸模型：共線性與虛擬變數參考書目： Hill, C. R., W. E. Griffiths, and G.

1 Advanced Chemical Engineering Thermodynamics Chapter 1 The phase equilibrium problem.

: OPENING DOORS ? 題組： Problem Set Archive with Online Judge 題號： 10606: OPENING DOORS 解題者：侯沛彣解題日期： 2006 年 6 月 11 日題意： - 某間學校有 N 個學生，每個學生都有自己的衣物櫃.

消費者物價指數反映生活成本。當消費者物價指數上升時，一般家庭需要花費更多的金錢才能維持相同的生活水準。經濟學家用物價膨脹（inflation）來描述一般物價持續上升的現象，而物價膨脹率（inflation rate）為物價水準的變動百分比。

Section 2.3 Least-Squares Regression 最小平方迴歸

STAT0_sampling Random Sampling  母體： Finite population & Infinity population  由一大小為 N 的有限母體中抽出一樣本數為 n 的樣本，若每一樣本被抽出的機率是一樣的，這樣本稱為隨機樣本 (random sample)

第 4 章迴歸的同步推論與其他主題.

1 政大公企中心產業人才投資課程 -- 企業決策分析方法 -- 黃智聰政大公企中心產業人才投資課程課程名稱：企業決策分析方法授課老師：黃智聰授課內容：利用分公司之追蹤資料進行企業決策分析參考書目： Hill, C. R., W. E. Griffiths, and G. G. Judge,

STAT0_corr1 二變數的相關性  變數之間的關係是統計研究上的一大目標  討論二分類變數的相關性，以列聯表來表示  討論二連續隨機變數時，可以作 x-y 散佈圖觀察它們的關係強度  以相關係數來代表二者關係的強度.

Canonical Correlation 典型相關目標 1 – 決定兩組變數 ( 對相同事務的衡量 ) 是否獨立, 或決定這兩組變數之間關係的強度 –Example: Y1+Y2+…+Ym=X1+X2+…Xn ( 一般式 ) Y1, Y2,…Ym 是否與 X1, X2,..,Xn 有相關 / 無相關.

Section 2.2 Correlation 相關係數. 散佈圖 1 散佈圖 2 散佈圖的盲點兩座標軸的刻度不同，散佈圖的外觀呈現的相聯性強度，會有不同的感受。散佈圖 2 相聯性看起來比散佈圖 1 來得強。以統計數字相關係數做為客觀標準。

McGraw-Hill/Irwin © 2003 The McGraw-Hill Companies, Inc.,All Rights Reserved. 肆資料分析與表達.

1 政治大學東亞所選修 -- 計量分析與中國大陸研究黃智聰政治大學東亞所選修課程名稱：計量分析與中國大陸研究（量化分析）授課老師：黃智聰授課內容：時間序列與橫斷面資料的共用參考書目： Hill, C. R., W. E. Griffiths, and G. G. Judge, (2001),

Monte Carlo Simulation Part.2 Metropolis Algorithm Dept. Phys. Tunghai Univ. Numerical Methods C. T. Shih.

投資分析與決策 1. 投資分析技術簡介 2. 損益平衡分析 3. 要素評分法 4. 狀況評估法 5. 工程經濟分析法.

第一章演算法：效率、分析與量級 1.1演算法 1.2發展有效率演算法的重要性 1.3演算法的分析 1.4量級(Order)

1 Part IC. Descriptive Statistics Multivariate Statistics ( 多變量統計 ) Focus: Multiple Regression ( 多元迴歸、複迴歸 ) Spring 2007.

變異數分析檢定類型 One Way ANOVA Two way ANOVA Three way ANOVA ..five..

© The McGraw-Hill Companies, Inc., 2008 第 6 章製造流程的選擇與設計.

1 政治大學公企中心必修課 -- 社會科學研究方法（量化分析） -- 黃智聰政治大學公企中心必修課課程名稱：社會科學研究方法（量化分析）授課老師：黃智聰授課內容：簡單線性迴歸模型：共線性與虛擬變數參考書目： Hill, C. R., W. E. Griffiths, and G. G.

1 第四章多變數函數的微分學 § 4.1 偏導數定義定義極限值 ■. 2 定理極限值的基本定理 (1) 極限值的唯一性 : 若存在，則其值必為唯一。 (2) 若且 ( 與為常數 ) ，則且為常數且.

1 開南大學公管所與國企所合開選修課 -- 量化分析與應用 -- 黃智聰開南大學公管所與國企所合開選修課課程名稱：量化分析與應用授課老師：黃智聰授課內容：簡單線性迴歸模型：共線性與虛擬變數參考書目： Hill, C. R., W. E. Griffiths, and G. G. Judge,

實驗十一有機酸在水與有機溶劑間之分佈.

McGraw-Hill/Irwin © 2003 The McGraw-Hill Companies, Inc.,All Rights Reserved. 貳研究設計.

Introduction to Java Programming Lecture 17 Abstract Classes & Interfaces.

第三部分：研究設計 ( 二）：研究工具的信效度與研究效度（第九章之第 306 頁 -308 頁；第四章）

Ch05 確定研究變項.

1 政大公企中心產業人才投資課程 -- 企業決策分析方法 -- 黃智聰政大公企中心產業人才投資課程課程名稱：企業決策分析方法授課老師：黃智聰授課內容：質化因素在企業決策分析之重要性參考書目： Hill, C. R., W. E. Griffiths, and G. G. Judge, (2001),

選舉制度、政府結構與政黨體系 Cox (1997) Electoral institutions, cleavage strucuters, and the number of parties.

緒論統計的範圍敘述統計推論統計有母數統計無母數統計實驗設計統計的本質大量數字客觀.

生物統計學期中報告組員 : 醫放一 A 王小明醫放一 A 王小明醫放一 A 王大明醫放一 A 王大明 2009/04/14.

Introduction to Chemical Engineering Thermodynamics

研究資料的分析. 資料分析的基本策略  General data analysis strategies 1.Sketching ideas 2.Taking notes 3.Summarize field nores 4.Getting feedback on ideas 5.Working with.

政治大學公企中心必修課-- 社會科學研究方法（量化分析）--黃智聰

觀測量的權權的觀念與計算.

1 政治大學國務院國安碩專班選修課 -- 社會科學研究方法（量化分析） -- 黃智聰政治大學國務院國安碩專班選修課課程名稱：社會科學研究方法（量化分析）授課老師：黃智聰授課內容：簡單線性迴歸模型：共線性與虛擬變數參考書目： Hill, C. R., W. E. Griffiths, and.

變異數分析迴歸分析因素分析區別分析集區分析

Section 4.2 Probability Models 機率模式. 由實驗看機率實驗前先列出所有可能的實驗結果。 – 擲銅板：正面或反面。 – 擲骰子： 1~6 點。 – 擲骰子兩顆： (1,1),(1,2),(1,3),… 等 36 種。決定每一個可能的實驗結果發生機率。 – 實驗後所有的實驗結果整理得到。

演算法 8-1 最大數及最小數找法 8-2 排序 8-3 二元搜尋法.

Chapter 3 Entropy : An Additional Balance Equation

Learning Method in Multilingual Speech Recognition Author : Hui Lin, Li Deng, Jasha Droppo Professor: 陳嘉平 Reporter: 許峰閤.

The effect of task on the information-related behaviors of individuals in a work-group environment. The effect of task on the information-related behaviors.

描述統計描述統計(Descriptive Statistics)-將蒐集到的資料加以整理和記錄,並以數字和統計圖表的方式來分析及解釋資料所具有的特性. 基本統計值(平均數,中位數,標準差,變異量….) 相關性測量(卡方,相關係數,迴歸…)

Unit 3 ：變異數分析 --ANOVA 3.1 範例說明行銷研究方面， One-Way ANOVA 可用以研擬市場區隔及目標選擇策略。教育研究方面，此一模式可用以評估教師之教學績效。農業研究方面，此一模式則可用以挑選使玉米收穫量極大化的肥料。

Chapter 7 Sampling Distribution

第十二章變異數分析 12.1 單因子變異數分析 1-way ANOVA Subject : 比較三組以上的母體平均數 k 組資料，母體平均數為 μ 1, …, μ i, …, μ k Data : k 組資料，樣本數為 n 1,…, n k. x ij --- 第 i 組的第 j 個觀察值 N =

第七章自動群集偵測 Automatic Cluster Detection. 自動群集偵測簡介簡介 K 平均法 K 平均法凝聚方法凝聚方法變數的變化變數的變化自動群集偵測的優、缺點自動群集偵測的優、缺點.

Structural Equation Modeling Chapter 8 潛伏變數路徑分析＝完全 SEM 潛伏變數路徑分析.

連續隨機變數連續變數：時間、分數、重量、……

McGraw-Hill/Irwin © 2003 The McGraw-Hill Companies, Inc.,All Rights Reserved. 壹企業研究導論.

McGraw-Hill/Irwin © 2003 The McGraw-Hill Companies, Inc.,All Rights Reserved. 壹企業研究導論.

McGraw-Hill/Irwin © 2003 The McGraw-Hill Companies, Inc.,All Rights Reserved. 參資料蒐集的方法.

Ch05 確定研究變項.

Regression 相關 –Cross table –Bivariate –Contingency Cofficient –Rank Correlation 簡單迴歸多元迴歸.

: Finding Paths in Grid ★★★★☆ 題組： Contest Archive with Online Judge 題號： 11486: Finding Paths in Grid 解題者：李重儀解題日期： 2008 年 10 月 14 日題意：給一個 7 個 column.

財務管理概論劉亞秋‧薛立言合著（東華書局, 2007)

幼兒行為觀察與記錄第八章事件取樣法.

1 Chemical and Engineering Thermodynamics Chapter 1 Introduction Sandler.

McGraw-Hill/Irwin © 2003 The McGraw-Hill Companies, Inc.,All Rights Reserved. 肆資料分析與表達.

第七章計算複雜度概論：排序問題 7.1計算複雜度 7.2插入排序與選擇排序 7.3每次比較至多移除一個導致之演算法的下限

Presentation transcript:

Cluster Analysis 目的 – 將資料分成幾個相異性最大的群組基本問題 – 如何衡量事務之間的相似性 – 如何將相似的資料歸入同一群組 – 如何解釋群組的特性

步驟 – 研究問題 – 變數的選擇 – 相似性衡量 – 集群方法的選擇 – 集群數目的決定 – 集群的解釋 – 集群的驗證

研究問題 – 將一組資料作客觀的分類 –Example: 從人們購買汽車的種類, 汽車的特色以及消費者的個人特質, 描述不同的汽車消費群的特色

變數的選擇 – 變數的選擇必須兼顧理論 / 實務的考量 – 集群分析對於納入不相關的變數非常敏感, 不應該把不相關的變數引入, 增加異常觀察值 (outliers) –Outliners 是指與其他觀察值相差極大的資料

相似性衡量 –Distance –Association measures 集群方法的選擇 – 相似矩陣的空間化 – 層級集群方法 ( Hierarchical Methods) – 非層級集群方法 (Non- Hierarchical Methods) Sequential threshold Paralleled threshold Optimizing partitioning

集群數目的決定 – 依據研究者的設定 – 依據理論集群的解釋 – 以集群的重心, 平均值, 來描述集群 – 以集群的變異情況來描述集群集群的驗證 –ANOVA –Scheffe

相似性衡量 Distance – 歐基里得 (Euclidean distance) – 馬氏距離 (Mahalanobis distance) – 街道距離 (city block distance)

相似性衡量關聯衡量 (Association measures) – 如果資料是名目尺度或虛數 Match coefficient Similarity ration

集群方法的選擇層級集群方法 ( Hierarchical Methods) –Linkage methods 單一連鎖 (single linkage)

集群方法的選擇層級集群方法 ( Hierarchical Methods) –Linkage methods 完全連鎖 (complete linkage)

集群方法的選擇層級集群方法 ( Hierarchical Methods) –Linkage methods 平均連鎖 (average linkage)

集群方法的選擇層級集群方法 ( Hierarchical Methods) – 華德法 (Ward’s method) 每一個資料都是一個集群計算集群之內的變異數合併變異數最小的集群

集群方法的選擇 - 非層級集群方法 (Non- Hierarchical Methods) K-means methods – 將資料分割為 K 個原始集群 – 計算資料點到各個集群的重心距離 ( 歐基里得距離 ) – 將靠近重心的資料歸到對應的集群 – 從新計算加入新資料的集群之重心 – 重複步驟二直到資料歸類完成

Factor analysis vs. Cluster analysis – 分析單位是變數之間 – 分析的方式在同時考量變數間的關係 – 分析單位是觀察值個體 – 分析的方式是階層式的判別

SPSS 操作

集群方法的選擇 – 相似矩陣的空間化 – 層級集群方法 ( Hierarchical Methods) – 非層級集群方法 (Non- Hierarchical Methods) Sequential threshold Paralleled threshold Optimizing partitioning

Outcome

Cluster1 (14,15,11,13,12)

K-mean 操作

Outcome- K mean