第 9 章 群集分析:額外的議題與演算法             © 2008 台灣培生教育出版 (Pearson Education Taiwan)

Slides:



Advertisements
Similar presentations
1 生物計算期末作業 暨南大學資訊工程系 2003/05/13. 2 compare f1 f2  只比較兩個檔案 f1 與 f2 ,比完後將結果輸出。 compare directory  以兩兩比對的方式,比對一個目錄下所有檔案的相 似程度。  將相似度很高的檔案做成報表輸出,報表中至少要.
Advertisements

Divide-and-Conquer. 什麼是 divide-and-conquer ? Divide 就是把問題分割 Conquer 則是把答案結合起來.
McGraw-Hill/Irwin © 2003 The McGraw-Hill Companies, Inc.,All Rights Reserved. 肆 資料分析與表達.
Chapter 10 馬可夫鏈 緒言 如果讀者仔細觀察日常生活中所發生的 諸多事件,必然會發現有些事件的未來 發展或演變與該事件現階段的狀況全然 無關,這種事件稱為獨立試行過程 (process of independent trials) ;而另一些 事件則會受到該事件現階段的狀況影響。
布林代數的應用--- 全及項(最小項)和全或項(最大項)展開式
第七章 抽樣與抽樣分配 蒐集統計資料最常見的方式是抽查。這 牽涉到兩個問題: 抽出的樣本是否具有代表性?是否能反應出母體的特徵?
1 Q10276: Hanoi Tower Troubles Again! 星級 : ★★★ 題組: Online-judge.uva.es PROBLEM SET Volume CII 題號: Q10276: Hanoi Tower Troubles Again! 解題者:薛祖淵 解題日期: 2006.
Section 1.2 Describing Distributions with Numbers 用數字描述分配.
Advanced Chemical Engineering Thermodynamics
指導教授:陳淑媛 學生:李宗叡 李卿輔.  利用下列三種方法 (Edge Detection 、 Local Binary Pattern 、 Structured Local Edge Pattern) 來判斷是否為場景變換,以方便使用者來 找出所要的片段。
1.1 線性方程式系統簡介 1.2 高斯消去法與高斯-喬登消去法 1.3 線性方程式系統的應用(-Skip-)
亂數產生器安全性評估 之統計測試 SEC HW7 姓名:翁玉芬 學號:
Review of Chapter 3 - 已學過的 rules( 回顧 )- 朝陽科技大學 資訊管理系 李麗華 教授.
Graph V(G 1 )={0, 1, 2, 3, 4, 5, 6, 7, 8, 9} E(G 1 )={(0, 2), (0, 3), (1, 4), (2, 3), (2, 5), (2, 6), (3, 6), (3, 7), (4, 7), (5, 6), (5,
: OPENING DOORS ? 題組: Problem Set Archive with Online Judge 題號: 10606: OPENING DOORS 解題者:侯沛彣 解題日期: 2006 年 6 月 11 日 題意: - 某間學校有 N 個學生,每個學生都有自己的衣物櫃.
STAT0_sampling Random Sampling  母體: Finite population & Infinity population  由一大小為 N 的有限母體中抽出一樣本數為 n 的樣 本,若每一樣本被抽出的機率是一樣的,這樣本稱 為隨機樣本 (random sample)
MATLAB 程式設計 第 11 章 多維陣列 多維陣列的定義 在 MATLAB 的資料型態中,向量可視為 一維陣列,矩陣可視二維陣列,對於維 度 (Dimensions) 超過 1 的陣列則均可視 為「多維陣列」 (Multidimesional Arrays , 簡稱 N-D Arrays)
McGraw-Hill/Irwin © 2003 The McGraw-Hill Companies, Inc.,All Rights Reserved. 肆 資料分析與表達.
Department of Air-conditioning and Refrigeration Engineering/ National Taipei University of Technology 模糊控制設計使用 MATLAB 李達生.
Monte Carlo Simulation Part.2 Metropolis Algorithm Dept. Phys. Tunghai Univ. Numerical Methods C. T. Shih.
第一章 演算法:效率、分析與量級 1.1演算法 1.2發展有效率演算法的重要性 1.3演算法的分析 1.4量級(Order)
2009fallStat_samplec.i.1 Chap10 Sampling distribution (review) 樣本必須是隨機樣本 (random sample) ,才能代表母體 Sample mean 是一隨機變數,隨著每一次抽出來的 樣本值不同,它的值也不同,但會有規律性 為了要知道估計的精確性,必需要知道樣本平均數.
具備人臉追蹤與辨識功能的一個 智慧型數位監視系統 系統架構 在巡邏模式中 ,攝影機會左右來回巡視,並 利用動態膚色偵測得知是否有移動膚色物體, 若有移動的膚色物體則進入到追蹤模式,反之 則繼續巡視。
© The McGraw-Hill Companies, Inc., 2008 第 6 章 製造流程的選擇與設計.
Chapter 13 塑模靜態觀點:物件圖 Static View : Object Diagram.
:Problem D: Bit-wise Sequence ★★★☆☆ 題組: Problem Set Archive with Online Judge 題號: 10232: Problem D: Bit-wise Sequence 解題者:李濟宇 解題日期: 2006 年 4 月 16.
微帶線濾波器 國立聯合大學 電機工程學系 主講人 : 徐振剛 何奕叡. 目 錄  設計程序理論說明  1. 微波諧振電路  2. 傳輸線特性  3.Chebyshev filter & Butterworth filter  4. 傳輸線殘段設計濾波器和步階阻抗式低通濾波器  設計模型.
24-6 設定開始與結束場景中的 程式 最後我們要替這個遊戲收個尾, 幫它把開始 的等待畫面跟結束畫面處理一下。
: The largest Clique ★★★★☆ 題組: Contest Archive with Online Judge 題號: 11324: The largest Clique 解題者:李重儀 解題日期: 2008 年 11 月 24 日 題意: 簡單來說,給你一個 directed.
第三部分:研究設計 ( 二): 研究工具的信效度 與研究效度 (第九章之第 306 頁 -308 頁;第四章)
3-3 使用幾何繪圖工具 Flash 的幾何繪圖工具包括線段工具 (Line Tool) 、橢圓形工具 (Oval Tool) 、多邊星形 工具 (Rectangle Tool) 3 種。這些工具畫出 來的幾何圖形包括了筆畫線條和填色區域, 將它們適當地組合加上有技巧地變形與配 色, 不但比鉛筆工具簡單,
Matlab Assignment Due Assignment 兩個 matlab 程式 : Eigenface : Eigenvector 和 eigenvalue 的應用. Fractal : Affine transform( rotation, translation,
Chapter 20 塑模動態觀點:狀態圖 Statechart Diagram. 學習目標  說明狀態圖的目的  定義狀態圖的基本記號  展示狀態圖的建構  定義活動、內部事件及遞延事件的狀態 圖記號.
選舉制度、政府結構與政 黨體系 Cox (1997) Electoral institutions, cleavage strucuters, and the number of parties.
實用管理科學 陳明德、陳武林 著 前程文化 Ch14 決策分析 14-1 本章結構 隨機模式導論 決策分析步驟 決策分析模式與符號 非機率性模式分析 機率性模式分析 貝氏決策分析技術 決策樹的建立 風險分析與敏感度分析.
McGraw-Hill/Irwin © 2003 The McGraw-Hill Companies, Inc.,All Rights Reserved. 參 資料蒐集的方法.
第三章 自動再裝載運用篇 使用時機:裝載計劃完成時,尚有剩餘空 間的情形,維持已固定計劃而繼續做裝載 最佳化。以支持次日裝載計劃而提前調整 作業模式。 裝載物品設定和裝載容器設定如前兩章介 紹,於此不再重複此動作,直接從裝載計 劃設定開始,直接從系統內定的物品和容 器選取所需.
: Multisets and Sequences ★★★★☆ 題組: Problem Set Archive with Online Judge 題號: 11023: Multisets and Sequences 解題者:葉貫中 解題日期: 2007 年 4 月 24 日 題意:在這個題目中,我們要定義.
大陸問題研究 潘兆民 東海大學 通識教育中心. 第一章 大陸問題研究簡介 一、大陸問題研究的重 要性 二、國民政府為何會失 敗.
:Nuts for nuts..Nuts for nuts.. ★★★★☆ 題組: Problem Set Archive with Online Judge 題號: 10944:Nuts for nuts.. 解題者:楊家豪 解題日期: 2006 年 2 月 題意: 給定兩個正整數 x,y.
Final-project 資科碩二 蔡瑞陽 Furukawa, Y. and Ponce, J. “ Accurate, Dense, and Robust Multi-View Stereopsis ” IEEE Conference on Computer Vision and.
資料結構實習-一 參數傳遞.
: Beautiful Numbers ★★★★☆ 題組: Problem Set Archive with Online Judge 題號: 11472: Beautiful Numbers 解題者:邱經達 解題日期: 2011 年 5 月 5 日 題意: 若一個 N 進位的數用到該.
Section 4.2 Probability Models 機率模式. 由實驗看機率 實驗前先列出所有可能的實驗結果。 – 擲銅板:正面或反面。 – 擲骰子: 1~6 點。 – 擲骰子兩顆: (1,1),(1,2),(1,3),… 等 36 種。 決定每一個可能的實驗結果發生機率。 – 實驗後所有的實驗結果整理得到。
Image Interpolation Use SSE 指導教授 : 楊士萱 學 生 : 楊宗峰 日 期 :
JAVA 程式設計與資料結構 第二十章 Searching. Sequential Searching Sequential Searching 是最簡單的一種搜尋法,此演 算法可應用在 Array 或是 Linked List 此等資料結構。 Sequential Searching 的 worst-case.
演算法 8-1 最大數及最小數找法 8-2 排序 8-3 二元搜尋法.
1 第七章 植基於可調整式量化表及離散餘 弦轉換之浮水印技術. 2 Outlines 介紹 介紹 灰階浮水印藏入 灰階浮水印藏入 灰階浮水印取回 灰階浮水印取回 實驗結果 實驗結果.
845: Gas Station Numbers ★★★ 題組: Problem Set Archive with Online Judge 題號: 845: Gas Station Numbers. 解題者:張維珊 解題日期: 2006 年 2 月 題意: 將輸入的數字,經過重新排列組合或旋轉數字,得到比原先的數字大,
Structural Equation Modeling Chapter 6 CFA 根據每個因素有多重指標,以減少 測量誤差並可建立問卷的構念效度 驗證性因素分析.
Learning Method in Multilingual Speech Recognition Author : Hui Lin, Li Deng, Jasha Droppo Professor: 陳嘉平 Reporter: 許峰閤.
Chapter 10 m-way 搜尋樹與B-Tree
演算法課程 (Algorithms) 國立聯合大學 資訊管理學系 陳士杰老師 Course 7 貪婪法則 Greedy Approach.
JAVA 程式設計與資料結構 第十六章 Hash Tables. Introduction Hash Tables 結構為一個 Array ,稱之為 Bucket array 。 如果想要新增一個物件,要根據這個物件的特性 將其加入 Hash Table 內。 Bucket Array 用 A 來代替,其.
概念性產品企劃書 呂學儒 李政翰.
1/17 A Study on Separation between Acoustic Models and Its Application Author : Yu Tsao, Jinyu Li, Chin-Hui Lee Professor : 陳嘉平 Reporter : 許峰閤.
Cluster Analysis 目的 – 將資料分成幾個相異性最大的群組 基本問題 – 如何衡量事務之間的相似性 – 如何將相似的資料歸入同一群組 – 如何解釋群組的特性.
第七章自動群集偵測 Automatic Cluster Detection. 自動群集偵測 簡介 簡介 K 平均法 K 平均法 凝聚方法 凝聚方法 變數的變化 變數的變化 自動群集偵測的優、缺點 自動群集偵測的優、缺點.
冷凍空調自動控制 - 系統性能分析 李達生. Focusing here … 概論 自動控制理論發展 自控系統設計實例 Laplace Transform 冷凍空調自動控制 控制系統範例 控制元件作動原理 控制系統除錯 自動控制理論 系統穩定度分析 系統性能分析 PID Controller 自動控制實務.
連續隨機變數 連續變數:時間、分數、重量、……
Teacher : Ing-Jer Huang TA : Chien-Hung Chen 2015/6/30 Course Embedded Systems : Principles and Implementations Weekly Preview Question CH7.1~CH /12/26.
: Wine trading in Gergovia ★★☆☆☆ 題組: Contest Volumes with Online Judge 題號: 11054: Wine trading in Gergovia 解題者:劉洙愷 解題日期: 2008 年 2 月 29 日 題意:在 Gergovia.
McGraw-Hill/Irwin © 2003 The McGraw-Hill Companies, Inc.,All Rights Reserved. 參 資料蒐集的方法.
: Finding Paths in Grid ★★★★☆ 題組: Contest Archive with Online Judge 題號: 11486: Finding Paths in Grid 解題者:李重儀 解題日期: 2008 年 10 月 14 日 題意:給一個 7 個 column.
:Problem E.Stone Game ★★★☆☆ 題組: Problem Set Archive with Online Judge 題號: 10165: Problem E.Stone Game 解題者:李濟宇 解題日期: 2006 年 3 月 26 日 題意: Jack 與 Jim.
財務管理概論 劉亞秋‧薛立言 合著 (東華書局, 2007)
幼兒行為觀察與記錄 第八章 事件取樣法.
McGraw-Hill/Irwin © 2003 The McGraw-Hill Companies, Inc.,All Rights Reserved. 肆 資料分析與表達.
第七章 計算複雜度概論:排序問題 7.1計算複雜度 7.2插入排序與選擇排序 7.3每次比較至多移除一個導致之演算法的下限
Presentation transcript:

第 9 章 群集分析:額外的議題與演算法             © 2008 台灣培生教育出版 (Pearson Education Taiwan)

對群集分析有重大影響的資料特性 高維度 大小 稀疏性 雜訊與離群值 屬性和資料集類型 尺度 資料空間與數學特性

分群演算法的一般特性 順序相依 非決定性 延展性 參數選擇 將分群問題轉換至另一個領域 視分群為一個最佳化問題

階層式分群 建立巢狀群集 凝聚式分群演算法藉由每一點為一個單一群集開始 ,接著多次合併兩個最接近的群集,直到剩下包含 所有群集之單一群集為止,以產生階層式分群 MIN (單一鏈結):易受雜訊和離群值的影響 MAX/群平均:無法處理好非球狀的群集 CURE 演算法試圖要處理所有的問題 通常使用鄰近矩陣

CURE:使用凝聚式階層方法 使用多個代表點來表示一個群集 代表點的數量是一個參數,一旦選擇代表點後,這些點會 根據因素而收縮至中心點,通常越遠離中心點則會收縮得 更多 兩個群集之間的距離是任何兩個代表點之間的最小距離( 這兩個代表點收縮至它們的代表中心點之後)  

CURE 將代表點收縮至中心點有助於減少離群值的影響 CURE 可以處理大量資料集、離群值,以及非球 形與非一致大小之群集

實驗結果:CURE 圖片取自CURE, Guha, Rastogi, Shim.

實驗結果: CURE (中心點) (單一鏈結) 圖片取自 CURE, Guha, Rastogi, Shim.

CURE 無法處理具有不同密度的群集 CURE 原始點

以圖形為基礎之分群法 圖形為基礎之分群使用鄰近圖形 以圖形為基礎之分群,將尋找群集的工作對應至將 鄰近圖形分割成連結的元素 由建立鄰近矩陣開始 將每一個點視為圖形中的一個節點 連接兩節點的邊會有一權重,表示兩點的鄰近值 最初的臨近圖形是完全連結的 MIN (單一鏈結) 和 MAX (完全鏈結) 是來自群集的圖形 觀點 以圖形為基礎之分群,將尋找群集的工作對應至將 鄰近圖形分割成連結的元素

以圖形為基礎之分群法:稀疏化 大幅減少需要被處理的資料量 稀疏化可淘汰鄰近矩陣中超過 99% 的項目 需要被處理並用在分群中的資料量會大幅減少 可處理的問題大小會增加

以圖形為基礎之分群法:稀疏化 分群會運作得更好 使用圖形分割演算法 當切斷很多距離較遠的物件之連結時,稀疏化技術保留 物件與最近鄰居之鏈結, 這個技術遵守最近鄰居原則( nearest neighbor principle),而物件與最近鄰居會屬 於相同類別(群集),並減少雜訊與離群值的影響,加 強群集之間的差異 使用圖形分割演算法 針對分群流程,鄰近圖形的稀疏化可使用圖形分割演算 法,例如Opossum 和Chameleon 使用圖形分割

使用稀疏化的分群流程

凝聚式階層分群技術是藉由合併兩個最相似的群集 來執行 目前合併機制的限制 凝聚式階層分群技術是藉由合併兩個最相似的群集 來執行 MIN 或 CURE: 根據群集的緊密程度( closeness )來合併兩個群集 群平均: 根據兩個群集之間連結的強度來合併兩個群集

目前合併機制的限制 (a) (b) (c) (d) 根據緊密程度 (a) 和 (b)會被合併 (c) 和 (d) 會被合併

Chameleon:具有動態塑模的階層分群 使用有效的圖形分割演算法,以結合資料初始分割和一個 新的階層分群方法 使用動態塑模來評估群集的相似度 使用緊密程度和相互連結性的概念 若結果群集和兩個原始群集相近,兩個群集應該被合併 使用自我相似度概念來判斷群集是否要被合併 Chameleon 針對空間資料(spatial data)特別有效

Chameleon演算法 Chameleon由三個主要的步驟所構成 稀疏化:產生k-最近鄰圖形 圖形分割:從包含的所有圖形(群集)開始,然後將最 大的子圖形(群集)分為二,直到群集的資料點數量不 大於MIN_SIZE 為止,這裡的MIN_SIZE 是使用者指定 的參數 階層分群:使用凝聚式階層分群合併子群集

實驗結果:Chameleon

實驗結果:Chameleon

實驗結果:CURE (10個群集)

實驗結果:CURE (15個群集)

實驗結果:Chameleon

實驗結果:CURE (9個群集)

實驗結果:CURE (15個群集)

共享最近鄰居(SNN)相似度 只要兩個物件在彼此的最近鄰居列表中,則SNN相似度就是共享鄰居的數量 i j 4 每一個粉紅色的點(i 和 j)有八個包含彼此的最近鄰居,最近鄰居的其中四個點是代表共享的,以綠色的點表示,因此這兩個點( i 和 j )之間共享的最近鄰相似度為4

共享最近鄰居(SNN)相似度 SNN相似度是以點的密度來做自動評估

建立 SNN 圖形 稀疏的圖形 SNN圖形

Jarvis-Patrick 分群演算法 Jarvis-Patrick分群演算法 計算SNN相似度圖形 以SNN相似度來取代兩點間的鄰近值 使用一個門檻值來稀疏化SNN相似度矩陣 範例:最近鄰居列表的大小是20,若有兩個點共 享至少10個點,則這兩個點會被放在相同的群集 中

Jarvis-Patrick 分群的優缺點 優點 善於處理雜訊和離群值 可以處理具有不同大小、形狀與密度之群集 缺點 可能會將一個真正的群集切割,或將應該分開的群集合 併,因此有點難處理

Jarvis-Patrick執行良好的狀況 原始資料

SNN 分群演算法 計算相似度矩陣 運用DBSCAN分群演算法 標示所有的核心點、邊緣點和雜訊點 任何夠接近的兩個核心點放在同一個群集 移除所有的雜訊點 將任何與核心點夠接近的邊緣點放入相同的群集中當成 核心點

SNN 密度 a) 所有點 b) 大的SNN密度 c) 中等的SNN密度 d) 小的SNN密度

SNN分群可以處理不同的密度 SNN分群 原始點

SNN 分群法可以處理其他難處理的狀況

SNN分群之優點與缺點 並不是所有的點都會被分群 SNN分群的時間複雜度很高