Download presentation
Presentation is loading. Please wait.
1
第七章自動群集偵測 Automatic Cluster Detection
2
自動群集偵測 簡介 簡介 K 平均法 K 平均法 凝聚方法 凝聚方法 變數的變化 變數的變化 自動群集偵測的優、缺點 自動群集偵測的優、缺點
3
何謂群集( cluster )? 何謂群集( cluster )? 把資料庫中的資料分類成群 把資料庫中的資料分類成群 群內同質;群間異質 群內同質;群間異質 用到幾何學、向量平均 用到幾何學、向量平均 自動群集本身很少單獨使用 自動群集本身很少單獨使用 一旦群集偵測出來後,必須利用其 他方法來了解群集的意義。 一旦群集偵測出來後,必須利用其 他方法來了解群集的意義。
4
在許多案例中,雖然我們可能會懷 疑一組非常雜亂的資料中,事實上是 由一些更能表現出特性的群集所構成, 但我們卻不知如何將其定義,這時候 自動群集偵測 (automatic cluster detection) 就派上用場了。
5
三個例子
7
銀行發現 14 個群集,而且只對其中一個群 集找到一個有用的闡釋。然而,這個群集的 用途很大,因此沒有人在意其他 13 個群集找 不到適當闡釋。落在這個有用的群集中的人, 許多是在該銀行中同時擁有個人和公司戶頭 的客戶,以及很可能進行房屋抵押貸款的人。 這個組合使得銀行採取一個新的行銷方針 - 鼓勵客戶進行房屋抵貸款以設立小型企業。
8
K 平均法( K - mean ) 選擇 K 個「種子」作為群集質心 麥昆的演算法只採用前 K 筆資料 將每一資料點分配到質心最接近的群集中 計算每一個群集的質心 將群集中每一個點的位置加以平均 找出新群集,每一點再次被分配到質心最 接近的群集中。 重複進行直到群集邊界不再變動為止。
9
我們繼續討論這份 k 平均法,請特別注意被一個方形圍起來的那 個點的命運。根據原本的種子,這個點被分配到第二號種子所控 制的群集,因為這個點和這種子最接近。
11
一旦新群集被找出,每一個點再次被分配到質心最接近的群集中,圖 10.5 顯示新群集的邊界,如同前面,這個界線是由與兩個質心距離相等 的點所構成,注意被方塊圖形圍繞的那個點,它原本屬於第二群集,現 在被重新分配到第一群集,這種分配資料點到群集中再計算質心的過程 一再重複,直到群集邊界不再變動為止。
12
自動群集偵側其實相當簡單 - 只要一點點幾何學, 一些向量平均,一切就搞定了。 當我們談到這類的群集資料時,我們直覺的認為 同屬一個集群的成員有某一種「自然關連」,它們 之間的相似程度應該超過它們和其他群集的相似度。 最常用的方法就是將所有變數換算成數值,這筆資 料就可以被視為鑋間中的一個點。接著,如果就幾 何學而言兩個點很接近,我們就假設它們代表資料 庫中相似的資料。這項方法存在兩個問題 : 其中就 幾何學而言,每一個維度有同樣的重要性,但在我 們的資料庫中,某一個變數的小改變也許比另一個 變數的大改變還要重要。
13
變數的變化 類別( Categories ) 類別( Categories ) 顏色 顏色 排序( Ranks ) 排序( Ranks ) 可知 X>Y>Z ;但不知道 (X-Y) > (Y-Z) 可知 X>Y>Z ;但不知道 (X-Y) > (Y-Z) 區間( Intervals ) 區間( Intervals ) 溫度 溫度 實際測量( True measures ) 實際測量( True measures ) 身高、體重、年齡、容量 身高、體重、年齡、容量 從有意義的 0 點做為起點做測量 從有意義的 0 點做為起點做測量
14
解決之道是將相同的資料採用一套不同的 幾何學解釋。我們不再將 x 和 y 當成空間中的 點來測量它們的距離,而是把它們當成向量, 測量它們之間角度。在此前題下,向量就是 連結我們座標系統原點到由向量值所表示的 那一個點的線段。一個向量同時具有大小 ( 原 點到該點的距離 ) 與方向,就我們的目的而言, 方向比較重要。 關聯性的正式測量 ( 距離, 角度 )
15
兩個向量之間的角度提供我們衡量關連性的指標,因 為這個向量的角度不會受到同量本身大小的影響 ( 見圖 10.6) 。事實上,這個角度的正弦值是一個更好的度量指 標,因為正弦值是從 0 ( 兩個向量平行 ) 到 1 ( 兩個垂直 ) 。
16
凝聚( agglomeration )方法 在 k 平均方法群集分析中,我們一開始採用固定 數目的群集,將所有資料收入其中。還有另外的 方法是採用「凝聚」 (agglomeration) 的方式。在這 類方法中,我們一開始讓每資料點形成自己的群 集,然逐漸合併這些群集,直到所有點聚集成一 個大群集為止。這個過程剛開始時,所有群集都 很小很單純。每一個群集的成員很少,但密切相 關到了過程結束時,群組變得很大而且較沒有明 確定義。整個過都被保存下來,因此你可以選擇 最適合你工作目標的群集層次。
17
凝聚( agglomeration )方法 創造一個「相似矩陣」( similarity matrix ) 創造一個「相似矩陣」( similarity matrix ) 在相似矩陣中找出最小值 在相似矩陣中找出最小值 創造層級式群集 創造層級式群集 群集之間的距離 群集之間的距離 單一連結( single linkage ) 單一連結( single linkage ) 完整連結( complete linkage ) 完整連結( complete linkage ) 比較質心( comparison of centroids ) 比較質心( comparison of centroids )
18
凝聚( agglomeration )方法 在單一連結法中,兩個群集之間以兩者之間「最 接近」的成員距離為準。這個方法產生的群集特質在 於,一個群集中每一個成員至少會和一個相同群集成 員關連性超過群集外的任一點。 在完整連結法中,兩群集之間的距離是以集群中 「距離最遠」的成員距離為準。這個方法產的群集特 質在於,群集中所有成員都位於一個己知的最大範圍 之內。 在第三個方法中,兩個群集的距離是以彼此的質 心距離為準。一個群集的質心就是其組成單元的平均 。
21
自動群集偵測的優點 非監督式的知識發現技術 非監督式的知識發現技術 可以不需事前鎖定探索主題的情況下 使用 可以不需事前鎖定探索主題的情況下 使用 適用於不同形式的資料 適用於不同形式的資料 在類別、數值、順序、與區間等各種 變數資料都可使用 在類別、數值、順序、與區間等各種 變數資料都可使用 應用方便 應用方便 只需要少量的資料輸入 只需要少量的資料輸入 不需要確認特定的輸入或輸出變數 不需要確認特定的輸入或輸出變數
22
自動群集偵測的缺點 加權與度量的困難 加權與度量的困難 有可能很難選擇正確的測量間隔與 加權 有可能很難選擇正確的測量間隔與 加權 對原始的參數相當敏感 對原始的參數相當敏感 一開始選擇的 K 值決定了形成群集的 數目 一開始選擇的 K 值決定了形成群集的 數目 難以解釋結果 難以解釋結果 找出來的群集無法保證擁有任何實 用價值 找出來的群集無法保證擁有任何實 用價值
Similar presentations
© 2024 SlidePlayer.com. Inc.
All rights reserved.