第七章自動群集偵測 Automatic Cluster Detection. 自動群集偵測簡介簡介 K 平均法 K 平均法凝聚方法凝聚方法變數的變化變數的變化自動群集偵測的優、缺點自動群集偵測的優、缺點.

第七章自動群集偵測 Automatic Cluster Detection

自動群集偵測簡介簡介 K 平均法 K 平均法凝聚方法凝聚方法變數的變化變數的變化自動群集偵測的優、缺點自動群集偵測的優、缺點

何謂群集（ cluster ）？何謂群集（ cluster ）？把資料庫中的資料分類成群把資料庫中的資料分類成群群內同質；群間異質群內同質；群間異質用到幾何學、向量平均用到幾何學、向量平均自動群集本身很少單獨使用自動群集本身很少單獨使用一旦群集偵測出來後，必須利用其他方法來了解群集的意義。一旦群集偵測出來後，必須利用其他方法來了解群集的意義。

在許多案例中，雖然我們可能會懷疑一組非常雜亂的資料中，事實上是由一些更能表現出特性的群集所構成，但我們卻不知如何將其定義，這時候自動群集偵測 (automatic cluster detection) 就派上用場了。

三個例子

銀行發現 14 個群集，而且只對其中一個群集找到一個有用的闡釋。然而，這個群集的用途很大，因此沒有人在意其他 13 個群集找不到適當闡釋。落在這個有用的群集中的人，許多是在該銀行中同時擁有個人和公司戶頭的客戶，以及很可能進行房屋抵押貸款的人。這個組合使得銀行採取一個新的行銷方針 - 鼓勵客戶進行房屋抵貸款以設立小型企業。

K 平均法（ K - mean ）  選擇 K 個「種子」作為群集質心  麥昆的演算法只採用前 K 筆資料  將每一資料點分配到質心最接近的群集中  計算每一個群集的質心  將群集中每一個點的位置加以平均  找出新群集，每一點再次被分配到質心最接近的群集中。  重複進行直到群集邊界不再變動為止。

我們繼續討論這份 k 平均法，請特別注意被一個方形圍起來的那個點的命運。根據原本的種子，這個點被分配到第二號種子所控制的群集，因為這個點和這種子最接近。

一旦新群集被找出，每一個點再次被分配到質心最接近的群集中，圖 10.5 顯示新群集的邊界，如同前面，這個界線是由與兩個質心距離相等的點所構成，注意被方塊圖形圍繞的那個點，它原本屬於第二群集，現在被重新分配到第一群集，這種分配資料點到群集中再計算質心的過程一再重複，直到群集邊界不再變動為止。

自動群集偵側其實相當簡單 - 只要一點點幾何學，一些向量平均，一切就搞定了。當我們談到這類的群集資料時，我們直覺的認為同屬一個集群的成員有某一種「自然關連」，它們之間的相似程度應該超過它們和其他群集的相似度。最常用的方法就是將所有變數換算成數值，這筆資料就可以被視為鑋間中的一個點。接著，如果就幾何學而言兩個點很接近，我們就假設它們代表資料庫中相似的資料。這項方法存在兩個問題 : 其中就幾何學而言，每一個維度有同樣的重要性，但在我們的資料庫中，某一個變數的小改變也許比另一個變數的大改變還要重要。

變數的變化類別（ Categories ）類別（ Categories ）顏色顏色排序（ Ranks ）排序（ Ranks ）可知 X>Y>Z ；但不知道 (X-Y) > (Y-Z) 可知 X>Y>Z ；但不知道 (X-Y) > (Y-Z) 區間（ Intervals ）區間（ Intervals ）溫度溫度實際測量（ True measures ）實際測量（ True measures ）身高、體重、年齡、容量身高、體重、年齡、容量從有意義的 0 點做為起點做測量從有意義的 0 點做為起點做測量

解決之道是將相同的資料採用一套不同的幾何學解釋。我們不再將 x 和 y 當成空間中的點來測量它們的距離，而是把它們當成向量，測量它們之間角度。在此前題下，向量就是連結我們座標系統原點到由向量值所表示的那一個點的線段。一個向量同時具有大小 ( 原點到該點的距離 ) 與方向，就我們的目的而言，方向比較重要。關聯性的正式測量 ( 距離, 角度 )

兩個向量之間的角度提供我們衡量關連性的指標，因為這個向量的角度不會受到同量本身大小的影響 ( 見圖 10.6) 。事實上，這個角度的正弦值是一個更好的度量指標，因為正弦值是從 0 ( 兩個向量平行 ) 到 1 ( 兩個垂直 ) 。

凝聚（ agglomeration ）方法在 k 平均方法群集分析中，我們一開始採用固定數目的群集，將所有資料收入其中。還有另外的方法是採用「凝聚」 (agglomeration) 的方式。在這類方法中，我們一開始讓每資料點形成自己的群集，然逐漸合併這些群集，直到所有點聚集成一個大群集為止。這個過程剛開始時，所有群集都很小很單純。每一個群集的成員很少，但密切相關到了過程結束時，群組變得很大而且較沒有明確定義。整個過都被保存下來，因此你可以選擇最適合你工作目標的群集層次。

凝聚（ agglomeration ）方法創造一個「相似矩陣」（ similarity matrix ）創造一個「相似矩陣」（ similarity matrix ）在相似矩陣中找出最小值在相似矩陣中找出最小值創造層級式群集創造層級式群集群集之間的距離群集之間的距離單一連結（ single linkage ）單一連結（ single linkage ）完整連結（ complete linkage ）完整連結（ complete linkage ）比較質心（ comparison of centroids ）比較質心（ comparison of centroids ）

凝聚（ agglomeration ）方法在單一連結法中，兩個群集之間以兩者之間「最接近」的成員距離為準。這個方法產生的群集特質在於，一個群集中每一個成員至少會和一個相同群集成員關連性超過群集外的任一點。在完整連結法中，兩群集之間的距離是以集群中「距離最遠」的成員距離為準。這個方法產的群集特質在於，群集中所有成員都位於一個己知的最大範圍之內。在第三個方法中，兩個群集的距離是以彼此的質心距離為準。一個群集的質心就是其組成單元的平均。

自動群集偵測的優點非監督式的知識發現技術非監督式的知識發現技術可以不需事前鎖定探索主題的情況下使用可以不需事前鎖定探索主題的情況下使用適用於不同形式的資料適用於不同形式的資料在類別、數值、順序、與區間等各種變數資料都可使用在類別、數值、順序、與區間等各種變數資料都可使用應用方便應用方便只需要少量的資料輸入只需要少量的資料輸入不需要確認特定的輸入或輸出變數不需要確認特定的輸入或輸出變數

自動群集偵測的缺點加權與度量的困難加權與度量的困難有可能很難選擇正確的測量間隔與加權有可能很難選擇正確的測量間隔與加權對原始的參數相當敏感對原始的參數相當敏感一開始選擇的 K 值決定了形成群集的數目一開始選擇的 K 值決定了形成群集的數目難以解釋結果難以解釋結果找出來的群集無法保證擁有任何實用價值找出來的群集無法保證擁有任何實用價值

第七章自動群集偵測 Automatic Cluster Detection. 自動群集偵測簡介簡介 K 平均法 K 平均法凝聚方法凝聚方法變數的變化變數的變化自動群集偵測的優、缺點自動群集偵測的優、缺點.

Similar presentations

Presentation on theme: "第七章自動群集偵測 Automatic Cluster Detection. 自動群集偵測簡介簡介 K 平均法 K 平均法凝聚方法凝聚方法變數的變化變數的變化自動群集偵測的優、缺點自動群集偵測的優、缺點."— Presentation transcript:

Similar presentations

About project

Feedback

Log in

Auth with social network:

第七章自動群集偵測 Automatic Cluster Detection. 自動群集偵測 簡介 簡介 K 平均法 K 平均法 凝聚方法 凝聚方法 變數的變化 變數的變化 自動群集偵測的優、缺點 自動群集偵測的優、缺點.

Similar presentations

Presentation on theme: "第七章自動群集偵測 Automatic Cluster Detection. 自動群集偵測 簡介 簡介 K 平均法 K 平均法 凝聚方法 凝聚方法 變數的變化 變數的變化 自動群集偵測的優、缺點 自動群集偵測的優、缺點."— Presentation transcript:

Similar presentations

About project

Feedback

第七章自動群集偵測 Automatic Cluster Detection. 自動群集偵測簡介簡介 K 平均法 K 平均法凝聚方法凝聚方法變數的變化變數的變化自動群集偵測的優、缺點自動群集偵測的優、缺點.

Presentation on theme: "第七章自動群集偵測 Automatic Cluster Detection. 自動群集偵測簡介簡介 K 平均法 K 平均法凝聚方法凝聚方法變數的變化變數的變化自動群集偵測的優、缺點自動群集偵測的優、缺點."— Presentation transcript: