Download presentation
Presentation is loading. Please wait.
1
DECISION TREE LEARNING
2
Outlook Sunny Overcast Rain Humidity Yes Wind High Normal Strong Weak No Yes No Yes
3
以邏輯觀點來分類 : ( Outlook = Sunny Humidity = Normal ) ( Outlook = Overcast ) ( Outlook = Rain Wind = Weak ) ( Outlook = Sunny Humidity = High ) ( Outlook = Rain Wind = Strong ) 出去玩的葉片類型 : 不出去玩的葉片類型 :
4
ID3 演算過程 : Outlook Sunny Overcast Rain Humidity WindYes High Normal Strong Weak Yes No Yes Temperature Hot Cool No Yes
5
找出訓練集合裡的最佳屬性 測試屬性的方法 : 直覺法 資訊理論
6
資訊理論 : Quinlan 利用 Information Gain 來做為選擇屬性方法. Information Gain = 測試前資訊量 – 測試後資訊量 亦即選擇 Information Gain 量大的屬性當節點 測試前資訊量 = Entropy (S ) ( 凌亂度, 熵值 ) = 測試後資訊量 = Entropy( ) P.S : 資訊量越小 亦即凌亂度越小, 所以選資訊量小的屬性. c=c 個結果,p 為權重比例
7
訓練集合的例子 Day 窗外 溫度 濕度 雲量 出去玩 D1 S H h W NO D2 S H h s NO D3 O H h W YES D4 R M h W YES D5 R C N W YES D6 R C N s NO D7 O C N s YES D8 S M h W NO D9 S C N W YES D10 R M N W YES D11 S M N s YES D12 O M h W YES D13 O H N s YES D14 R M h s NO 窗外 S = Sunny O = Overcast R = Rain 溫度 H = Hot M = Mild C = Cool 濕度 h = high N = Normal 雲量 s = strong W = Weak
8
Outlook Sunny Overcast Rain 先以 Outlook 計算 Gain 值 Yes No Yes No 第一步找樹根 :
9
計算 Information Gain 值 : Entropy (S ) = = = = 0.94 測試後資訊量 = Entropy( ) = (5/14)E( 陽光 )+(4/14)E( 陰天 )+(5/14)E( 雨 ) = 0.693
10
最後所得之 Information Gain 值 : Gain ( S, Outlook ) = 0.246 Gain ( S, Humidity ) = 0.151 Gain ( S, Wind ) = 0.048 Gain ( S, Temperature ) = 0.029 ( Outlook 最大, 所以選 Outlook 為樹根. )
11
第二步 找子節點 : Outlook Sunny Overcast Rain Humidity No High Normal Yes 以 Outlook 為根節點後 再計算下一個節點
12
最後所得之 Information Gain 值 : Gain ( Ssunny, Humidity ) = 0.971 Gain ( Ssunny, Wind ) = 0.019 Gain ( Ssunny, Temperature ) = 0.570 ( Humidity 最大, 所以選 Humidity 為次節點. )
13
避免 Overfitting : 決策樹有時不能表現出十分正確的預測結果 有以下兩種原因 : 學 習 不 足 ------ 加 強 訓 練 過 渡 學 習 ------ 修 剪 樹 枝
14
0 10 20 30 40 50 60 70 80 90 100 0.9 0.85 0.8 0.75 0.7 0.65 0.6 0.55 0.5 ( Accuracy ) Size of tree ( number of nodes ) On training data On test data Overfitting 測試資料表 ( 修剪前 )
15
0 10 20 30 40 50 60 70 80 90 100 0.9 0.85 0.8 0.75 0.7 0.65 0.6 0.55 0.5 ( Accuracy ) Size of tree ( number of nodes ) On training data Overfitting 測試資料表 ( 修剪後 ) On test data On test data ( during pruning )
16
C4.5 的一些改善法 : 避免當 S 集合分割後子集合只有一個資料時, 其 資訊量將為 0 因此這資訊量將最大. 無意義的分割. 將 Gain 正規化 : Gain Ratio (A) = Gain (A) / SplitInf (A) SplitInf (A) = A : 屬性 A 分割的子集合個數指標
Similar presentations
© 2025 SlidePlayer.com. Inc.
All rights reserved.