Presentation is loading. Please wait.

Presentation is loading. Please wait.

DECISION TREE LEARNING. Outlook Sunny Overcast Rain Humidity Yes Wind High Normal Strong Weak No Yes No Yes.

Similar presentations


Presentation on theme: "DECISION TREE LEARNING. Outlook Sunny Overcast Rain Humidity Yes Wind High Normal Strong Weak No Yes No Yes."— Presentation transcript:

1 DECISION TREE LEARNING

2 Outlook Sunny Overcast Rain Humidity Yes Wind High Normal Strong Weak No Yes No Yes

3 以邏輯觀點來分類 : ( Outlook = Sunny Humidity = Normal ) ( Outlook = Overcast ) ( Outlook = Rain Wind = Weak ) ( Outlook = Sunny Humidity = High ) ( Outlook = Rain Wind = Strong ) 出去玩的葉片類型 : 不出去玩的葉片類型 :

4 ID3 演算過程 : Outlook Sunny Overcast Rain Humidity WindYes High Normal Strong Weak Yes No Yes Temperature Hot Cool No Yes

5 找出訓練集合裡的最佳屬性 測試屬性的方法 : 直覺法 資訊理論

6 資訊理論 : Quinlan 利用 Information Gain 來做為選擇屬性方法. Information Gain = 測試前資訊量 – 測試後資訊量 亦即選擇 Information Gain 量大的屬性當節點 測試前資訊量 = Entropy (S ) ( 凌亂度, 熵值 ) = 測試後資訊量 = Entropy( ) P.S : 資訊量越小 亦即凌亂度越小, 所以選資訊量小的屬性. c=c 個結果,p 為權重比例

7 訓練集合的例子 Day 窗外 溫度 濕度 雲量 出去玩 D1 S H h W NO D2 S H h s NO D3 O H h W YES D4 R M h W YES D5 R C N W YES D6 R C N s NO D7 O C N s YES D8 S M h W NO D9 S C N W YES D10 R M N W YES D11 S M N s YES D12 O M h W YES D13 O H N s YES D14 R M h s NO 窗外 S = Sunny O = Overcast R = Rain 溫度 H = Hot M = Mild C = Cool 濕度 h = high N = Normal 雲量 s = strong W = Weak

8 Outlook Sunny Overcast Rain 先以 Outlook 計算 Gain 值 Yes No Yes No 第一步找樹根 :

9 計算 Information Gain 值 : Entropy (S ) = = = = 0.94 測試後資訊量 = Entropy( ) = (5/14)E( 陽光 )+(4/14)E( 陰天 )+(5/14)E( 雨 ) = 0.693

10 最後所得之 Information Gain 值 : Gain ( S, Outlook ) = 0.246 Gain ( S, Humidity ) = 0.151 Gain ( S, Wind ) = 0.048 Gain ( S, Temperature ) = 0.029 ( Outlook 最大, 所以選 Outlook 為樹根. )

11 第二步 找子節點 : Outlook Sunny Overcast Rain Humidity No High Normal Yes 以 Outlook 為根節點後 再計算下一個節點

12 最後所得之 Information Gain 值 : Gain ( Ssunny, Humidity ) = 0.971 Gain ( Ssunny, Wind ) = 0.019 Gain ( Ssunny, Temperature ) = 0.570 ( Humidity 最大, 所以選 Humidity 為次節點. )

13 避免 Overfitting : 決策樹有時不能表現出十分正確的預測結果 有以下兩種原因 : 學 習 不 足 ------ 加 強 訓 練 過 渡 學 習 ------ 修 剪 樹 枝

14 0 10 20 30 40 50 60 70 80 90 100 0.9 0.85 0.8 0.75 0.7 0.65 0.6 0.55 0.5 ( Accuracy ) Size of tree ( number of nodes ) On training data On test data Overfitting 測試資料表 ( 修剪前 )

15 0 10 20 30 40 50 60 70 80 90 100 0.9 0.85 0.8 0.75 0.7 0.65 0.6 0.55 0.5 ( Accuracy ) Size of tree ( number of nodes ) On training data Overfitting 測試資料表 ( 修剪後 ) On test data On test data ( during pruning )

16 C4.5 的一些改善法 : 避免當 S 集合分割後子集合只有一個資料時, 其 資訊量將為 0 因此這資訊量將最大. 無意義的分割. 將 Gain 正規化 : Gain Ratio (A) = Gain (A) / SplitInf (A) SplitInf (A) = A : 屬性 A 分割的子集合個數指標


Download ppt "DECISION TREE LEARNING. Outlook Sunny Overcast Rain Humidity Yes Wind High Normal Strong Weak No Yes No Yes."

Similar presentations


Ads by Google