Presentation is loading. Please wait.

Presentation is loading. Please wait.

Data Mining : Basic Data Mining Techniques 2008.4.10 Database Lab 김성원.

Similar presentations


Presentation on theme: "Data Mining : Basic Data Mining Techniques 2008.4.10 Database Lab 김성원."— Presentation transcript:

1 Data Mining : Basic Data Mining Techniques 2008.4.10 Database Lab 김성원

2 목 차목 차 3.1 Decision Tree 3.2 Generating Association Rules 3.3 The K-Means Algorithm 3.4 Genetic Learning 3.5 Choosing a Data Mining Technique 3.6 Chapter Summary 3.7 Key Term 3.8 Exercises

3 3.1 Decision Tree Decision Tree 알고리즘 설계  Tree 에 이용할 Training Instances 생성  Tree 에 포함된 Instances 의 Best Differentiates 를 통해 attribute 을 선 택  Tree node 를 생성하기 위해 attribute 을 선택.  각 subclass 들은 3 번째 단계에서 생성 :  만약 subclass 의 instance 가 미리 정의된 기준을 만족하면 나머지 attribute 의 집합에 대한 선택경로가 null 이 되어 새로운 instance 에 대한 분류를 경로 지정한다.  만약 subclass 의 기준을 만족하지 못한다면 하나의 attribute 을 더 욱 세분화하여 현재 subclass 의 instance 로 선택하고 2 번째 단계로 다시 돌아간다.

4 3.1 Decision Tree Table 3.1 The Credit Card Promotion Database

5 3.1 Decision Tree Figure 3.1 A partial decision tree with root node = income range Figure 3.2 A partial decision tree with root node = credit card insurance Figure 3.3 A partial decision tree with root node = age

6 3.1 Decision Tree Exercise : Computational Questions C.E = 1 – max(12/15,3/15) = 0.2 Node = Age Sex C.E = 1- max(6/12,6/12) = 0.5 Credit Card Insurance C.E = 1 – max(2/6,4/6) = 0.33

7 3.1 Decision Tree IF Age <=43 & Sex = Male & Credit Card Insurance = No THEN Life Insurance Promotion = No Accuracy = 75% IF Sex = Male & Credit Card Insurance = No THEN Life Insurance Promotion = No Accuracy = 83.3%

8 3.1 Decision Tree  Advantages of Decision Trees  이해하기 쉽고 분류작업이 용이하다.  실제 문제에 적용할 수 있다.  가정 ( 선형성, 등분산성 등 ) 이 필요 없다.  Numerical data 와 Categorical data 모두 취급 가능하다.  Disadvantages of Decision Trees  Output attribute 가 분류되어야 한다.  Decision tree algorithms 은 Tree 가 깊어질수록 예측력 저하와 해석의 어려움 등 불안정해진다.  계산량이 많을 수 있다.

9 3.2 Generating Association Rules Milk -> Bread Support(milk,bread) = Pattern(milk,bread)/ 전체 트랜잭션 수 = 5000/10000 = 50% Confidence(milk,bread) = Pattern(milk,bread)/Pattern(milk) = 5000/8000 = 62.5% Confidence and Support

10 3.2 Generating Association Rules Apriori algorithm  Item set 을 생성한다.  생성된 Item set 을 이용하여 association rule 을 만든 다. Mining Association Rules : An Example

11 3.2 Generating Association Rules Mining Association Rules : An Example

12 3.2 Generating Association Rules * Three Item set Watch Promotion = No & Life Insurance Promotion = No & Credit Card Insurance

13 3.2 Generating Association Rules Three-item set rules IF Watch Promotion =No & Life Insurance Promotion = No THEN Credit Card Insurance =No (4/4) IF Watch Promotion =No THEN Life Insurance Promotion = No & Credit Card Insurance = No (4/6) IF Credit Card Insurance = No THEN Watch Promotion = No & Life Insurance Promotion = No(4/8) Two-Item set rules IF Magazine Promotion =Yes THEN Life Insurance Promotion =Yes (5/7) IF Life Insurance Promotion =Yes THEN Magazine Promotion =Yes (5/5) Mining Association Rules : An Example

14 3.2 Generating Association Rules Association rules 를 사용하게 되었을 때 제품을 고객이 살 때 연관된 제품을 통해 한 개 또는 더 많은 다른 제품들도 팔 수 있는 흥미로운 결과를 볼 수 있다. 연관규칙의 특정한 연관이 기대된 confidence 보 다 더 낮은 값을 보이는 흥미로운 점도 있다. General Considerations


Download ppt "Data Mining : Basic Data Mining Techniques 2008.4.10 Database Lab 김성원."

Similar presentations


Ads by Google