데이터 마이닝 기술(Ⅰ) 데이터 마이닝(data mining)의 정의 대량의 실제 데이터로부터 이전에 잘 알려지지는 않았지만 묵시적이고 잠재적으로 유용한 정보를 추출하는 작업 cf) KDD(Knowledge Discovery in Database) 데이터베이스로부터 지식을 추출하는 전 과정
데이터 마이닝 기술(Ⅱ) 전문가 시스템 기계학습 KDD Data Minig 데이터 베이스 통계학 가시화
데이터 마이닝 기술(IV) 데이터 마이닝 기법 연관규칙(association rule) K-최단 인접(K-nearest neighbor) 의사결정트리(decision tree) 신경망(neural network) 유전자 알고리즘(genetic algorithm) 통계적 기법(statistical technique)
데이터 마이닝 기술(V) 데이터 마이닝 주요 작업(primaty tasks) 분류화(classification) 군집화(clustering) 특성화(characterization, summerization) 경향분석(trend analysis) 연관규칙 탐사(association) – Monket Basket Analysis 패턴분석(pattern analysis) Estimation Prediction Text Mining Web Mining Web Contents Web Log
데이터 마이닝 기술(VII) 응용 분야 Marketing & retail Banking Finance Insurance Medicine & health (Genetics) Quality control Transportation Geo – Spaetial Applications
DM Tasks Classifications (1/2) ○▱△ large ○○○ ○▱Ⅹ medium △△△ △○Ⅹ small ⅩⅩ objects predefined classes
DM Tasks Classification (2/2) (ex) news [ International ] [ domestic ] [ sports ] [ culture ] : credit application [ high ] [ medium ] [ low ] water sample data [ 일급수 ] [ 이급수 ] [ 꾸정물 ] (alg) Decision Trees, Memory Based Reasoning
DM Tasks Estimation (1/2) Attr 1 Attr 2 : (Continuous) Value cf. classification maps to discrete categories
DM Tasks Estimation (2/2) (ex) 나이, 성별, 혈압, … 잔여수명 나이, 성별, 직업, … 연 수입 나이, 성별, 직업, … 연 수입 지역, 수량, 인구, … 오염농도 (alg) neural net (*) estimating future value is called Prediction.
DM Tasks [○△] Association (1/2) Market Basket Analysis Determine which things go together [○○△☓] [○□△] [☆□] [○☆☓△] ⋮ [○△]
DM Tasks Association (2/2) Water Sample [NO2, C2H5OH,] Eg) Shopping list Cross - Selling (super market, (shelf, catalog, home shopping, CF, ⋯) E-shopping,etc.) Water Sample [NO2, C2H5OH,] Alg) Association rules
DM Tasks Clustering (1/4) Cf. classification - predefined category clustering - find new category & explain the category G1 G2 G3 G4 Heterogeneous population Homogeneous subgroups (cluster)
DM Tasks Clustering (2/4) eg) symptoms → disease customer info → selective sales 토양 data (수질) Note : Clustering is dependent to the features used. card 예 : number, color, suite…
DM Tasks Clustering (3/4) Clustering is useful for Exception finding Calling card fraud detection Credit card fraud etc. exceptions
DM Tasks Clustering (4/4) alg) K-means → K clusters Note) directed vs non-directed KDD