Presentation is loading. Please wait.

Presentation is loading. Please wait.

김한준 서울시립대학교 Data Mining Lab., Univ. of Seoul, Copyright ® 2008.

Similar presentations


Presentation on theme: "김한준 서울시립대학교 Data Mining Lab., Univ. of Seoul, Copyright ® 2008."— Presentation transcript:

1 김한준 서울시립대학교 Data Mining Lab., Univ. of Seoul, Copyright ® 2008

2 data information knowledge Data Mining Lab., Univ. of Seoul, Copyright ® 2008

3 Data Information Knowledge Shallowknowledge OLAPknowledgeHiddenknowledge SQL 질의 Data Warehousing OLAP Data Mining 검색 분석 / 처리 탐사 업무처리 의사결정 Data Mining Lab., Univ. of Seoul, Copyright ® 2008

4  Online Analytical Processing (OLAP) Interactive analysis of data, allowing data to be summarized and viewed in different ways in an online fashion (with negligible delay)  Data that can be modeled as dimension attributes and measure attributes are called multidimensional data. Measure attributes  measure some value  can be aggregated upon  e.g. the attribute number of the sales relation Dimension attributes  define the dimensions on which measure attributes (or aggregates thereof) are viewed  e.g. the attributes item_name, color, and size of the sales relation

5  The table above is an example of a cross-tabulation (cross-tab), also referred to as a pivot-table. Values for one of the dimension attributes form the row headers Values for another dimension attribute form the column headers Other dimension attributes are listed on top Values in individual cells are (aggregates of) the values of the dimension attributes that specify the cell.

6 n A data cube is a multidimensional generalization of a cross-tab n Can have n dimensions; we show 3 below n Cross-tabs can be used as views on a data cube

7  Pivoting: changing the dimensions used in a cross-tab is called  Slicing: creating a cross-tab for fixed values only Sometimes called dicing, particularly when values for multiple dimensions are fixed.  Rollup: moving from finer-granularity data to a coarser granularity  Drill down: The opposite operation - that of moving from coarser- granularity data to finer-granularity data

8

9

10 46 Knowledge Discovery in large Databases 대량의 데이타로부터 이전에 알려지지는 않은, 묵시적이고, 잠재적으로 유용한 정보를 탐사하는 작업 Data Mining Data Mining Lab., Univ. of Seoul, Copyright ® 2008

11

12

13 문장, 단어분석 Data Mining Lab., Univ. of Seoul, Copyright ® 2008

14 Data Mining - 자동문서분류 Entertainment (Yahoo) Comic&AnimationMovie&Film Film Festival FilmMaking Animatoin ComputerAnimation FestivalAnime Comic Books Editorial Cartoons Magazine Comic Strip News&Media Magazine Short Films Screen Writing Animated Gifs Magazine Conventions Cartoonist Review Magna History Manual Automatic Data Mining Lab., Univ. of Seoul, Copyright ® 2008

15

16  eCRM 개인화 ( 추천 )  맞춤페이지 : 선호 상품, 선호 정보 push 개인화 ( 마케팅 )  맞춤광고 Event detection  구매패턴 변화 감지 맞춤 영역 Data Mining Lab., Univ. of Seoul, Copyright ® 2008

17  콜센터 음성인식 자동분류 고객대응 고객불만 / 문의 ? Data Mining Lab., Univ. of Seoul, Copyright ® 2008

18  산불예방 Data Mining Lab., Univ. of Seoul, Copyright ® 2008

19 1. Classification 2. Clustering Outlier Detection Outlier Detection 3. Association Rule Mining Sequential Pattern Mining Sequential Pattern Mining Data Mining Lab., Univ. of Seoul, Copyright ® 2008

20  Classification IF “age 40,000” THEN “sports cars” 선호  Prediction Model  Clustering A 그룹 : age=30’s and job=‘IT’ and address = ‘Seoul’  Description Model  Association rules 98% of people who purchase diapers also buy beer  Sequential pattern   Data Mining Lab., Univ. of Seoul, Copyright ® 2008

21  Classification (Categorization) LearningModel Least loyal commonprofitable 학습 데이터 (Training Data) 未知 데이터 (Unknown Data) Classification Data Mining Lab., Univ. of Seoul, Copyright ® 2008

22 Pattern, Model (Intelligence) Least loyal commonprofitable 학습 데이터 未知 데이터 과거 데이타미래 예측 Data Mining Lab., Univ. of Seoul, Copyright ® 2008

23 LearnerLearner ClassifierClassifier ObservedTrainingdataObservedTrainingdata Unknown data ModelModel CategorizeddataCategorizeddata Model of “good credit” (25 40k) or (married = YES) Model of “potential cancer” (smoke = Y & age >= 50 ) Model of “good credit” (25 40k) or (married = YES) Model of “potential cancer” (smoke = Y & age >= 50 ) Data Mining Lab., Univ. of Seoul, Copyright ® 2008

24  문서분류 Web directory-based Search Engine 에서 웹문서의 자동분류 Data Mining Lab., Univ. of Seoul, Copyright ® 2008

25  CRM (Customer Relationship Management) 고객분류  우수고객  이탈고객  정상고객  불량고객 분류된 고객에 대한 차별화된 서비스 제공  Direct Mail 발송  차별적 Marketing  고객 이탈 방지 Data Mining Lab., Univ. of Seoul, Copyright ® 2008

26 ㅇㅇㄹㅇㄹㅇㄹㅇㄹㅇㄹㅇㅇㄹㅇㄹㅇ 사용편의성 사진품질 배터리수명 조작하기 간편, 그립감이 좋은 편, 배터리 수명이 캐논보다는 긴 편임,… …….. 속성별 상품평 분석 가격대 : 450,000 원 ~ 545,000 원 디지털카메라 상품평 분석 보고서 Classification Data Mining Lab., Univ. of Seoul, Copyright ® 2008

27 1. Classification 2. Clustering Outlier Detection Outlier Detection 3. Association Rule Mining Sequential Pattern Mining Sequential Pattern Mining Data Mining Lab., Univ. of Seoul, Copyright ® 2008

28

29 고객데이타 = 인구학적정보, 구매정보 등으로 표현 Young urban career women Teenager having a computer Data Mining Lab., Univ. of Seoul, Copyright ® 2008

30  Summarization of large data Understand the large customer data  Data organization Manage the large customer data  Outlier detection Find unusual customer data  Classification/Association Rule Mining 의 전단계 Data Mining Lab., Univ. of Seoul, Copyright ® 2008

31  Classification/Association Rule Mining 의 전단계 의미있는 cluster 로부터 class 를 도출 Cluster 내부에 있는 데이터에 대한 Association Rule Mining 을 수 행 Data Mining Lab., Univ. of Seoul, Copyright ® 2008

32 32  검색결과에 대한 clustering Data Mining Lab., Univ. of Seoul, Copyright ® 2008

33  Clusty.com vivisimo incorp. Data Mining Lab., Univ. of Seoul, Copyright ® 2008

34 1. Classification 2. Clustering Outlier Detection Outlier Detection 3. Association Rule Mining Sequential Pattern Mining Sequential Pattern Mining Data Mining Lab., Univ. of Seoul, Copyright ® 2008

35 Basket Analysis Data Mining Lab., Univ. of Seoul, Copyright ® 2008

36  X  Y Support : statistical significance  |X  Y|/N Confidence: accuracy  |X  Y|/|X| Data Mining Lab., Univ. of Seoul, Copyright ® 2008

37  Example:  Association Rules 1 => 3 with 50% support and 66% confidence 3 => 1 with 50% support and 100% confidence Data Mining Lab., Univ. of Seoul, Copyright ® 2008

38 L i : Large Item Set C i : Candidate Item Set B,C => E ( 지지도 0.5, 신뢰도 1.0) B,C => E ( 지지도 0.5, 신뢰도 1.0) Data Mining Lab., Univ. of Seoul, Copyright ® 2008

39 패턴발견 47 빵과 과자를 사는 사람의 80% 는 우유를 같이 산다 분유와 기저귀를 사는 사람의 74% 는 맥주를 같이 산다 의사결정 맥주 소비는 분유와 기저귀 소비에 영향을 미침 빵과 과자 가격 인상은 우유 소비에 영향을 미침 상품 진열대에 ( 빵, 과자, 우유 ), ( 분유, 기저귀, 맥주 ) 를 같이 진열 우유 소비를 조절하기 위해 빵, 과자 가격을 조정 업무적용 Association Rule 의 활용 Data Mining Lab., Univ. of Seoul, Copyright ® 2008

40

41  interactive, iterative ongoing processing Data Mining Lab., Univ. of Seoul, Copyright ® 2008

42  Classification Machine learning approach supervised  Clustering Unsupervised  Association Rule Mining unsupervised Data Mining Lab., Univ. of Seoul, Copyright ® 2008

43  Retail/Marketing  구매자의 성향, 구매패턴, 성향들 사이의 관 계 등을 판독  shelf planning, supermarket inventory planning 등에 활용  Banking  위조 신용카드사용의 패턴을 추적  "loyal" 고객을 identify  신용카드 가입을 변경시킬 것으로 판단되는 고객을 미리 에측  여러 가지 재정 지표들간의 숨겨진 상관관계 판독  Insurance  Claim Analysis  새로운 상품에 대한 고객 수요 예측  risky customer 의 행동 패턴을 identify  위조행위를 identify  Medicine  환자 history 데이터의 분석  성공적인 의료 요법을 identify 하는데 이용  특정 환자에 대한 수술 여부 판단  화학 / 약학 정보 데이타 관리  새로운 화학 구조식의 발견, 새로운 촉매의 발견  석유 탐사  석유의 품질에 관한 정보와 지형 데이터상에 서 DM  석유 생산량과 석유의 품질 예측  화재 발생 예측  환경적, 사회적 요인의 분석 Data Mining Lab., Univ. of Seoul, Copyright ® 2008

44 44 Data Mining DatabaseTechnologyStatistics OtherDisciplines InformationScience MachineLearningVisualization Data Mining Lab., Univ. of Seoul, Copyright ® 2008

45

46  Difference with data mining Analyze both raw data and textual information at the same time Require complicated FEATURE SELECTION technologies May include linguistic, lexical, and contextual techniques Data Mining Lab., Univ. of Seoul, Copyright ® 2008

47  Feature Selection Stopword 제거 Zipf ’ s Law DF (document frequency)-based x 2 Statistics-based Mutual Information Term Strength etc Data Mining Lab., Univ. of Seoul, Copyright ® 2008

48 환자본인의 유전자를 이용, 배아를 만든 후 이를 이용해 실험실에서 건강한 세포를 배양시켜 환자에 다시 주입하는 이른바 치료복제법이 실험을 통해 입증되기는 이번이 세계최초라고 연구진은 주장했는데 이 방법은 주입된 세포에 대한 인체의 거부 반응이 없어 그동안 의학계의 관심을 끌어왔다 환자 본인 환자본인 유전자 이용 배아 이용 실험실 건강 세포 배양 환자 주입 치료복제법 실험 입증 이번 세계 최초 세계최초 연구진 주장 방법 주입 세포 인체 거부 반응 의학계 관심 Feature Extraction Feature Extraction 수의학  0.191149 의학, 생명공학, 약학  0.134847 치의학  0.114641 생물, 미생물  0.109833 성  0.099062 질병, 증상, 죽음  0.084554... Classi- fication Classi- fication Data Mining Lab., Univ. of Seoul, Copyright ® 2008

49 49  검색결과에 대한 clustering Data Mining Lab., Univ. of Seoul, Copyright ® 2008

50

51 http://www.w3.org/2001/XMLSchema ….. definitions of customer and depositor ….


Download ppt "김한준 서울시립대학교 Data Mining Lab., Univ. of Seoul, Copyright ® 2008."

Similar presentations


Ads by Google