Download presentation
Presentation is loading. Please wait.
Published byCynthia Felicity Andrews Modified over 9 years ago
1
김한준 서울시립대학교 Data Mining Lab., Univ. of Seoul, Copyright ® 2008
2
data information knowledge Data Mining Lab., Univ. of Seoul, Copyright ® 2008
3
Data Information Knowledge Shallowknowledge OLAPknowledgeHiddenknowledge SQL 질의 Data Warehousing OLAP Data Mining 검색 분석 / 처리 탐사 업무처리 의사결정 Data Mining Lab., Univ. of Seoul, Copyright ® 2008
4
Online Analytical Processing (OLAP) Interactive analysis of data, allowing data to be summarized and viewed in different ways in an online fashion (with negligible delay) Data that can be modeled as dimension attributes and measure attributes are called multidimensional data. Measure attributes measure some value can be aggregated upon e.g. the attribute number of the sales relation Dimension attributes define the dimensions on which measure attributes (or aggregates thereof) are viewed e.g. the attributes item_name, color, and size of the sales relation
5
The table above is an example of a cross-tabulation (cross-tab), also referred to as a pivot-table. Values for one of the dimension attributes form the row headers Values for another dimension attribute form the column headers Other dimension attributes are listed on top Values in individual cells are (aggregates of) the values of the dimension attributes that specify the cell.
6
n A data cube is a multidimensional generalization of a cross-tab n Can have n dimensions; we show 3 below n Cross-tabs can be used as views on a data cube
7
Pivoting: changing the dimensions used in a cross-tab is called Slicing: creating a cross-tab for fixed values only Sometimes called dicing, particularly when values for multiple dimensions are fixed. Rollup: moving from finer-granularity data to a coarser granularity Drill down: The opposite operation - that of moving from coarser- granularity data to finer-granularity data
10
46 Knowledge Discovery in large Databases 대량의 데이타로부터 이전에 알려지지는 않은, 묵시적이고, 잠재적으로 유용한 정보를 탐사하는 작업 Data Mining Data Mining Lab., Univ. of Seoul, Copyright ® 2008
11
13
문장, 단어분석 Data Mining Lab., Univ. of Seoul, Copyright ® 2008
14
Data Mining - 자동문서분류 Entertainment (Yahoo) Comic&AnimationMovie&Film Film Festival FilmMaking Animatoin ComputerAnimation FestivalAnime Comic Books Editorial Cartoons Magazine Comic Strip News&Media Magazine Short Films Screen Writing Animated Gifs Magazine Conventions Cartoonist Review Magna History Manual Automatic Data Mining Lab., Univ. of Seoul, Copyright ® 2008
16
eCRM 개인화 ( 추천 ) 맞춤페이지 : 선호 상품, 선호 정보 push 개인화 ( 마케팅 ) 맞춤광고 Event detection 구매패턴 변화 감지 맞춤 영역 Data Mining Lab., Univ. of Seoul, Copyright ® 2008
17
콜센터 음성인식 자동분류 고객대응 고객불만 / 문의 ? Data Mining Lab., Univ. of Seoul, Copyright ® 2008
18
산불예방 Data Mining Lab., Univ. of Seoul, Copyright ® 2008
19
1. Classification 2. Clustering Outlier Detection Outlier Detection 3. Association Rule Mining Sequential Pattern Mining Sequential Pattern Mining Data Mining Lab., Univ. of Seoul, Copyright ® 2008
20
Classification IF “age 40,000” THEN “sports cars” 선호 Prediction Model Clustering A 그룹 : age=30’s and job=‘IT’ and address = ‘Seoul’ Description Model Association rules 98% of people who purchase diapers also buy beer Sequential pattern Data Mining Lab., Univ. of Seoul, Copyright ® 2008
21
Classification (Categorization) LearningModel Least loyal commonprofitable 학습 데이터 (Training Data) 未知 데이터 (Unknown Data) Classification Data Mining Lab., Univ. of Seoul, Copyright ® 2008
22
Pattern, Model (Intelligence) Least loyal commonprofitable 학습 데이터 未知 데이터 과거 데이타미래 예측 Data Mining Lab., Univ. of Seoul, Copyright ® 2008
23
LearnerLearner ClassifierClassifier ObservedTrainingdataObservedTrainingdata Unknown data ModelModel CategorizeddataCategorizeddata Model of “good credit” (25 40k) or (married = YES) Model of “potential cancer” (smoke = Y & age >= 50 ) Model of “good credit” (25 40k) or (married = YES) Model of “potential cancer” (smoke = Y & age >= 50 ) Data Mining Lab., Univ. of Seoul, Copyright ® 2008
24
문서분류 Web directory-based Search Engine 에서 웹문서의 자동분류 Data Mining Lab., Univ. of Seoul, Copyright ® 2008
25
CRM (Customer Relationship Management) 고객분류 우수고객 이탈고객 정상고객 불량고객 분류된 고객에 대한 차별화된 서비스 제공 Direct Mail 발송 차별적 Marketing 고객 이탈 방지 Data Mining Lab., Univ. of Seoul, Copyright ® 2008
26
ㅇㅇㄹㅇㄹㅇㄹㅇㄹㅇㄹㅇㅇㄹㅇㄹㅇ 사용편의성 사진품질 배터리수명 조작하기 간편, 그립감이 좋은 편, 배터리 수명이 캐논보다는 긴 편임,… …….. 속성별 상품평 분석 가격대 : 450,000 원 ~ 545,000 원 디지털카메라 상품평 분석 보고서 Classification Data Mining Lab., Univ. of Seoul, Copyright ® 2008
27
1. Classification 2. Clustering Outlier Detection Outlier Detection 3. Association Rule Mining Sequential Pattern Mining Sequential Pattern Mining Data Mining Lab., Univ. of Seoul, Copyright ® 2008
29
고객데이타 = 인구학적정보, 구매정보 등으로 표현 Young urban career women Teenager having a computer Data Mining Lab., Univ. of Seoul, Copyright ® 2008
30
Summarization of large data Understand the large customer data Data organization Manage the large customer data Outlier detection Find unusual customer data Classification/Association Rule Mining 의 전단계 Data Mining Lab., Univ. of Seoul, Copyright ® 2008
31
Classification/Association Rule Mining 의 전단계 의미있는 cluster 로부터 class 를 도출 Cluster 내부에 있는 데이터에 대한 Association Rule Mining 을 수 행 Data Mining Lab., Univ. of Seoul, Copyright ® 2008
32
32 검색결과에 대한 clustering Data Mining Lab., Univ. of Seoul, Copyright ® 2008
33
Clusty.com vivisimo incorp. Data Mining Lab., Univ. of Seoul, Copyright ® 2008
34
1. Classification 2. Clustering Outlier Detection Outlier Detection 3. Association Rule Mining Sequential Pattern Mining Sequential Pattern Mining Data Mining Lab., Univ. of Seoul, Copyright ® 2008
35
Basket Analysis Data Mining Lab., Univ. of Seoul, Copyright ® 2008
36
X Y Support : statistical significance |X Y|/N Confidence: accuracy |X Y|/|X| Data Mining Lab., Univ. of Seoul, Copyright ® 2008
37
Example: Association Rules 1 => 3 with 50% support and 66% confidence 3 => 1 with 50% support and 100% confidence Data Mining Lab., Univ. of Seoul, Copyright ® 2008
38
L i : Large Item Set C i : Candidate Item Set B,C => E ( 지지도 0.5, 신뢰도 1.0) B,C => E ( 지지도 0.5, 신뢰도 1.0) Data Mining Lab., Univ. of Seoul, Copyright ® 2008
39
패턴발견 47 빵과 과자를 사는 사람의 80% 는 우유를 같이 산다 분유와 기저귀를 사는 사람의 74% 는 맥주를 같이 산다 의사결정 맥주 소비는 분유와 기저귀 소비에 영향을 미침 빵과 과자 가격 인상은 우유 소비에 영향을 미침 상품 진열대에 ( 빵, 과자, 우유 ), ( 분유, 기저귀, 맥주 ) 를 같이 진열 우유 소비를 조절하기 위해 빵, 과자 가격을 조정 업무적용 Association Rule 의 활용 Data Mining Lab., Univ. of Seoul, Copyright ® 2008
41
interactive, iterative ongoing processing Data Mining Lab., Univ. of Seoul, Copyright ® 2008
42
Classification Machine learning approach supervised Clustering Unsupervised Association Rule Mining unsupervised Data Mining Lab., Univ. of Seoul, Copyright ® 2008
43
Retail/Marketing 구매자의 성향, 구매패턴, 성향들 사이의 관 계 등을 판독 shelf planning, supermarket inventory planning 등에 활용 Banking 위조 신용카드사용의 패턴을 추적 "loyal" 고객을 identify 신용카드 가입을 변경시킬 것으로 판단되는 고객을 미리 에측 여러 가지 재정 지표들간의 숨겨진 상관관계 판독 Insurance Claim Analysis 새로운 상품에 대한 고객 수요 예측 risky customer 의 행동 패턴을 identify 위조행위를 identify Medicine 환자 history 데이터의 분석 성공적인 의료 요법을 identify 하는데 이용 특정 환자에 대한 수술 여부 판단 화학 / 약학 정보 데이타 관리 새로운 화학 구조식의 발견, 새로운 촉매의 발견 석유 탐사 석유의 품질에 관한 정보와 지형 데이터상에 서 DM 석유 생산량과 석유의 품질 예측 화재 발생 예측 환경적, 사회적 요인의 분석 Data Mining Lab., Univ. of Seoul, Copyright ® 2008
44
44 Data Mining DatabaseTechnologyStatistics OtherDisciplines InformationScience MachineLearningVisualization Data Mining Lab., Univ. of Seoul, Copyright ® 2008
46
Difference with data mining Analyze both raw data and textual information at the same time Require complicated FEATURE SELECTION technologies May include linguistic, lexical, and contextual techniques Data Mining Lab., Univ. of Seoul, Copyright ® 2008
47
Feature Selection Stopword 제거 Zipf ’ s Law DF (document frequency)-based x 2 Statistics-based Mutual Information Term Strength etc Data Mining Lab., Univ. of Seoul, Copyright ® 2008
48
환자본인의 유전자를 이용, 배아를 만든 후 이를 이용해 실험실에서 건강한 세포를 배양시켜 환자에 다시 주입하는 이른바 치료복제법이 실험을 통해 입증되기는 이번이 세계최초라고 연구진은 주장했는데 이 방법은 주입된 세포에 대한 인체의 거부 반응이 없어 그동안 의학계의 관심을 끌어왔다 환자 본인 환자본인 유전자 이용 배아 이용 실험실 건강 세포 배양 환자 주입 치료복제법 실험 입증 이번 세계 최초 세계최초 연구진 주장 방법 주입 세포 인체 거부 반응 의학계 관심 Feature Extraction Feature Extraction 수의학 0.191149 의학, 생명공학, 약학 0.134847 치의학 0.114641 생물, 미생물 0.109833 성 0.099062 질병, 증상, 죽음 0.084554... Classi- fication Classi- fication Data Mining Lab., Univ. of Seoul, Copyright ® 2008
49
49 검색결과에 대한 clustering Data Mining Lab., Univ. of Seoul, Copyright ® 2008
51
http://www.w3.org/2001/XMLSchema ….. definitions of customer and depositor ….
Similar presentations
© 2025 SlidePlayer.com. Inc.
All rights reserved.