KHAI PHÁ DỮ LIỆU (DATA MINING)

Slides:



Advertisements
Similar presentations
Đánh giá Quốc gia có Hệ thống cho Việt Nam Các ư u tiên về Giảm nghèo, Phát triển Công bằng và Bền vững Ngày 5 tháng 4 n ă m 2016.
Advertisements

Quản trị Rủi ro thiên tai và Biến đổi khí hậu
HANOI HANOI Restaurant – 24 September 2011 – 18-21h
BỘ Y TẾ VỤ TRANG THIẾT BỊ VÀ CÔNG TRÌNH Y TẾ
Báo cáo Cấu trúc đề thi PISA và Các dạng câu hỏi thi PISA
XÂY DỰNG VÀ PHÁT TRIỂN CHƯƠNG TRÌNH ĐÀO TẠO THEO ĐỀ XƯỚNG CDIO
Rainforest Alliance đào tạo cho các nông trại trà ở Việt Nam
Qua hàng ngàn năm dựng nước và giữ nước, dân tộc ta đã để lại nhiều bài học vô giá. Nổi bật trong đó là tinh thần đoàn kết, ý thức cộng đồng. Hai truyền.
L/O/G/O NGUYÊN LÝ KẾ TOÁN Nguyễn Hữu Quy (MBA,CPA,APC)
1 ĐỒNG NAI ĐÁNH GIÁ TÌNH HÌNH VÀ ĐỀ XUẤT ÁP DỤNG HIỆU QUẢ MÔ HÌNH KINH TẾ DƯỢC TẠI BỆNH VIỆN ĐA KHOA ĐỒNG NAI NĂM 2017 Học viên: Nhóm 5 _ PP111.
TRƯỜNG ĐẠI HỌC THĂNG LONG
CHÍNH SÁCH VÀ TRIỂN KHAI CHÍNH SÁCH BẢO MẬT
Thực hiện các cuộc họp quan trọng
TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN
PGS. TS. Trần Cao Đệ Bộ môn Công nghệ Thông tin
ViÖn ChiÕn l­îc ph¸t triÓn
QUẢN TRỊ THÀNH TÍCH Performance Management
TÌM HIỂU VỀ WEB SERVICES VÀ XÂY DỰNG MỘT WEB SERVICE
Tham gia Intel ISEF 2013 và một số kinh nghiệm chia sẻ
Giới thiệu chương trình trách nhiệm xã hội của doanh nghiệp
THÔNG TIN MÔN HỌC Quản trị chuỗi cung ứng (Supply Chain Management): 45 tiết Tài liệu nghiên cứu Quản lý chuỗi cung ứng –Th.S. Nguyễn Kim Anh, Đại học.
Software testing Kiểm thử phần mềm
Chương 6 Thiết kế hệ thống.
KHÓA TẬP HUẤN CÔNG BẰNG GIỚI VÀ CÁC DỰ ÁN PHÁT TRIỂN
Hạ Long – Cát Bà Sáng kiến Liên minh Bui Thi Thu Hien
Đức Hồng Y Nguyễn Văn Thuận cầu bầu
WELCOME TO MY PRESENTATION
Module 6 – Managing for Sustainability
Chương 4 Phân tích chi phí – lợi ích
Khởi động SXSH với công cụ quản lý nội vi 5S
CHẾ ĐỘ PHÁP LÝ VỀ CÔNG TY CỔ PHẦN
HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG
TRUYỀN THÔNG VỀ PHÒNG CHỐNG BỆNH DO VI RÚT ZIKA 1
Tổng Quan Về Lập Trình Hướng Đối Tượng
Thương mại điện tử HÀ VĂN SANG.
XÂY DỰNG LỢI THẾ CẠNH TRANH THÔNG QUA CHIẾN LƯỢC CẤP KINH DOANH
MKTNH Version 3 Giảng viên: ThS. Thái Thị Kim Oanh
Bài 2: Từ tiêu chuẩn sức khoẻ tới nơi làm việc lành mạnh
Chương 6 Thiết kế hướng đối tượng
DI SẢN THẾ GIỚI WORLD HERITAGE CỔ THÀNH HUẾ VIỆT NAM
Chương 4: Những nguyên lý hỗ trợ FMS
TRƯỜNG CAO ĐẲNG TÀI CHÍNH HẢI QUAN KHOA: KINH DOANH QUỐC TẾ
PHÁT TRIỂN CHƯƠNG TRÌNH ĐÀO TẠO DỰA TRÊN CHUẨN ĐẦU RA
XÂY DỰNG KẾ HOẠCH VÀ CHIẾN LƯỢC MARKETING
Giữa bối cảnh cạnh tranh ngày càng khốc liệt, Khởi Nghiệp đang trở thành một làn sóng mới trong thị trường kinh doanh ở Việt Nam bởi mô hình giàu sức.
Chiến lược CSR –Là gì và làm thế nào để chúng ta sàng lọc lựa chọn?
UBND TỈNH ĐIỆN BIÊN SỞ GIÁO DỤC VÀ ĐÀO TẠO
Xây dựng thương hiệu bền vững và tiếp thị cho sự thân thiện môi trường
Quản lý con người Quản lý người làm việc như những cá nhân và theo nhóm.
Chapter 16: Chiến lược giá
BÀI GIẢNG QUẢN LÝ DỰ ÁN HỆ THỐNG THÔNG TIN CHƯƠNG 1
Giới Thiệu Tiêu Đề I.
Operators and Expression
NỘI DUNG I. THỰC TRẠNG QL VỐN NN TẠI CÁC DNNN
Trách nhiệm giải trình của doanh nghiệp ở diện rộng
NGHỆ THUẬT LÃNH ĐẠO PGS.TS Nguyễn Minh Tuấn.
QUYỀN LỰC VÀ MÂU THUẪN TRONG NHÓM
Chương 2 Căn bản về Cung và Cầu 1.
GIỚI THIỆU KHÁI QUÁT VỀ THỊ TRƯỜNG TÀI CHÍNH
PHÒNG GIÁO DỤC VÀ ĐÀO TẠO
QUẢN TRỊ TÍNH ĐA DẠNG THÔNG QUA NHIỀU HOẠT ĐỘNG KINH DOANH
Kế hoạch Quản lý Hóa chất & Tích hợp vào Quy trình Nhà máy và Quản lý
HƯỚNG DẪN MÃ HÓA BỆNH TẬT, TỬ VONG THEO ICD - 10
Giảng viên: Lương Tuấn Anh
Trường CĐ CNTT HN Việt Hàn
Chương 8 NHỮNG VẤN ĐỀ QUẢN TRỊ CƠ BẢN TRONG THỰC THI CHIẾN LƯỢC
KHAI THÁC THỦY SẢN ĐẠI CƯƠNG
So sánh marketing online & marketing truyền thống
Chương 4: Tập gõ 10 ngón Chương 2: Học cùng máy tính
Presentation transcript:

KHAI PHÁ DỮ LIỆU (DATA MINING) Bài 1 TỔNG QUAN

Chương trình học Bài 1: GIỚI THIỆU TỔNG QUAN VỀ DATA MINING Bài 2: BÀI TOÁN TÌM TẬP PHỔ BIẾN VÀ LUẬT KẾT HỢP Bài 3: BÀI TOÁN VỀ DÃY PHỔ BIẾN (EPISODE) Bài 4: LÝ THUYẾT TẬP THÔ VÀ ỨNG DỤNG TRONG PHÂN LỚP Bài 5: GOM CỤM BẰNG THUẬT TOÁN Hard C_Means Tài liệu : Giáo trình TS Đỗ Phúc và các bài tham khảo trên lớp Mai Xuân Hùng

Đánh giá môn học Sinh viên 1 bài thi theo hình thức tự luận Cộng thêm điểm cho những sinh viên cài đặt các thuật toán trong chương trình môn datamining Mai Xuân Hùng

Khai phá dữ liệu là gì ? Rút trích thông tin hữu ích, chưa biết, tiềm ẩn trong khối dữ liệu lớn Phân tích dữ liệu bán tự động Mai Xuân Hùng

Khai phá dữ liệu có ích lợi gì ? Cung cấp tri thức hỗ trợ ra quyêt định Dự báo Khái quát dữ liệu Mai Xuân Hùng

Tiền xử lý/ làm sạch, mã hóa Chọn tác vụ Khai thác dữ liệu Tiến trình khai phá dữ liệu(1) Nghiên cứu lĩnh vực Tạo tập dữ liệu đầu vào Tiền xử lý/ làm sạch, mã hóa Rút gọn / chiều Chọn tác vụ Khai thác dữ liệu Mai Xuân Hùng

Chọn các thuật giải KTDL Sử dụng các tri thức vừa khám phá Tiến trình khai phá dữ liệu(2) Chọn các thuật giải KTDL KTDL: Tìm kiếm tri thức Đánh giá mẫu tìm được Biểu diễn tri thức Sử dụng các tri thức vừa khám phá Mai Xuân Hùng

Từ dữ liệu đến quyết định Promote product A in region Z. Mail ads to families of profile P Cross-sell service B to clients C Tri thức A quantity Y of product A is used in region Z Customers of class Y use x% of C during period D Thông tin X lives in Z S is Y years old X and S moved W has money in Z Dữ liệu Customer data Store data Demographical Data Geographical data Mai Xuân Hùng

Giải thích Dữ liệu – thông tin – tri thức + Dữ liệu: Là sự diễn dịch những trường đơn lẽ ví dụ: Nguyễn Thị Hoa Mai, Sinh viên, ngành CNTT, môn CSDL. + Thông tin: Là mối liên hệ các thành phần của dữ liệu, Ví dụ: Nguyễn Thị Hoa Mai là sinh viên ngành công nghệ thông tin. Ngành công nghệ thông tin có môn CSDL. Mai Xuân Hùng

Dạng luật kết hợp Tri thức: Là mối liên hệ của các thành phần thông tin, có hai cấp độ. Chỉ giới hạn một nhóm nhỏ thông tin. Ví dụ: Nguyễn Thị Hoa Mai là sinh viên ngành công nghệ thông tin nên phải học môn CSDL. Là những thông tin mang tính quy luật phổ biến. Ví dụ: Nếu X là sinh viên ngành CNTT thì X phải học môn CSDL. Mai Xuân Hùng

ví dụ Dữ liệu khổng lồ từ: Internet, từ nhiều lĩnh vực trong đời sống xã hội, quản lý kinh tế, khoa học kỹ thuật …Ví dụ: CSDL dân cư Thành Phố HCM có hơn 50 triệu dân khẩu, CSDL tuyển sinh đại học hơn 1 triệu. Từ khối dữ liệu này =>rút trích những thông tin hữu ích, chưa biết tiềm ẩn trong khối dữ liệu hỗ trợ tiến trình ra quyết định, dự báo, các nhà nghiên cứu đã phát triển các phương pháp, kỹ thuật và phần mềm mới hỗ trợ tiến trình khám phá, phân tích tổng hợp thông tin. Mai Xuân Hùng

Ví dụ Khai thác thông tin truyền thống : 80 % thông tin từ CSDL, còn lại 20% thông tin nhưng chứa đựng thông tin quan trọng. Khai thác dữ liệu-Data Mining (KTDL) là tiến trình khám phá tri thức tiềm ẩn trong các CSDL. Cụ thể hơn, đó là tiến trình trích lọc, sản sinh những tri thức hoặc các mẫu tiềm ẩn, chưa biết nhưng hữu ích từ các CSDL lớn. Mai Xuân Hùng

Hình thức KTDL KTDL theo hướng kiểm tra: Đề xuất giả thiết và hệ thống kiểm tra tính đúng đắn của giả thuyết, KTDL theo hướng kiểm tra gồm: truy vấn, báo cáo, phân tích thống kê. KTDL theo hướng khám phá: Tìm kiếm những tri thức tiềm ẩn trong CSDL. Mai Xuân Hùng

Ứng dụng của khai thác dữ liệu Trong ngân hàng: Dự đoán rủi ro tính dụng Trong thương mại điện tử: Web, bán hàng qua mạng Công nghệ sinh học và dược phẩm : Phân tích các dữ liệu di truyền Nhân sự: Chọn ứng cử viên khi tuyển dụng Mai Xuân Hùng

CÁC KỸ THUẬT KHAI THÁC DỮ LIỆU Tập phổ biến và luật kết hợp Khai thác mẫu tuần tự Tập thô (reduct) Phân lớp dữ liệu Gom cụm (Clustering) Mai Xuân Hùng

Tập phổ biến và luật kết hợp Tìm các thuột tính xuất hiện phổ biến của các đối tượng dữ liệu. Từ tập phổ biến này ta tiến hành tạo ra các luật kết hợp nhằm phát hiện khả năng xuất hiện đồng thời của các thuộc tính trong tập các đối tượng. Nếu mua X thì sẽ mua Y. (có 66.6% khách hàng mua Bia thì sẽ mua mực) Mai Xuân Hùng

Khai thác mẫu tuần tự Khai thác các mẫu tuần tự phổ biến phản ánh mối quan hệ giữa các biến cố trong CSDL hướng thời gian X  Y sự xuất hiện biến cố X sẽ dẫn đến sự xuất hiện của biến cố Y. 80% khách hàng gởi tiền tiết kiệm trên 80 triệu thì 3 tháng sau gởi thêm 20 triều nữa. Dùng để khám phá xu thế phát triển của đối tượng. Mai Xuân Hùng

Tập thô (reduct) Dùng để rút gọn chiều trong bài táon phân lớp dữ liệu Mai Xuân Hùng

Phân lớp dữ liệu Khám phá các luật phân loại cho tập dữ liệu. Ví dụ: Những bệnh nhân có các triệu chứng ho, lạnh, nhức đầu thì được phân lớp vào bệnh sốt rét. Mai Xuân Hùng

Gom cụm (Clustering) Phân lớp dữ liệu là tiến trình phân các đối tượng thành các cụm đối tượng. Sao cho: Các đối tượng trong cùng một cụm có mực độ tương đồng càng cao Các đối tượng khác cụm có mức độ tương đồng thấp Mai Xuân Hùng