Nội dung báo cáo Giới thiệu khai khoáng mẫu tuần tự

Slides:



Advertisements
Similar presentations
5.
Advertisements

CHƯƠNG III: NGÂN HÀNG VÀ CÁC NGHIỆP VỤ NGÂN HÀNG.
Cài đặt Moodle Cài đặt Moodle trên môi trường Windows Cục CNTT-Bộ GD&ĐT.
Kỹ năng Trích dẫn và Lập danh mục tài liệu tham khảo
Cách trộn thư trong Office 2003 Ứng dụng để làm giấy khen, giấy mời.
Chào mừng quý thầy cô và các em TRƯỜNG THPT TRẦN VĂN KỶ TỔ LÝ – TIN - KTCN.
Rèn luyện nghiệp vụ sư phạm 3
Trường THPT Long Châu Sa
Orientation Các vấn đề về IT.
Giáo viên: Nguyễn Ngọc Thúy Hằng Đơn vị: Trường THPT Lê Quý Đôn
Java I/O.
L/O/G/O NGUYÊN LÝ KẾ TOÁN Nguyễn Hữu Quy (MBA,CPA,APC)
TRAO ĐỔI KINH NGHIỆM PHƯƠNG PHÁP ÔN LUYỆN & KỸ NĂNG THI TOEIC
1 BÀI 6 BẤM CÁP VÀ CHIA SẺ DỮ LIỆU MẠNG. 2 Nội Dung  Bấm cáp xoắn đôi đúng chuẩn Phương pháp bấm cáp chuẩn A Phương pháp bấm cáp chuẩn B  Kết nối máy.
TỔNG QUAN VỀ NGÔN NGỮ LẬP TRÌNH C/C++
Thị trường mới ThS. Nguyễn Văn Thoan
Quản trị dự án TS. Trịnh Thùy Anh.
Chương 1: mạng máy tính và Internet
Tác tử thông minh.
Internet & E-Commerce
Ngôn ngữ lập trình C/C++
SỬ DỤNG EXCEL ĐỂ TRÍCH KHẤU HAO TSCĐ
CHƯƠNG 9 PHẦN MỀM POWERPOINT
BÀI 4 CÔNG NGHỆ THÔNG TIN VÀ CHUỖI CUNG ỨNG
© 2007 Thomson South-Western
Hướng dẫn viết đề cương nghiên cứu
LẬP TRÌNH HƯỚNG ĐỐI TƯỢNG C++
Chương 8 KẾT NỐI VỚI SQL SERVER & ỨNG DỤNG TRÊN C#
DOM & SAX XML & ADO.NET GVTH: Phạm Anh Phương
NHẬP MÔN VỀ KỸ THUẬT.
© 2007 Thomson South-Western
Phần 1: Ngôn ngữ lập trình C
Ràng buộc toàn vẹn (Integrity Constraint)
TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN KHOA VẬT LÝ
Hệ quản trị Cơ sở dữ liệu Giới thiệu
CÔNG NGHỆ THƯƠNG MẠI ĐIỆN TỬ
Chương 1: Khái quát về dự án đầu tư.
Ra quyết định kinh doanh
TIẾP CẬN CÁC CHƯƠNG TRÌNH KHOA HỌC VÀ CÔNG NGHỆ HỖ TRỢ NGÀNH DƯỢC
IP & SUBMASK.
Policy Analysis Tools of the Trade NMDUC 2009.
Quản lý hệ thống file.
Cấu hình đơn giản cho Router
Bài giảng môn Tin ứng dụng
Ring ? Bus ? ? Mesh ? Start ?. Ring ? Bus ? ? Mesh ? Start ?
Môn: Lập trình Hướng đối tượng (Object Oriented Programming)
TÀI LIỆU GIẢNG DẠY IC3 GS4 SPARK
Bài 8 (6 tiết): CÂY (TREE) A. CÂY VÀ CÂY NHỊ PHÂN (2 tiết)
HỆ ĐIỀU HÀNH MẠNG.
ỨNG DỤNG HIV INFO 3.0 QUẢN LÝ SỐ LIỆU NGƯỜI NHIỄM HIV/AIDS
File Transfer Protocol (FTP) là cơ chế truyền tin dưới dạng tập tin (file). Thông qua giao thức TCP/IP FTP là dịch vụ đặc biệt vì nó dùng tới 2 port Port.
Aleksandr Mikhailovich Lyapunov ( )
CẤU TRÚC DỮ LIỆU VÀ GIẢI THUẬT
BÀI 29: LỌC DỮ LIỆU TỪ DANH SÁCH DỮ LIỆU
Chương 4 - CÁC MÔ ĐUN ĐiỀU KHIỂN TRONG HỆ THỐNG CƠ ĐiỆN TỬ
ĐÁNH GIÁ TÁC ĐỘNG SỨC KHỎE
1. Đổi chỗ trực tiếp – Interchange Sort
Phương pháp Nghiên cứu khoa học (SCIENTIFIC RESEARCH METHODOLOGY)
BẢO QUẢN VÀ CHẾ BIẾN TRÀ, CÀ PHÊ, CA CAO
Lớp DH05LN GIÁO VIÊN PHỤ TRÁCH ThS. NGUYỄN QUỐC BÌNH
Environment, Health and Safety Policy
Please click through slides at your leisure
Chương 3. Lập trình trong SQL Server TRIGGER
AUDIO DROPBOX - TUTORIALS
2D Transformations Các phép biến đổi 2D
SỞ GIÁO DỤC VÀ ĐÀO TẠO ĐIỆN BIÊN TRƯỜNG THPT MÙN CHUNG
Company LOGO CĂN BẢN VỀ MẠNG NGUYEN TAN THANH Xem lại bài học tại
Quản trị rủi ro Những vấn đề căn bản Nguyễn Hưng Quang 07/11/2015 NHẬT HOA IC&T.
TRƯỜNG ĐẠI HỌC NGOẠI THƯƠNG CƠ SỞ II TẠI TP. HỒ CHÍ MINH HỘI NGHỊ KHOA HỌC CƠ SỞ II “BÁO CÁO HOẠT ĐỘNG ĐI THỰC TẾ CỦA GIẢNG VIÊN CSII, NĂM HỌC ”
Nghiên cứuLập kế hoạch Thực thi giao tiếp Đánh giá.
Presentation transcript:

Khai khoáng các mẫu tuần tự phổ biến mà không cần phát sinh các tập ứng viên

Nội dung báo cáo Giới thiệu khai khoáng mẫu tuần tự Cách tiếp cận Apriori Thiết kế cây và xây dựng cây FP (Frequent Pattern Tree) Khai khoáng các mẫu phổ biến bằng cách sử dụng cây FP Đánh giá các kết quả thực nghiệm Các vấn đề đang còn thảo luận

Giới thiệu khai khoáng các mẫu tuần tự Từ một tập dữ liệu, chúng ta tìm các mẫu có chiều dài là 1, 2, 3, … thỏa min_support có 60% khách hàng mua sản phẩm a: mẫu có chiều dài 1 có 70% khách hàng mua cùng lúc sản phẩm a và b: mẫu có chiều dài 2

Nội dung báo cáo Giới thiệu khai khoáng mẫu tuần tự Cách tiếp cận Apriori Thiết kế cây và xây dựng cây FP Khai khoáng các mẫu phổ biến bằng cách sử dụng cây FP Đánh giá các kết quả thực nghiệm Các vấn đề đang còn thảo luận

Cách tiếp cận Apriori Thuật toán Apriori: Ý tưởng thuật toán Lặp đi lặp lại qúa trình phát sinh tập các ứng viên có chiều dài k+1 từ các mẫu phổ biến chiều dài k Kiểm tra độ phổ biến của ứng viên thỏa min_support trong CSDL

Cách tiếp cận Apriori (tt) TID Các mặt hàng được mua 100 f, a, c, d, g, i, m, p 200 a, b, c, f, l, m, o 300 b, f, h, j, o 400 b, c, k, s, p 500 a, f, c, e, l, p, m, n Chọn độ phổ biến cực tiểu là ξ (min_support) = 3 (60%)

Cách tiếp cận Apriori (tt) Bước 1: Tìm F1 chứa các mẫu có chiều dài là 1 thỏa min_support F1={f, c, a, b, m, p} Bước 2: Quá trình lặp tìm tập ứng viên Ck và từ Ck tìm tập Fk Với k=2 C2 = {<fc>, <fa>, <fb>, <fm>, <fp>, <ca>, <cb>, <cm>, <cp>, <ab>, <am>, <ap>, <bm>, <bp>, <mp>} F2= {<fc>, <fa>, <fm>, <ca>, <cm>, <cp>, <am>}

Cách tiếp cận Apriori Với k=3 C3={<fca>, <fcm>, <fcp>, <fam>, <cam>} F3={<fca>, <fcm>, <fam>, <cam>} Với k=4 C4={<fcam>} F4={<fcam>} Với k=5 C5=  ngưng Vậy tập đầy đủ các mẫu phổ biến là: f, c, a, b, m, p, fc, fa, fm, ca, cm, cp, am, fca, fcm, fam, cam, fcam

Những hạn chế của thuật toán Apriori Hai loại chi phí của thuật toán Apriori: Chi phí phát sinh ứng viên 104 mẫu phổ biến có kích thước là 1 cần phải phát sinh hơn 107 mẫu phổ biến có kích thước là 2 Đề nghị xây dựng cây FP (FP-tree) Chi phí phát sinh ứng viên quá lớn Chi phí lặp đi lặp lại việc duyệt CSDL để kiểm tra một lượng lớn các ứng viên thỏa min_support Chi phí duyệt CSDL lớn Mục tiêu: tránh phát sinh tập ứng viên quá lớn

Nội dung báo cáo Giới thiệu khai khoáng mẫu tuần tự Cách tiếp cận Apriori Thiết kế cây và xây dựng cây FP Khai khoáng các mẫu phổ biến bằng cách sử dụng cây FP Đánh giá các kết quả thực nghiệm Các vấn đề đang còn thảo luận

Thuật toán xây dựng cây FP Bước 1: Duyệt CSDL, lấy ra tập các item phổ biến F và tính độ phổ biến của chúng. Sắp xếp các item trong tập F theo thứ tự giảm dần của độ phổ biến, ta được tập kết quả là L. Bước 2: Tạo nút gốc cho cây T, và tên của nút gốc sẽ là Null. Sau đó duyệt CSDL lần thứ hai. Ứng với mỗi giao tác trong CSDL thực hiện 2 công việc sau: Chọn các item phổ biến trong các giao tác và sắp xếp chúng theo thứ tự giảm dần độ phổ biến trong tập L Gọi hàm Insert_tree([p|P],T) để đưa các item vào trong cây T

Thuật toán xây dựng cây FP Bước 1: Duyệt CSDL Lấy ra tập phổ biến L L bao gồm các item phổ biến theo thứ tự giảm dần của độ phổ biến

Thuật toán xây dựng cây FP Bước 2: Tạo nút gốc cho cây Duyệt CSDL Chọn 1 giao tác trong CSDL Chọn item phổ biến trong các giao tác & sắp xếp tập L theo thứ tự giảm dần độ phổ biến Gọi hàm Insert_tree([p|P],T) Kiểm tra hết giao tác chưa? Hết Dừng { Cây FP } Còn

Cây FP - Ví dụ Bảng tất cả các item: TID Các mặt hàng được mua 100 f, a, c, d, g, i, m,p 200 a, b, c, f, l, m, o 300 b, f, h, j, o 400 b, c, k, s, p 500 a, f, c, e, l, p, m, n Chọn độ phổ biến cực tiểu là ξ (min_support) = 3 (60%)

Cây FP - Ví dụ (tt) Ta có một danh sách các mặt hàng phổ biến L là: <(f:4), (c:4), (a:3), (b:3), (m:3), (p:3)> TID Các mặt hàng được mua 100 f, a, c, d, g, i, m,p 200 a, b, c, f, l, m, o 300 b, f, h, j, o 400 b, c, k, s, p 500 a, f, c, e, l, p, m, n Các mặt hàng đã được sắp thứ tự giảm dần theo độ phổ biến Item a b c d e f g i j l k m n o p s Supp 3 4 1 2

Cây FP - ví dụ (tt) Từ tập dữ liệu ban đầu, chúng ta có được cây FP như sau: c:1 b:1 p:1 f:3 c:2 a:2 m:1 Root c:1 b:1 p:1 f:4 c:3 a:3 m:2 p:2 m:1 Root f:3 c:2 a:2 m:1 p:1 b:1 Root f:2 c:2 a:2 m:1 p:1 b:1 Root f:1 c:1 a:1 m:1 p:1 Root TID Các mặt hàng được mua Các mặt hàng phổ biến (đã sắp theo thứ tự) 100 f, a, c, d, g, i, m,p f, c, a, m, p 200 a, b, c, f, l, m, o f, c, a, b, m 300 b, f, h, j, o f, b 400 b, c, k, s, p c, b, p 500 a, f, c, e, l, p, m, n TID Các mặt hàng được mua Các mặt hàng phổ biến (đã sắp theo thứ tự) 100 f, a, c, d, g, i, m,p f, c, a, m, p 200 a, b, c, f, l, m, o f, c, a, b, m 300 b, f, h, j, o f, b 400 b, c, k, s, p c, b, p 500 a, f, c, e, l, p, m, n

Cây FP - ví dụ (tt) Từ tập dữ liệu ban đầu, ta xây dựng header table của cây FP như sau: c:1 b:1 p:1 f:4 c:3 a:3 m:2 p:2 m:1 Root item head of node-links f c a b m p

Phân tích chi phí thuật toán tạo cây FP Ứng với thuật toán trên thì chúng ta cần chính xác là 2 lần quét qua tất cả các giao tác của CSDL Chi phí đưa một giao tác Trans vào trong cây là O(|Trans|) với |Trans| là số lần xuất hiện của các item trong giao tác Trans này.

Nội dung báo cáo Giới thiệu khai khoáng mẫu tuần tự Cách tiếp cận Apriori Thiết kế cây và xây dựng cây FP Khai khoáng các mẫu phổ biến bằng cách sử dụng cây FP Đánh giá các kết quả thực nghiệm Các vấn đề đang còn thảo luận

Định nghĩa Cơ sở điều kiện của nút “m”: Cây điều kiện FP của “m”: b:1 p:1 f:4 c:3 a:3 m:2 p:2 m:1 Root c:1 b:1 p:1 f:4 c:3 a:3 m:2 p:2 m:1 Root c:1 b:1 p:1 f:4 c:3 a:3 m:2 p:2 m:1 Root (f:2, c:2, a:2) (f:1, c:1, a:1, b:1) f:3 c:3 a:3 Root Header table: Cây điều kiện FP của “m”: item head of node-links f c a

Thuật toán khai khoáng các mẫu phổ biến sử dụng cây FP Procedure FP-growth(Tree, α) { } (1) Nếu Tree có chứa một đường đi đơn P (2) Thì với mỗi cách kết hợp  của các nút trong đường đi P thực hiện (3) phát sinh tập mẫu Uα, support = min(support của các nút trong ); (4) ngược lại ứng với mỗi ai trong thành phần của Tree thực hiện { (5) phát sinh tập mẫu β=aiUα với độ phổ biến support = ai.support; (6) xây dựng cơ sở điều kiện cho β và sau đó xây dựng cây FP Treeβ theo điều kiện của β; (7) Nếu Treeβ ≠  (8) thì gọi lại hàm FP-growth(Treeβ, β) }

Khai khoáng các mẫu phổ biến bằng cách sử dụng cây FP (tt) Root Call FP-Growth(Tree, null) Đối với nút “p” =“p” U null = “p”, xuất kết quả p:3 Cơ sở điều kiện là: (f:2, c:2, a:2, m:2) (c:1, b:1) Cây FP với điều kiện trên {(c:3)}p c:3 Root Xuất kết quả là: cp:3 Vậy nút p có các mẫu tuần tự phổ biến là: p:3, cp:3

Khai khoáng các mẫu phổ biến bằng cách sử dụng cây FP (tt) Đối với nút “m” =“m” U null = “m”, Xuất kết quả m:3 c:1 b:1 p:1 f:4 c:3 a:3 m:2 p:2 m:1 Root c:1 b:1 p:1 f:4 c:3 a:3 m:2 p:2 m:1 Root c:1 b:1 p:1 f:4 c:3 a:3 m:2 p:2 m:1 Root f:3 c:3 a:3 Root Cơ sở điều kiện của nút “m”: (f:2, c:2, a:2) (f:1, c:1, a:1, b:1) Cây điều kiện FP của “m”: Gọi FP-Growth(Treem, “m”) Vì Treem có chứa đường đi đơn Nên nút m có các mẫu tuần tự phổ biến là: {(m:3), (am:3), (cm:3), (fm:3), (cam:3), (fam:3), (fcm:3), (fcam:3)}

Khai khoáng các mẫu phổ biến bằng cách sử dụng cây FP (tt) Bảng kết quả của tất cả các item: Item Cơ sở điều kiện Cây điều kiện FP p {(f:2, c:2, a:2, m:2), (c:1, b:1)} {(c:3}|p m {(f:2, c:2, a:2), (f:1, c:1, a:1, b:1)} {(f:3, c:3, a:3)}|m b {(f:1, c:1, a:1), (f:1), (c:1)}  a {(f:3, c:3)} {(f:3, c:3)}|a c {(f:3)} f

Nội dung báo cáo Giới thiệu khai khoáng mẫu tuần tự Cách tiếp cận Apriori Thiết kế cây và xây dựng cây FP Khai khoáng các mẫu phổ biến bằng cách sử dụng cây FP Đánh giá các kết quả thực nghiệm Các vấn đề đang còn thảo luận

Khai khoáng các mẫu phổ biến bằng cách sử dụng cây FP (tt) Hiệu quả hơn so với Apriori. Phân chia và kiểm soát quá trình xử lý. Sử dụng cây FP để biểu diễn các mẫu phổ biến thì dữ liệu giảm rất đáng kể so với cách biểu diễn trong CSDL.

So sánh FP-growth và Apriori

So sánh FP-growth và Apriori

Nội dung báo cáo Giới thiệu khai khoáng mẫu tuần tự Cách tiếp cận Apriori Thiết kế cây và xây dựng cây FP Khai khoáng các mẫu phổ biến bằng cách sử dụng cây FP Đánh giá các kết quả thực nghiệm Các vấn đề đang còn thảo luận

Các vấn đề đang còn đang thảo luận Vấn đề xây dựng cây FP cho các projected database. Vấn đề tổ chức lưu trữ cây FP trên đĩa. Vấn đề cập nhật lại cây khi cây tăng trưởng về mặt kích thước.

Vấn đề xây dựng cây FP cho projected database Không thể xây dựng cây FP trong bộ nhớ chính khi CSDL là lớn. Đầu tiên phân chia CSDL vào trong các projected database và sau đó xây dựng một cây FP và khai thác cây này trong mỗi projected database.

Vấn đề tổ chức lưu trữ cây FP trên đĩa Lưu trữ cây FP trong các đĩa cứng. Sử dụng cấu trúc B+Tree.

Vấn đề cập nhật lại cây khi cây tăng trưởng về mặt kích thước Các thông tin bị mất. Việc tái xây dựng lại cây có thể xảy ra.

Tài liệu tham khảo [1] Jiawei Han, Jian Pei, and Yiwen Yin (2000). Mining Frequent Patterns without Candidate Generation. The Natural Sciences and Engineering Research Council of Canada. [2] H. Huang, X. Wu, and R. Relue (2002). Association analysis with one scan of databases. In IEEE International Conference on Data Mining, pages 629-636. [3] J. Liu, Y. Pan, K. Wang, and J. Han (2002). Mining frequent item sets by oppotunistic projection. In Eight ACMSIGKDD Internationa Conf. on Knowledge Discovery and Data Mining, pages 229-238, Edmonton, Alberta. [4] F. Frahne, L. Lakshmanan, and X.Wang (2000). Efficient mining of constrained correlated sets. In ICDE’00. [5] R. Agrawal and R.Srikant (1995). Mining sequential patterns. In ICDE’95 pp. 3-14. [6] R. J. Bayardo (1998). Efficiently mining long patterns from databases. In SIGMOD’98 pp. 85-93. [7] J. Han, J. Pei, and Y. Yin (1999). Mining partial periodicity using frequent pattern trees. In CS Tech. Rep. 99-10, Simon Fraser University.