Khai phá dữ liệu (Data mining)

Slides:



Advertisements
Similar presentations
Ăn ở hiền hòa, thủy chung, đó là nết đẹp Hiếu thảo với cha mẹ, tôn trọng người khác, đó là tâm tính đẹp.
Advertisements

Giáo viên thực hiện: Bùi Thị Hồng Diệu Trung Tâm GDTX Quảng Điền.
CHƯƠNG III: NGÂN HÀNG VÀ CÁC NGHIỆP VỤ NGÂN HÀNG.
By Nguyen Minh Quy - UTEHY
LOGO JOOMLA & PHP See How easy it is! Trung tâm đào tạo lập trình viên quốc tế Aprotrain -Aptech Làm web trong 10 phút Diễn giả : Đặng Tuấn Tú.
1 Chương 7: Phát triển ứng dụng khai phá dữ liệu Khai phá dữ liệu (Data mining) Học kỳ 1 – Khoa Khoa Học & Kỹ Thuật Máy Tính Trường Đại Học Bách.
Kỹ năng Trích dẫn và Lập danh mục tài liệu tham khảo
BÀI 3. ĐƯỜNG THẲNG VÀ MẶT PHẲNG SONG SONG SỞ GD&ĐT ĐIỆN BIÊN TRƯỜNG THCS-THPT TẢ SÌN THÀNG BÀI DỰ THI SOẠN GIẢNG E-LEARNING Chương II ĐƯỜNG THẲNG VÀ MẶT.
Rèn luyện nghiệp vụ sư phạm 3
KIỂM TRA BÀI CŨ 1) Thế nào là đơn thức ? Cho ví dụ về đơn có biến là x, y, có bậc là 3. 2.a) Thế nào là bậc của đơn thức có hệ số khác 0 ? Muốn nhân hai.
Trường THPT Long Châu Sa
LOGO QUẢN LÝ LƯU LƯỢNG VÀ ĐIỀU KHIỂN TẮC NGHẼN 1 Giảng viên hướng dẫn: TS Lê Trung Quân Nhóm thực hiện: Trần Thị Mỹ Thú - CH
CHỨNG NHẬN CHẤT LƯỢNG KỸ THUẬT GHI HÌNH FDG-PET/CT THEO TIÊU CHUẨN CỦA HỘI Y HỌC HẠT NHÂN CHÂU ÂU: HƯỚNG DẪN THỰC HÀNH 1 Nguyễn Tấn Châu, Nguyễn Xuân Cảnh,
SO¹N GI¶NG GI¸O ¸N ĐIÖN Tö e-LEARNING
TRAO ĐỔI KINH NGHIỆM PHƯƠNG PHÁP ÔN LUYỆN & KỸ NĂNG THI TOEIC
CƠ CHẾ QUẢN LÝ KINH TẾ TRƯỚC THỜI KÌ ĐỔI MỚI (1975 – 1986)
37 Lê Quốc Hưng, Quận 4, Tp. Hồ Chí Minh ​ (08) ĐỀ XUẤT POC CÁC GIẢI PHÁP GIÁM SÁT HẠ TẦNG TRÊN NỀN TẢNG CÔNG.
QUY TRÌNH TIẾN HÀNH ĐIỀU TRA THỐNG KÊ BỘ KH&CN (Cục Thông tin KH&CN quốc gia) Tổng Cục Thống kê Phương án điều tra Thẩm định phương án Hoàn thiện phương.
TỔNG QUAN VỀ NGÔN NGỮ LẬP TRÌNH C/C++
Thị trường mới ThS. Nguyễn Văn Thoan
Quản trị dự án TS. Trịnh Thùy Anh.
BÀI GIẢNG KHOA CÔNG NGHỆ ĐIỆN TỬ - ĐẠI HỌC CÔNG NGHIỆP TP. HCM NHẬP MÔN CÔNG TÁC KỸ SƯ NGÀNH ĐIỆN TỬ.
Kính Chào Cô và Các b ạ n thân m ế n !!!!!. HÌNH THỨC CHÍNH THỂ CỦA NHÀ NƯỚC CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM VÀ MỘT SỐ NƯỚC TRÊN THẾ GIỚI. Thuyết trình.
Tác tử thông minh.
Chương 7: Phát triển ứng dụng khai phá dữ liệu
SỬ DỤNG EXCEL ĐỂ TRÍCH KHẤU HAO TSCĐ
Bảo mật - Mã hóa dữ liệu Nội dung trình bày :
BÀI 4 CÔNG NGHỆ THÔNG TIN VÀ CHUỖI CUNG ỨNG
Hướng dẫn viết đề cương nghiên cứu
LẬP TRÌNH HƯỚNG ĐỐI TƯỢNG C++
Hồi quy PLS Hervé Abdi Đại học Texas, Dallas
Chương 4: Thị trường tài chính
Sử Đình Thành - Khoa Tài chính Nhà nước
© 2007 Thomson South-Western
Ràng buộc toàn vẹn (Integrity Constraint)
Phân tích mô tả biến liên tục
TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN KHOA VẬT LÝ
CÔNG NGHỆ THƯƠNG MẠI ĐIỆN TỬ
Chương 1: Khái quát về dự án đầu tư.
VNUNi® Sales & Inventory Control
Ra quyết định kinh doanh
TIẾP CẬN CÁC CHƯƠNG TRÌNH KHOA HỌC VÀ CÔNG NGHỆ HỖ TRỢ NGÀNH DƯỢC
Policy Analysis Tools of the Trade NMDUC 2009.
PLAN
Bài giảng môn Tin ứng dụng
Sự truyền ánh sáng trong tinh thể dị hướng
Môn: Lập trình Hướng đối tượng (Object Oriented Programming)
Chương 6 Các chiến lược tiếp thị
KỸ THUẬT CHỤP CT ĐỘNG MẠCH CHI DƯỚI
TÀI LIỆU GIẢNG DẠY IC3 GS4 SPARK
HỆ ĐIỀU HÀNH MẠNG.
DOANH NGHIỆP – SINH VIÊN VỀ VẤN ĐỀ THỰC TẬP
HỘI NGHỊ KHOA HỌC GÂY MÊ HỒI SỨC TOÀN QUỐC 2016
CẤU TRÚC DỮ LIỆU VÀ GIẢI THUẬT
MÔ HÌNH NGHIÊN CỨU MARKETING
Thay đổi hướng tới Bền Vững
Tổng quan về Hệ điều hành
BẢO QUẢN VÀ CHẾ BIẾN TRÀ, CÀ PHÊ, CA CAO
Lớp DH05LN GIÁO VIÊN PHỤ TRÁCH ThS. NGUYỄN QUỐC BÌNH
KỸ NĂNG LUYỆN TRÍ NHỚ ThS. Huỳnh Phạm Ngọc Lâm.
Chương 3. Lập trình trong SQL Server TRIGGER
AUDIO DROPBOX - TUTORIALS
2D Transformations Các phép biến đổi 2D
Module 2 – CSR & Corporate Strategy
SỞ GIÁO DỤC VÀ ĐÀO TẠO ĐIỆN BIÊN TRƯỜNG THPT MÙN CHUNG
Company LOGO CĂN BẢN VỀ MẠNG NGUYEN TAN THANH Xem lại bài học tại
Quản trị rủi ro Những vấn đề căn bản Nguyễn Hưng Quang 07/11/2015 NHẬT HOA IC&T.
I II III Sinh hoạt kinh tế Chỉ huy, quyết định Nhà Nước cộng sản I. KHÁI NIỆM.
TRƯỜNG ĐẠI HỌC NGOẠI THƯƠNG CƠ SỞ II TẠI TP. HỒ CHÍ MINH HỘI NGHỊ KHOA HỌC CƠ SỞ II “BÁO CÁO HOẠT ĐỘNG ĐI THỰC TẾ CỦA GIẢNG VIÊN CSII, NĂM HỌC ”
Nghiên cứuLập kế hoạch Thực thi giao tiếp Đánh giá.
Presentation transcript:

Khai phá dữ liệu (Data mining) Khoa Khoa Học & Kỹ Thuật Máy Tính Trường Đại Học Bách Khoa Tp. Hồ Chí Minh Chương 3: Hồi qui dữ liệu Khai phá dữ liệu (Data mining) Học kỳ 1 – 2009-2010

Nội dung 3.1. Tổng quan về hồi qui 3.2. Hồi qui tuyến tính 3.3. Hồi qui phi tuyến 3.4. Ứng dụng 3.5. Các vấn đề với hồi qui 3.6. Tóm tắt

Tài liệu tham khảo [1] Jiawei Han, Micheline Kamber, “Data Mining: Concepts and Techniques”, Second Edition, Morgan Kaufmann Publishers, 2006. [2] David Hand, Heikki Mannila, Padhraic Smyth, “Principles of Data Mining”, MIT Press, 2001. [3] David L. Olson, Dursun Delen, “Advanced Data Mining Techniques”, Springer-Verlag, 2008. [4] Graham J. Williams, Simeon J. Simoff, “Data Mining: Theory, Methodology, Techniques, and Applications”, Springer-Verlag, 2006. [5] ZhaoHui Tang, Jamie MacLennan, “Data Mining with SQL Server 2005”, Wiley Publishing, 2005. [6] Oracle, “Data Mining Concepts”, B28129-01, 2008. [7] Oracle, “Data Mining Application Developer’s Guide”, B28131-01, 2008. [1] Section 6.11 Prediction, Section 6.12.2 Predictor Error Measures [2] Section 5.3.1 Multilayer Perceptrons for Regression and Classification, Section 6.3 Model Structures for Prediction, Section 7.3.1 Score Functions for Predictive Models, Chapter 11 Predictive Modeling for Regression For further information, [3]: a version of a SVM (support vector machine) for regression  H. Drucker, C. J. C. Burges, L. Kaufman, A. Smola, V. Vapnik (1997). Support vector regression machines, Advances in Neural Information Processing Systems 9, NIPS, 155-161, Cambridge, MA: MIT Press.

3.0. Tình huống 1 Ngày mai giá cổ phiếu STB sẽ là bao nhiêu???

3.0. Tình huống 2 x y y = x + 1 X1 Y1 Y1’ Mô hình phân bố dữ liệu của y theo x???

3.0. Tình huống 3 Bài toán phân tích giỏ hàng thị trường (market basket analysis)  sự kết hợp giữa các mặt hàng?

3.0. Tình huống 4 Khảo sát các yếu tố tác động đến xu hướng sử dụng quảng cáo trực tuyến tại Việt Nam Sự giải trí cảm nhận (+0.209) Chất lượng thông tin (+0.261) Chất lượng thông tin cảm nhận (+0.199) Sự khó chịu cảm nhận (-0.175) Sự tin cậy cảm nhận Thái độ về tính riêng tư Sự tương tác (+0.373) Chuẩn chủ quan (+0.254) Nhận thức kiểm soát hành vi (+0.377) LVThS (Cao học ngành Hệ Thống Thông Tin Quản Lý): Khảo sát các yếu tố tác động đến xu hướng sử dụng quảng cáo trực tuyến tại Việt Nam Học viên: Nguyễn Lê Anh Dũng GVHD: TS. Nguyễn Quỳnh Mai

3.0. Tình huống … Hồi qui (regression) Khai phá dữ liệu có tính dự báo (Predictive data mining) Tình huống ??? Khai phá dữ liệu có tính mô tả (Descriptive data mining)

3.1. Tổng quan về hồi qui Định nghĩa - Hồi qui (regression) J. Han et al (2001, 2006): Hồi qui là kỹ thuật thống kê cho phép dự đoán các trị (số) liên tục. Wiki (2009): Hồi qui (Phân tích hồi qui – regression analysis) là kỹ thuật thống kê cho phép ước lượng các mối liên kết giữa các biến R. D. Snee (1977): Hồi qui (Phân tích hồi qui) là kỹ thuật thống kê trong lĩnh vực phân tích dữ liệu và xây dựng các mô hình từ thực nghiệm, cho phép mô hình hồi qui vừa được khám phá được dùng cho mục đích dự báo (prediction), điều khiển (control), hay học (learn) cơ chế đã tạo ra dữ liệu. R. D. Snee, Validation of Regression Models: Methods and Examples, Technometrics, Vol. 19, No. 4. (Nov., 1977), pp. 415-428. “regression analysis has received wide use in data analysis and the development of empirical models. After a regression model which gives an adequate fit to the data has been found, one proceeds to use the model for prediction, or control, or to learn about the mechanism which generated the data.”

3.1. Tổng quan về hồi qui Mô hình hồi qui (regression model): mô hình mô tả mối liên kết (relationship) giữa một tập các biến dự báo (predictor variables/independent variables) và một hay nhiều đáp ứng (responses/dependent variables). Phân loại Hồi qui tuyến tính (linear) và phi tuyến (nonlinear) Hồi qui đơn biến (single) và đa biến (multiple) Hồi qui có thông số (parametric), phi thông số (nonparametric), và thông số kết hợp (semiparametric) Hồi qui đối xứng (symmetric) và bất đối xứng (asymmetric)

3.1. Tổng quan về hồi qui Phương trình hồi qui: Y = f(X, β) X: các biến dự báo (predictor/independent variables) Y: các đáp ứng (responses/dependent variables) β: các hệ số hồi qui (regression coefficients) X dùng để giải thích sự biến đổi của các đáp ứng Y. Y dùng đề mô tả các hiện tượng (phenomenon) được quan tâm/giải thích. Quan hệ giữa Y và X được diễn tả bởi sự phụ thuộc hàm của Y đối với X. β mô tả sự ảnh hưởng của X đối với Y.

3.1. Tổng quan về hồi qui Phân loại Hồi qui tuyến tính (linear) và phi tuyến (nonlinear) Linear in parameters: kết hợp tuyến tính các thông số tạo nên Y Nonlinear in parameters: kết hợp phi tuyến các thông số tạo nên Y Hồi qui đơn biến (single) và đa biến (multiple) Single: X = (X1) Multiple: X = (X1, X2, …, Xk) Hồi qui có thông số (parametric), phi thông số (nonparametric), và thông số kết hợp (semiparametric) Parametric: mô hình hồi qui với hữu hạn thông số Nonparametric: mô hình hồi qui với vô hạn thông số Semiparametric: mô hình hồi qui với hữu hạn thông số được quan tâm Hồi qui đối xứng (symmetric) và bất đối xứng (asymmetric) Symmetric: mô hình hồi qui có tính mô tả (descriptive) (eg. log-linear models) Asymmetric: mô hình hồi qui có tính dự báo (predictive) (eg. generalized linear models) P. Giudici, Applied Data Mining – Statistical Methods for Business and Industry, John Wiley & Sons Ltd, 2003.

3.2. Hồi qui tuyến tính Hồi qui tuyến tính đơn biến Hồi qui tuyến tính đa biến

3.2.1. Hồi qui tuyến tính đơn biến Cho N đối tượng đã được quan sát, mô hình hồi qui tuyến tính đơn biến được cho dưới dạng sau với εi dùng giữ phần biến thiên của đáp ứng Y không được giải thích từ X: Dạng đường thẳng Dạng parabola Wiki – Regression analysis

3.2.1. Hồi qui tuyến tính đơn biến Y= β0 + β1*X1 → Y = 0.636 + 2.018*X Dấu của β1 cho biết sự ảnh hưởng của X đối với Y.

3.2.1. Hồi qui tuyến tính đơn biến Ước lượng bộ thông số β ( ) để đạt được mô hình hồi qui tuyến tính đơn biến Thặng dư (residual) Tổng thặng dư bình phương (sum of squared residuals)  tối thiểu hóa Giả định (assumptions): thành phần lỗi có phương sai (variance) là hằng số, tuân theo phân bố chuẩn (normal distribution) Trị ước lượng của β

3.2.2. Hồi qui tuyến tính đa biến Hồi qui tuyến tính đa biến: phân tích mối quan hệ giữa biến phụ thuộc (response/dependent variable) và hai hay nhiều biến độc lập (independent variables) yi = b0 + b1xi1 + b2xi2 + … + bkxik LINEAR REGRESSION & CORRELATION, Siti Zanariah Satari, FIST/FSKKP, 2009 i = 1..n với n là số đối tượng đã quan sát k = số biến độc lập (số thuộc tính/tiêu chí/yếu tố…) Y = biến phụ thuộc X = biến độc lập b0 = trị của Y khi X = 0 b1..k = trị của các hệ số hồi qui

3.2.2. Hồi qui tuyến tính đa biến Trị ước lượng của Y Trị ước lượng của bộ thông số b LINEAR REGRESSION & CORRELATION, Siti Zanariah Satari, FIST/FSKKP, 2009

3.2.2. Hồi qui tuyến tính đa biến Example: a sales manager of Tackey Toys, needs to predict sales of Tackey products in selected market area. He believes that advertising expenditures and the population in each market area can be used to predict sales. He gathered sample of toy sales, advertising expenditures and the population as below. Find the linear multiple regression equation which the best fit to the data. LINEAR REGRESSION & CORRELATION, Siti Zanariah Satari, FIST/FSKKP, 2009

3.2.2. Hồi qui tuyến tính đa biến Market Area Advertising Expenditures (Thousands of Dollars) x1 Population (Thousands) x2 Toy sales (Thousands of Dollars) y A 1.0 200 100 B 5.0 700 300 C 8.0 800 400 D 6.0 E 3.0 F 10.0 600

3.2.2. Hồi qui tuyến tính đa biến LINEAR REGRESSION & CORRELATION, Siti Zanariah Satari, FIST/FSKKP, 2009

3.3. Hồi qui phi tuyến Y = f(X, β) Y là hàm phi tuyến cho việc kết hợp các thông số β. Ví dụ: hàm mũ, hàm logarit, hàm Gauss, … Xác định bộ thông số β tối ưu: các giải thuật tối ưu hóa Tối ưu hóa cục bộ Tối ưu hóa toàn cục cho tổng thặng dư bình phương (sum of squared residuals)

3.4. Ứng dụng Quá trình khai phá dữ liệu Giai đoạn tiền xử lý dữ liệu Giai đoạn khai phá dữ liệu Khai phá dữ liệu có tính mô tả Khai phá dữ liệu có tính dự báo Các lĩnh vực ứng dụng: sinh học (biology), nông nghiệp (agriculture), xã hội (social issues), kinh tế (economy), kinh doanh (business), … P. Giudici, Applied Data Mining – Statistical Methods for Business and Industry, John Wiley & Sons Ltd, 2003.

3.5. Các vấn đề với hồi qui Các giả định (assumptions) đi kèm với bài toán hồi qui. Lượng dữ liệu được xử lý. Đánh giá mô hình hồi qui. Các kỹ thuật tiên tiến cho hồi qui: Artificial Neural Network (ANN) Support Vector Machine (SVM)

3.6. Tóm tắt Hồi qui Kỹ thuật thống kê, được áp dụng cho các thuộc tính liên tục (continuous attributes/features) Có lịch sử phát triển lâu đời Đơn giản nhưng rất hữu dụng, được ứng dụng rộng rãi Cho thấy sự đóng góp đáng kể của lĩnh vực thống kê trong lĩnh vực khai phá dữ liệu Các dạng mô hình hồi qui: tuyến tính/phi tuyến, đơn biến/đa biến, có thông số/phi thông số/thông số kết hợp, đối xứng/bất đối xứng

Hỏi & Đáp …