Download presentation
Presentation is loading. Please wait.
1
Khai phá dữ liệu (Data mining)
Khoa Khoa Học & Kỹ Thuật Máy Tính Trường Đại Học Bách Khoa Tp. Hồ Chí Minh Chương 3: Hồi qui dữ liệu Khai phá dữ liệu (Data mining) Học kỳ 1 –
2
Nội dung 3.1. Tổng quan về hồi qui 3.2. Hồi qui tuyến tính
3.3. Hồi qui phi tuyến 3.4. Ứng dụng 3.5. Các vấn đề với hồi qui 3.6. Tóm tắt
3
Tài liệu tham khảo [1] Jiawei Han, Micheline Kamber, “Data Mining: Concepts and Techniques”, Second Edition, Morgan Kaufmann Publishers, 2006. [2] David Hand, Heikki Mannila, Padhraic Smyth, “Principles of Data Mining”, MIT Press, 2001. [3] David L. Olson, Dursun Delen, “Advanced Data Mining Techniques”, Springer-Verlag, 2008. [4] Graham J. Williams, Simeon J. Simoff, “Data Mining: Theory, Methodology, Techniques, and Applications”, Springer-Verlag, 2006. [5] ZhaoHui Tang, Jamie MacLennan, “Data Mining with SQL Server 2005”, Wiley Publishing, 2005. [6] Oracle, “Data Mining Concepts”, B , 2008. [7] Oracle, “Data Mining Application Developer’s Guide”, B , 2008. [1] Section 6.11 Prediction, Section Predictor Error Measures [2] Section Multilayer Perceptrons for Regression and Classification, Section 6.3 Model Structures for Prediction, Section Score Functions for Predictive Models, Chapter 11 Predictive Modeling for Regression For further information, [3]: a version of a SVM (support vector machine) for regression H. Drucker, C. J. C. Burges, L. Kaufman, A. Smola, V. Vapnik (1997). Support vector regression machines, Advances in Neural Information Processing Systems 9, NIPS, , Cambridge, MA: MIT Press.
4
3.0. Tình huống 1 Ngày mai giá cổ phiếu STB sẽ là bao nhiêu???
5
3.0. Tình huống 2 x y y = x + 1 X1 Y1 Y1’ Mô hình phân bố dữ liệu của y theo x???
6
3.0. Tình huống 3 Bài toán phân tích giỏ hàng thị trường (market basket analysis) sự kết hợp giữa các mặt hàng?
7
3.0. Tình huống 4 Khảo sát các yếu tố tác động đến xu hướng sử dụng quảng cáo trực tuyến tại Việt Nam Sự giải trí cảm nhận (+0.209) Chất lượng thông tin (+0.261) Chất lượng thông tin cảm nhận (+0.199) Sự khó chịu cảm nhận (-0.175) Sự tin cậy cảm nhận Thái độ về tính riêng tư Sự tương tác (+0.373) Chuẩn chủ quan (+0.254) Nhận thức kiểm soát hành vi (+0.377) LVThS (Cao học ngành Hệ Thống Thông Tin Quản Lý): Khảo sát các yếu tố tác động đến xu hướng sử dụng quảng cáo trực tuyến tại Việt Nam Học viên: Nguyễn Lê Anh Dũng GVHD: TS. Nguyễn Quỳnh Mai
8
3.0. Tình huống … Hồi qui (regression)
Khai phá dữ liệu có tính dự báo (Predictive data mining) Tình huống ??? Khai phá dữ liệu có tính mô tả (Descriptive data mining)
9
3.1. Tổng quan về hồi qui Định nghĩa - Hồi qui (regression)
J. Han et al (2001, 2006): Hồi qui là kỹ thuật thống kê cho phép dự đoán các trị (số) liên tục. Wiki (2009): Hồi qui (Phân tích hồi qui – regression analysis) là kỹ thuật thống kê cho phép ước lượng các mối liên kết giữa các biến R. D. Snee (1977): Hồi qui (Phân tích hồi qui) là kỹ thuật thống kê trong lĩnh vực phân tích dữ liệu và xây dựng các mô hình từ thực nghiệm, cho phép mô hình hồi qui vừa được khám phá được dùng cho mục đích dự báo (prediction), điều khiển (control), hay học (learn) cơ chế đã tạo ra dữ liệu. R. D. Snee, Validation of Regression Models: Methods and Examples, Technometrics, Vol. 19, No. 4. (Nov., 1977), pp “regression analysis has received wide use in data analysis and the development of empirical models. After a regression model which gives an adequate fit to the data has been found, one proceeds to use the model for prediction, or control, or to learn about the mechanism which generated the data.”
10
3.1. Tổng quan về hồi qui Mô hình hồi qui (regression model): mô hình mô tả mối liên kết (relationship) giữa một tập các biến dự báo (predictor variables/independent variables) và một hay nhiều đáp ứng (responses/dependent variables). Phân loại Hồi qui tuyến tính (linear) và phi tuyến (nonlinear) Hồi qui đơn biến (single) và đa biến (multiple) Hồi qui có thông số (parametric), phi thông số (nonparametric), và thông số kết hợp (semiparametric) Hồi qui đối xứng (symmetric) và bất đối xứng (asymmetric)
11
3.1. Tổng quan về hồi qui Phương trình hồi qui: Y = f(X, β)
X: các biến dự báo (predictor/independent variables) Y: các đáp ứng (responses/dependent variables) β: các hệ số hồi qui (regression coefficients) X dùng để giải thích sự biến đổi của các đáp ứng Y. Y dùng đề mô tả các hiện tượng (phenomenon) được quan tâm/giải thích. Quan hệ giữa Y và X được diễn tả bởi sự phụ thuộc hàm của Y đối với X. β mô tả sự ảnh hưởng của X đối với Y.
12
3.1. Tổng quan về hồi qui Phân loại
Hồi qui tuyến tính (linear) và phi tuyến (nonlinear) Linear in parameters: kết hợp tuyến tính các thông số tạo nên Y Nonlinear in parameters: kết hợp phi tuyến các thông số tạo nên Y Hồi qui đơn biến (single) và đa biến (multiple) Single: X = (X1) Multiple: X = (X1, X2, …, Xk) Hồi qui có thông số (parametric), phi thông số (nonparametric), và thông số kết hợp (semiparametric) Parametric: mô hình hồi qui với hữu hạn thông số Nonparametric: mô hình hồi qui với vô hạn thông số Semiparametric: mô hình hồi qui với hữu hạn thông số được quan tâm Hồi qui đối xứng (symmetric) và bất đối xứng (asymmetric) Symmetric: mô hình hồi qui có tính mô tả (descriptive) (eg. log-linear models) Asymmetric: mô hình hồi qui có tính dự báo (predictive) (eg. generalized linear models) P. Giudici, Applied Data Mining – Statistical Methods for Business and Industry, John Wiley & Sons Ltd, 2003.
13
3.2. Hồi qui tuyến tính Hồi qui tuyến tính đơn biến
Hồi qui tuyến tính đa biến
14
3.2.1. Hồi qui tuyến tính đơn biến
Cho N đối tượng đã được quan sát, mô hình hồi qui tuyến tính đơn biến được cho dưới dạng sau với εi dùng giữ phần biến thiên của đáp ứng Y không được giải thích từ X: Dạng đường thẳng Dạng parabola Wiki – Regression analysis
15
3.2.1. Hồi qui tuyến tính đơn biến
Y= β0 + β1*X1 → Y = *X Dấu của β1 cho biết sự ảnh hưởng của X đối với Y.
16
3.2.1. Hồi qui tuyến tính đơn biến
Ước lượng bộ thông số β ( ) để đạt được mô hình hồi qui tuyến tính đơn biến Thặng dư (residual) Tổng thặng dư bình phương (sum of squared residuals) tối thiểu hóa Giả định (assumptions): thành phần lỗi có phương sai (variance) là hằng số, tuân theo phân bố chuẩn (normal distribution) Trị ước lượng của β
17
3.2.2. Hồi qui tuyến tính đa biến
Hồi qui tuyến tính đa biến: phân tích mối quan hệ giữa biến phụ thuộc (response/dependent variable) và hai hay nhiều biến độc lập (independent variables) yi = b0 + b1xi1 + b2xi2 + … + bkxik LINEAR REGRESSION & CORRELATION, Siti Zanariah Satari, FIST/FSKKP, 2009 i = 1..n với n là số đối tượng đã quan sát k = số biến độc lập (số thuộc tính/tiêu chí/yếu tố…) Y = biến phụ thuộc X = biến độc lập b0 = trị của Y khi X = 0 b1..k = trị của các hệ số hồi qui
18
3.2.2. Hồi qui tuyến tính đa biến
Trị ước lượng của Y Trị ước lượng của bộ thông số b LINEAR REGRESSION & CORRELATION, Siti Zanariah Satari, FIST/FSKKP, 2009
19
3.2.2. Hồi qui tuyến tính đa biến
Example: a sales manager of Tackey Toys, needs to predict sales of Tackey products in selected market area. He believes that advertising expenditures and the population in each market area can be used to predict sales. He gathered sample of toy sales, advertising expenditures and the population as below. Find the linear multiple regression equation which the best fit to the data. LINEAR REGRESSION & CORRELATION, Siti Zanariah Satari, FIST/FSKKP, 2009
20
3.2.2. Hồi qui tuyến tính đa biến
Market Area Advertising Expenditures (Thousands of Dollars) x1 Population (Thousands) x2 Toy sales (Thousands of Dollars) y A 1.0 200 100 B 5.0 700 300 C 8.0 800 400 D 6.0 E 3.0 F 10.0 600
21
3.2.2. Hồi qui tuyến tính đa biến
LINEAR REGRESSION & CORRELATION, Siti Zanariah Satari, FIST/FSKKP, 2009
22
3.3. Hồi qui phi tuyến Y = f(X, β)
Y là hàm phi tuyến cho việc kết hợp các thông số β. Ví dụ: hàm mũ, hàm logarit, hàm Gauss, … Xác định bộ thông số β tối ưu: các giải thuật tối ưu hóa Tối ưu hóa cục bộ Tối ưu hóa toàn cục cho tổng thặng dư bình phương (sum of squared residuals)
23
3.4. Ứng dụng Quá trình khai phá dữ liệu
Giai đoạn tiền xử lý dữ liệu Giai đoạn khai phá dữ liệu Khai phá dữ liệu có tính mô tả Khai phá dữ liệu có tính dự báo Các lĩnh vực ứng dụng: sinh học (biology), nông nghiệp (agriculture), xã hội (social issues), kinh tế (economy), kinh doanh (business), … P. Giudici, Applied Data Mining – Statistical Methods for Business and Industry, John Wiley & Sons Ltd, 2003.
24
3.5. Các vấn đề với hồi qui Các giả định (assumptions) đi kèm với bài toán hồi qui. Lượng dữ liệu được xử lý. Đánh giá mô hình hồi qui. Các kỹ thuật tiên tiến cho hồi qui: Artificial Neural Network (ANN) Support Vector Machine (SVM)
25
3.6. Tóm tắt Hồi qui Kỹ thuật thống kê, được áp dụng cho các thuộc tính liên tục (continuous attributes/features) Có lịch sử phát triển lâu đời Đơn giản nhưng rất hữu dụng, được ứng dụng rộng rãi Cho thấy sự đóng góp đáng kể của lĩnh vực thống kê trong lĩnh vực khai phá dữ liệu Các dạng mô hình hồi qui: tuyến tính/phi tuyến, đơn biến/đa biến, có thông số/phi thông số/thông số kết hợp, đối xứng/bất đối xứng
26
Hỏi & Đáp …
Similar presentations
© 2025 SlidePlayer.com. Inc.
All rights reserved.