Presentation is loading. Please wait.

Presentation is loading. Please wait.

BÀI GIẢNG MỘT SỐ CHỦ ĐỀ HIỆN ĐẠI VỀ KHAI PHÁ DỮ LIỆU: KHAI PHÁ QUÁ TRÌNH CHƯƠNG 1. GIỚI THIỆU CHUNG VỀ HỆ THỐNG THÔNG TIN VÀ KHAI PHÁ QUÁ TRÌNH PGS.

Similar presentations


Presentation on theme: "BÀI GIẢNG MỘT SỐ CHỦ ĐỀ HIỆN ĐẠI VỀ KHAI PHÁ DỮ LIỆU: KHAI PHÁ QUÁ TRÌNH CHƯƠNG 1. GIỚI THIỆU CHUNG VỀ HỆ THỐNG THÔNG TIN VÀ KHAI PHÁ QUÁ TRÌNH PGS."— Presentation transcript:

1 BÀI GIẢNG MỘT SỐ CHỦ ĐỀ HIỆN ĐẠI VỀ KHAI PHÁ DỮ LIỆU: KHAI PHÁ QUÁ TRÌNH CHƯƠNG 1. GIỚI THIỆU CHUNG VỀ HỆ THỐNG THÔNG TIN VÀ KHAI PHÁ QUÁ TRÌNH PGS. TS. HÀ QUANG THỤY HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ ĐẠI HỌC QUỐC GIA HÀ NỘI

2 Nội dung Giới thiệu chung về hệ thống thông tin
Giới thiệu sơ bộ về khai phá quá trình

3 Phần 1. Giới thiệu chung về Hệ thống thông tin

4 Dữ liệu, thông tin, tri thức
Khái niệm dữ liệu Dữ liệu: sự kiện thô chỉ số nhân viên, tên mặt hàng, số lượng hàng trong một đơn hàng.. “Thô”: thu được từ ghi chép sự kiện từ thế giới thực Các kiểu dữ liệu: chữ-số (Alphanumeric), ảnh (image), âm thanh (tiếng nói, tiếng động, Video (hình/ảnh chuyển động) Dạng tự nhiên và số hóa Khái niệm thông tin Dữ liệu được tổ chức dựa theo mang thêm một ý nghĩa  thông tin Thông tin: tập dữ liệu được tổ chức theo cách (các quy tắc và các mỗi quan hệ) tạo ra một giá trị gia tăng ngoài tập giá trị của các dữ liệu riêng. So sánh khái niệm mẫu (pattern) trong khai phá dữ liệu. Tổng doanh thu bán hàng trong tháng <> số lượng bán hàng của từng ngày, từng đại lý. Minh họa: Dữ liêu  Thanh tà vẹt, thanh ray. Thông tin  đường sắt (trái), đường sắt phức hợp (phải). Từ dữ liệu  thông tin cần qua một quá trình (Một tập các nhiệm vụ có liên quan loogic được thực hiện để đạt được một kết quả xác định)

5 Tri thức Khái niệm tri thức
Các dự báo và hiểu biết về một tập các thông tin và các cách thức mà thông tin trở nên hữu ích để hỗ trợ một nhiệm vụ cụ thể hoặc đưa ra một quyết định. So sánh khái niệm tri thức trong Khai phá dữ liệu. Có tri thức  hiểu biết mối quan hệ trong thông tin Nhân công tri thức (knowledge worker): người tạo, sử dụng, phổ biến tri thức, thường là chuyên gia về khoa học, kỹ thuật, kinh doanh, miền ỨD. Hệ thống quản lý tri thức (knowledge management system): một tập được tổ chức gồm con người, thủ tục, phần mềm, CSDL và các thiết bị để tạo ra, lưu trữ và sử dụng tri thức và kinh nghiệm của tổ chức. Xử lý dữ liệu theo bộ óc hoặc thủ công hoặc bằng máy tính.

6 Các đặc trưng của thông tin có giá trị
Cho người quản lý và người ra quyết định (“quản lý” và “lãnh đạo”). Nhìn chung “chính xác, đúng người, đúng thời điểm” Các đặc trưng: truy nhập được (Accessible), chính xác (Accurate), đầy đủ (Complete), kinh tế (Economical), linh hoạt (Flexible), có liên quan (Relevant), tin cậy (Reliable), An toàn (Secure), đơn giản (Simple), kịp thời (Timely), kiểm chứng được (Verifiable). Truy nhập được Người sử dụng có thẩm quyền dễ dàng nhận được, ở dạng phù hợp, đúng thời điểm theo yêu cầu. Chính xác Thông tin chính xác là không bị lỗi. Trong nhiều trường hợp, thông tin không chính xác do dữ liệu không chính xác trong quá trình chuyển đổi (được gọi là “nhập rác, xuất rác”: garbage in, garbage out: GIGO). Đầy đủ Thông tin cần bao gồm các yếu tố quan trọng. Phản ví dụ: Một báo cáo đầu tư không nói về chi phí quan trọng.

7 Thông tin có giá trị (tiếp)
Tính kinh tế Tính kinh tế liên quan tới chi phí tạo thông tin. Người ra quyết định cần cân bằng giá trị của thông tin với chi phí tạo ra nó. Tính linh hoạt Thông tin được sử dụng linh hoạt cho nhiều mục đích. Ví dụ, thông tin lượng hàng tồn kho cho người bán hàng, cho người quản lý tài chính… Có liên quan Có liên quan là quan trọng cho người ra quyết định. Tính tin cậy Theo sự tín nhiệm của người dùng. Tính tin cậy phụ thuộc vào tính tin cậy của phương pháp thu thập thông tin / tính tin cậy của nguồn thông tin. Tính an toàn Tránh được sự truy nhập trái phép. Tính đơn giản Cần đơn giản, không quá phức tạp. Thông tin phức tạp và chi tiết có thể không cần thiết.

8 Thông tin có giá trị (tiếp)
Tính kịp thời Được cung cấp khi cần đến nó: “Biết thời tiết cuối tuần trước không giúp gì cho chọn áo khoác mặc thứ Năm”. Tính kiểm chứng được Thông tin cần kiểm chứng được: kiểm tra được tính đúng đắn có thể bằng nhiều nguồn khác nhau. Lưu ý Độ quan trọng các đặc trưng tùy thuộc vào kiểu dữ liệu cần đến: (i) Với dữ liệu thông minh thị trường: tính kịp thời > tính chính xác / tính đầy đủ (chẳng hạn, các đối thủ cạnh tranh có thể tạo ra giảm giá lớn…); (ii) tính chính xác, đầy đủ và kiểm chứng được là quan trọng

9 Khái niệm hệ thống Khái niệm hệ thống
Một tập các phần tử / các thành phần tương tác để hoàn thành mục tiêu Các phần tử và các quan hệ giữa chúng xác định cách hoạt động của hệ thống. Hệ thống có các thành phần input, các cơ chế xử lý, output và cơ chế phản hồi Ví dụ, hệ thống rửa ô tô: Bao gồm các phần tử độc lập hoặc thành phần (phun chất lỏng, chổi bọt, sấy không khí…) Cơ chế xử lý tùy theo lựa chọn khách hàng: chỉ làm sạch / làm sạch & đánh bóng / làm sạch & đánh bóng & làm khô) Cơ chế phản hồi: đánh giá của khách hàng về chất lượng rửa xe.

10 Các kiểu hệ thống Các kiểu hệ thống phức tạp Hệ thống tự nhiên
Hệ thống sản xuất Hệ thống xã hội – công nghệ

11 Hệ thống xã hội – công nghệ
Một lượng tùy ý các phần tử, các liên kết, các thuộc tính và các tác nhân tương tác đáp ứng các yêu cầu của một khách hàng đã biết và khởi tạo giá trị. Tổ hợp của hệ thống tự nhiên và hệ thống sản xuất Con người, quá trình và hàng hóa Các phần tử tương tác giữa các phương diện xã hội và cơ khí Hoạt động hướng khách hàng Tương tác đồng sản xuất giữa nhà cung cấp và khách hàng Giao dịch kinh tế và tạo giá trị

12 Các loại hệ thống

13 Hệ thống: Hiệu năng và các chuẩn
Độ đo hiệu năng hệ thống Tồn tại một số độ đo về hiệu năng hệ thống Hiệu suất (efficiency): Độ đo tỷ số giữa cái được sản suất ra chia cho cái tiêu thụ để sản xuất (0-100%). Ví dụ, hiệu suất của một động cơ là tỷ số giữa năng lượng được sinh ra (công việc được thực hiện) với số năng lượng cần tiêu thụ (theo điện năng hoặc nhiên liệu). Được dùng để so sánh các hệ thống. Hiệu lực (effectiveness): Độ đo mức độ hệ thống đạt được mục tiêu, là tỷ số các mục tiêu thực sự đạt được trên tổng các mục tiêu đặt ra. Ví dụ, một công ty muốn một lợi nhuận 100 tỷ đồng/1 năm sử dụng HTTT và lợi nhuận đạt được thực sự là 85 tỷ đồng  hiệu lực 85%. Một chuẩn hiệu năng (perfomance standard) là một mục tiêu cụ thể của hệ thống. Ví dụ, một chuẩn hiệu năng cho một chiến dịch tiếp thị là mỗi đại lý bán hàng 100 tỷ đồng cho mỗi loại sản phẩm/năm (Hình trên). Một chuẩn hiệu năng cho một quá trình sản xuất là có không quá 1% sản phẩm lỗi (Hình dưới). Hệ thống thực hiện và so sánh với chuẩn.

14 Hệ thống: Hiệu năng và các chuẩn
Ví dụ các chuẩn hiệu năng: mục tiêu tăng bán hàng (a, trên) mục tiêu giảm lỗi sản phẩm (b, dưới)

15 Mô hình hóa hệ thống Mô hình hóa một hệ thống: tường thuật (từ, nói, viết), vật lý (hình tượng), sơ đồ (đồ họa), toán học

16 Khái niệm hệ thống thông tin
Khái niệm hệ thống thông tin (information system: IS) Một tập các phần tử hoặc thành phần liên quan nhau cung cấp thông tin tạo lợi thế cạnh tranh cho tổ chức thực hiện thu thập (input), thao tác (xử lý), lưu trữ và kết xuất (output) dữ liệu và thông tin, và cung cấp một phản ứng hiệu chỉnh (cơ chế phản hồi: feedback mechanism) đạt được một mục tiêu (objective). Cơ chế phản hồi là thành phần giúp các tổ chức đạt được các mục đích (goals), chẳng hạn như tăng lợi nhuận /cải thiện quan hệ khách hàng. Phản hồi là thành phần chủ chốt cho thành công của hệ thống.

17 Khái niệm hệ thống thông tin
Các khái niệm liên quan trong định nghĩa Bộ vào (input): Hoạt động thu thập và đạt được dữ liệu thô. Ví dụ, (i) trước khi lập và in bảng lương, số giờ làm việc của mọi nhân viên cần được thu thập; (ii) Trong hệ thống tín điểm đại học, các giảng viên phải nộp đầy đủ kết quả thi mọi môn học Xử lý (processing): Biến đổi hoặc chuyển dạng dữ liệu thành các kết quả ra hữu ích. Tính toán, so sánh dữ liệu, hoạt động khác, và lưu trữ dữ liệu để dùng về sau. Bằng tay, bằng máy tính. Bộ ra (output): Việc kết xuất ra các thông tin hữu dụng, thường là văn bản hoặc báo cáo. Bộ ra hệ thống này có thể bộ vào hệ thống kế tiếp. Phản hồi (feedback): Các kết quả ra được sử dụng để thay đổi input hoặc hành động xử lý. Hệ thống thông tin thủ công và dựa trên máy tính Vẽ các sơ đồ, bảng biểu, đường xu hướng để ra quyết định Hiện tại, hầu hết hệ thống dựa trên mày tính

18 Khung tổng thể các hệ thống thông tin
[SJB09] John W. Satzinger, Robert B. Jackson, Stephen D. Burd (2009). Systems Analysis and Design in a Changing World, Course Technology, Cengage Learning

19 Các kiểu hệ thống thông tin
[SJB09] John W. Satzinger, Robert B. Jackson, Stephen D. Burd (2009). Systems Analysis and Design in a Changing World, Course Technology, Cengage Learning

20 HTTT dựa trên máy tính (CBIS)
Computer- Based Information System (CBIS), CBIS: một tập đơn nhất các phần tử/thành phần: phần cứng, phần mềm, CSDL, viễn thông-mạng-internet, con người, các thủ tục procedures (chiến lược: strategics, chính sách: polities, phương pháp: methods, quy tắc: rules) được cấu hình để thu thập, chế biến, lưu trữ, và xử lý dữ liệu thành thông tin. Hạ tầng công nghệ (cho kinh doanh): Mọi thành phần phần cứng, phần mềm, CSDL, viễn thông-mạng-internet, con người, thủ tục để thu thập, chế biến, lưu trữ, và xử lý dữ liệu thành thông tin.

21 Các thành phần của CBIS Phần cứng Phần mềm CSDL
Thiết bị máy tính để thi hành các hành động của bộ vào, xử lý và bộ ra. Tiến bộ nhanh theo định luật Moore (xem môn KPDL). Phần mềm Các chương trình máy tính điều phối vận hành của máy tính, cho phép xử lý bảng lương, gửi hóa đơn tới khách hàng, cung cấp cho nhà quản lý các thông tin để tăng lợi nhuận, giảm chi phí, cung cấp dịch vụ tốt nhất tới khách hàng… Phần mềm hệ thống và phần mềm ứng dụng CSDL Một tập có tổ chức gồm dữ liệu và thông tin. Thường bao gồm nhiều tệp dữ liệu liên quan. CDSL một tổ chức: chứa sự kiện và thông tin về khách hàng, nhân viên, hàng tồn kho, bán hàng của đối thủ, mua hàng trực tuyến… Hầu hết nhà quản lý: HTTT là một trong các thành phần giá trị nhất

22 Các thành phần của CBIS Mạng Con người Thủ tục
Truyền thông (telecommunication): Truyền tải điện tử các tín hiệu truyền thông, cho phép các tổ chức thực hiện các quy trình và nhiệm vụ của tổ chức một cách hiệu quả thông qua mạng, Mạng: Các máy tính và các thiết bị được kết nối trong tòa nhà, khắp đất nước, khắp thế giới cho phép truyền thông điện tử Internet: Mạng lớn nhất thế giới. Con người thành phần quan trọng nhất ở hầu hết các CBIS, tạo ra sự khác biệt giữa thành công và thất bại của hầu hết các tổ chức. Gồm người quản lý, chạy chương trình, lập chương trình và duy trì HTTT. Người dùng gồm giám đốc tài chính, đại lý tiếp thị, thao tác viên sản xuất … cũng thuộc thành phần con người Thủ tục Các chiến lược, chính sách, phương pháp, và các quy tắc sử dụng CBIS, Thủ tục tốt giúp công ty tận dụng lợi thế từ cơ hội mới và tránh được thảm họa

23 HTTT kinh doanh HTTT trong các tổ chức kinh doanh theo ba mức:
Mức trên: Hệ thống quản lý tri thức và hệ thống thông tin kinh doanh chuyên ngành Mức giữa: Hệ thống thông tin quản lý và hệ thống hỗ trợ quyết định Mức dưới: Thương mại điện tử và thương mại không dây (M-commerce: Mobile-commerce)

24 Thương mại điện tử - thương mại di động
Mọi giao dich kinh doanh được thực hiện bằng điện tử giữa các công ty (B2B: business-to-business): PayPal hệ thống thanh toán thương mại điện tử khoảng 1,5 tỷ US$ hàng năm, công ty –khách hàng (B2C: business-to- consumer). TMĐT cho công ty nhỏ cơ hội tiếp thị và bán hàng với giá thành thấp trên toàn cầu, giữa các khách hàng (C2C: consumer-to- consumer), công ty – chính quyền (B2G: business and the public sector), Khách hàng – chính quyền (C2G: consumers and the public sector). Thương mại di động Giao dịch được thực hiện ở mọi nơi, mọi thời điểm. Dùng điện thoại di động để thanh toán hàng hóa và dịch vụ Tại Hàn Quốc: 70 % phí điện thoại di động chi trả cho nội dung số, như âm nhạc số. An toàn thông tin và an ninh mạng Cải thiện an ninh Internet và Web nhanh hơn.

25 TMĐT đơn giản hóa quá trình giao dịch
Thanh toán truyền thống và thanh toán điện tử

26 Thương mại điện tử Khái niệm
electronic business (e-business) còn được gọi “tác nghiệp điện tử” Sử dụng HTTT và Internet thực hiện mọi bài toán và chức năng liên quan kinh doanh, ví dụ, kế toán-tài chính- tiếp thị- sản xuất – quản lý nguồn lực… với khách hàng, nhà cung cấp, đối tác chiến lược, các bên liên quan Chiến lược e-business là mềm dẻo và thích ứng cao

27 Tiến hóa HTTT doanh nghiệp
Như sơ đồ bên trái: TPS  HTTT quản lý (ERP và các MIS khác)  DSS Hệ thống xử lý giao dịch Giao dịch: Mọi trao đổi liên quan tới kinh doanh, ví dụ như trả lương cho nhân viên, bán hàng cho khách hàng, thanh toán cho nhà cung cấp… Hệ xử lý giao dịch TPS (Transaction Processing Systems): Một tập có tổ chức gồm con người, thủ tục, phần mềm, CSDL, thiết bị được dùng để ghi các giao dịch kinh doanh hoàn thành. Ví dụ TPS ban đầu là hệ thống xử lý lương. Rất nhiều TPS tại các doanh nghiệp. Hệ thống doanh nghiệp (Enterprise systems): hỗ trợ hiệu năng tổ chức và tích hợp nhiều bài toán quan trọng như trả tiền nhân viên & nhà cung cấp, kiểm soát hàng tồn kho, gửi hóa đơn, đặt hàng nhà cung cấp…

28 Hệ thống ERP Hệ thống hoạch định nguồn lực tổ chức
Hệ thống hoạch định nguồn lực doanh nghiệp ERP (Enterprise Resource Planning System) Một tập các chương trình được tích hợp có đủ năng lực quản lý các hoạt động kinh doanh của một tổ chức đa diện toàn bộ, toàn cầu hóa. ERPS thay thể nhiều chương trình ứng dụng bằng một tập thống nhất các chương trình, làm cho hệ thống dễ sử dụng và hiệu quả hơn. Hầu hết các ERPS cung cấp phần mềm tích hợp để hỗ trợ sản xuất và tài chính. Một vài hệ thống con chi trả đơn đặt hàng cần thiết. Lợi ích chính là dễ dàng quá trình làm việc cải tiến và tăng cường truy nhập dữ liệu kịp thời để ra quyết định. Công cụ hệ thống ERP SAP là công ty hàng đầu cung cấp sản phẩm ERPS. 34 nghìn nhân viên ở trên 50 quốc gia.

29 HTTT quản lý Hệ thống thông tin quản lý
Management information system (MIS) Một tập có tổ chức con người, thủ tục, phần mềm, CSDL, thiết bị cung cấp thông tin thường xuyên tới các nhà quản lý và người ra quyết định. Tập trung vào tính hiệu quả của điều hành. Tiếp thị, sản xuất, tài chính và vùng chức năng khác được MIS hố trợ và kết nối vào một CSDL chung. Sinh ra bào cáo chuẩn từ dữ liệu/thông tin từ TPS.

30 Hệ hỗ trợ quyết định Hệ hỗ trợ quyết định
Decision Support Systems (DSS) Một tập có tổ chức con người, thủ tục, phần mềm, CSDL, thiết bị được dùng để hỗ trợ việc tạo quyết định bài toán cụ thể. MIS giúp các tổ chức làm các điều đúng (“do things right”) còn DSS giúp nhà quản lý làm các điều được coi là đúng (“do the right thing”). MIS không được dùng để hỗ trợ hướng bài toán còn DSS gợi ý các lựa chọn thay thế và hỗ trợ ra quyết định cuối cùng. Ví dụ, DSS giúp khách hàng đáp ứng nhanh truy vấn về điện thoại và của họ. DSS điển hình: MMS (Model Management System), DBMS

31 Một số HTTT doanh nghiệp đặc biệt
Trí tuệ nhân tạo artificial intelligence (AI) lĩnh vực làm cho hệ thống máy tính có những đặc trưng của thông minh con người. Các thành phần điển hình: Người máy (Robotics), thị giác máy (Vision systems), Xử lý ngôn ngữ tự nhiên (Natural language processing: NLP), học máy (Machine learning / Learning system), mạng nơron nhân tạo (neural networks)… expert system: Hệ thống cung cấp cho máy tính khả năng đưa ra các đề xuất và chức năng như một chuyên gia miền ứng dụng. Cơ sở tri thức (knowledge base): một tập gồm dữ liệu, luật, thủ tục và quan hệ mà buộc theo đuổi nhằm đạt được giá trị hoặc kết quả thích hợp. Thực tại ảo virtual reality: Mô phỏng một môi trường thực hay tưởng tượng được biểu diễn trực quan hóa theo không gian ba chiều.

32 Các thành phần của Trí tuệ nhân tạo

33 Phần 2. Giới thiệu chung về khai phá quy trình

34 Khái niệm và triết lý khai phá quy trình
Khái niệm khai phá quy trình Process Mining: chiết xuất thông tin có giá trị, liên quan đến quy trình từ các bản ghi sự kiện, bổ sung vào các tiếp cận hiện có để quản lý quy trình tác nghiệp (Business Process Management : BPM). Kết hợp giữa khai phá dữ liệu và quản lý quy trình tác nghiệp Triết lý “đường mòn” của khai phá quy trình Đường mòn (desire line) / đường xã hội (the social trail) Là con đường được hình thành do sự xói mòn bởi bước chân của con người hoặc động vật Chiều rộng và độ xói mòn thể hiện độ thường xuyên sử dụng “Đường mòn là ngắn nhất/thuận tiện nhất giữa hai điểm Xói mòn càng cao  Sử dụng càng thường xuyên Hành động trong kinh doanh hình thành đường mòn kinh doanh ~ nhật ký sự kiện phản ánh quy trình tốt/thuận tiện November 28, 2018November 28, 2018November 28, 2018November 28, 2018November 28, 2018November 28, 2018 [Aalst11] WMP Van der Aalst (2011). Process Mining: Discovery, Conformance and Enhancement of Business Processes, Springer, 2011.

35 Cơ bản về Khai phá quy trình
Khái niệm KPQT: phát hiện, theo dõi, cải thiện quy trình kinh doanh dựa trên trích xuất tri thức từ nhật ký sự kiện NKSK (event log) NKSK={trường hợp (case) “thể hiện” quy trình}: “xuất phát điểm của KPQT” Case: dãy có thứ từ các hành động (activity), hành động được “xác định tốt” NKSK = {hành vi quan sát được}  {hành vi} Cộng đồng KPQT Quan tâm KPQT: Tuyên ngôn KPQT (Process Mining Manifesto) do the IEEE Task Force on Process Mining công bố 53 tổ chức, 77 chuyên gia KPQT (người dùng, cung cấp công cụ, tư vấn, phân tích, nghiên cứu): KPDL  KPQT  mô hình hóa BM (quy trình kinh doanh) [Aalst13] Wil M. P. van der Aalst (2013). Decomposing Petri nets for process mining: A generic approach. Distributed and Parallel Databases 31(4): 35

36 Vị trí của Khai phá quy trình [Aalst13]
<PT mô hình quy trình><KPQT> <PT dựa trên DL> PT dựa trên DL (KPDL, học máy, TMKD): PT hướng đến quyết định & mẫu riêng lẻ, không toàn bộ QT (từ đầu đến cuối: E2E) PTMHQT (Business Process Management: BPM và Workflow Management: WFM) phân tích và tăng cường QT E2E sử dụng tri thức từ CNTT và khoa học quản lý lấy mô hình QT trung tâm KPQT tích hợp hai “vũ trụ” trả lời câu hỏi hiệu năng và tuân thủ Kỳ vọng thông minh QTKD Business Process Intelligence liên kết DL và QT. Gần đây, kỹ thuật và phần mềm có sẵn liên kết tự động mô hình QT và DL sự kiện 36

37 Sự tăng trưởng dữ liệu Tăng trưởng DL
T: nhiều doanh nghiệp có hơn 1PB DL (Nguồn IDC). Manyika, J., Chui, M., Brown, B., Bughin, J., Dobbs, R., Roxburgh, C., Byers, A.: Big Data: the Next Frontier for Innovation, Competition, and Productivity. McKinsey Global Institute, San Francisco (2011) P: Ba tháo tác thông tin cơ bản và các công nghệ nổi bật nhất. Hilbert, M., Lopez, P.: TheWorld’s technological capacity to store, communicate, and compute information. Science 332(6025), 60–65 (2011) 37

38 Nhu cầu phân tích khai phá quá trình
Xu thế Philips Healthcare kết nối Internet hơn 1500 hệ thống Cardio Vascular (CV, như máy chiếu X-quang) ghi nhận, duy trì và hội thoại từ xa; Mỗi CV tạo SK/ngày  22,5 triệu SK/ngày. ASML có nhật ký lỗi HT in thạch bản khoảng SK/máy/ngày. Dữ liệu SK của tổ chức hàng TB Thác thức và giải pháp Kỹ thuật KPQT cần hướng tới tính chính xác cao  kỹ thuật KPQT phải hiệu quả hơn và khả cỡ cao Dòng DL sự kiện cần phân tán trên các CSDL phức và các bài toán KPQT lớn phải phân tán trên mạng máy tính lớn Thách thức về hiệu năng (thời gian đáp ứng), về sức chứa (không gian lưu trữ), về giải thích (mô hình quá trình với hàng ngàn hành động) Phân tách các bài toán phát hiện quy trình và kiểm tra phù hợp [Aalst13] Wil M. P. van der Aalst (2013). Decomposing Petri nets for process mining: A generic approach. Distributed and Parallel Databases 31(4): 38

39 Contents Cycle Diagram Nhật ký sự kiện
Dữ liệu đầu vào cho khai phá quá trình là nhật ký sự kiện. Ngầm định dữ liệu chuẩn: Một nhật ký sự kiện bao gồm nhiều trường hợp (cases). Một trường hợp chứa nhiều sự kiện (events) được sắp xếp theo trình tự. Một trường hợp là “một lần thi hành mô hình quá trình trong thực tiễn” Mỗi sự kiện chứa các thuộc tính (attributes).

40 Nhật ký sự kiện Contents Cycle Diagram

41 Nhật ký sự kiện a=register request; b=examine thoroughly; c=examine casually; d=check ticket; e-decide; f=reinititate request; g=pay compensasion, và h=reject request Dạng đơn giản: dãy hành động {<a,b,c,d>, <a,c,b,d>,…}. <x1, x2,..,xn> là một “vết” (trace) Tập bội (multi-set): mở rộng tập thông thường, một phần tử xuất hiện nhiều lần: Gộp {<a,b,c,d>112, <a,c,b,d>99,…} Cho tập X: tập mọi tập bội trong X ký hiệu B(X) Định nghĩa: Cho A tập hành động, một vết của A là A* là dãy các hành động, Một LB(A*) là một nhật ký dự kiện (trên A) [AD13] Wil M. P. van der Aalst, Boudewijn F. van Dongen (2013). Discovering Petri Nets from Event Logs. T. Petri Nets and Other Models of Concurrency 7: 41

42 Nhật ký sự kiện: khía cạnh bổ sung
Ba khía cạnh bổ sung điển hình Tổ chức: Con người, đơn vị, tổ chức… Thời gian: Tem thời gian, thời gian thực hiện, thời gian chờ, … Tài nguyên: Chi phí. Quy trình chung: Phát hiện mô hình quy trình từ NKSK đơn giản, tiến hành khai phá dữ liệu các khía cạnh bổ sung [AD13] Wil M. P. van der Aalst, Boudewijn F. van Dongen (2013). Discovering Petri Nets from Event Logs. T. Petri Nets and Other Models of Concurrency 7: 42

43 Mô hình quá trình [3] Contents Cycle Diagram Mô hình quy trình
- Mô hình quy trình được biểu diễn bằng một ngôn ngữ mô hình hóa. - Có nhiều loại ngôn ngữ mô hình hóa khác nhau như: BPMN, BPEL, UML, Petri-net,… - Petri-net là mô hình thường được sử dụng để mô hình hóa quy trình và có thể chuyển đổi sang các mô hình BPMN, PBEL, UML,…

44 Lưới Petri: Một dạng mô hình quy trình
Giới thiệu Một dạng máy trạng thái hữu hạn Dạng đơn giản Bộ ba N = (P,T,F) trong đó P là tập hữu hạn các vị trí (places) T là tập hữu hạn các thanh chuyển, P T = Ø. Thành phần PT được gọi là các nút (nodes) F (PT)(TP) là tập các cung trực tiếp, gọi là luồng quan hệ Lưới Petri mô hình quy trình T: Thanh chuyển  hành động P: Vị trí kết nối các hành động, nơi “công việc” chuẩn bị được xử lý Ví dụ:Trang tiếp theo 44

45 Ví dụ mô hình quy trình bằng lưới Petri
Lưới Petri mô hình hóa quy trình giải quyết yêu cầu bồi thường từ khách hàng của một hãng hàng không 45

46 Petri net: một biểu diễn khác
Ví dụ: P={start,c1,c2,c3,c4,c5,c6,end} T={a,b,c,d,e,f,g,h} F={(start,a), (a,c1), (a,c2), (c1,b), (c1,c), (c2,d), (b,c3), (c,c3), (d,c4), (c3,e), (c4,e), (e,c5), (c5,f), (f,c1), (f,c2), (c5,g), (c5,h), (g,end), (h,end)} 46

47 Lưới Petri tổng quát Định nghĩa Nhận xét dạng tổng quát
Lưới Petri là bộ năm PN=(P, T, F, W, Mo): P={p1, p2, ..., pm} là tập hữu hạn các trạng thái T={t1, t2, ..., tn} là tập hữu hạn các thanh chuyển F (PT)(TP) là tập các cung (quan hệ tiếp sau) W: F{0, 1, 2, ...} là hàm trọng số (trên các cung) Mo: P{0, 1, 2, ...} là đánh dấu ban đầu P T = Ø, PT  Ø Lưới Petri như trên bỏ qua đánh dấu ban đầu (P, T, F, W) được ký hiệu N. Như vậy PN=(N, Mo) tT: t={pP: (p,t) F} và t ={pP: (t,p) F}. Tương tự, có thể định nghĩa cho pP. Kí hiệu W(p,t)::=W((p,t)), W(t,p)::=W((t,p)); Nhận xét dạng tổng quát W: Trọng số cung, Mo : Trọng số vị trí Đánh dấu M: P{0, 1, 2, ...}, M={M(p1), M(p2), ..., M(pm)}. (N, M) Tính đồng thời rộng hơn lưới Petri trong KPQT tT: được gọi là nguồn nếu t=, được gọi là kết nếu t=. Nguồn cháy vô điều kiện, kết tiêu thụ không sinh thẻ. 47

48 Hoạt động của lưới Petri
Cháy được và quy tắc cháy Cho (N, M): Một thanh chuyển t “cháy được”  p t thì M(p)  W((p,t)) Một thanh chuyển t cháy được có thể “cháy” hoặc “không cháy” Quy tắc cháy: Cho (N, M) và t là “cháy được”. Quy tắc “cháy” t : (N, M)  (N,M’) với p t  t: M’(p)=M(p) p  t : M’(p)=M(p)-W(p,t) p  t : M’(p)=M(p)+W(t,p) M’ được gọi “đạt được trực tiếp” từ M: MtM’ M được gọi là đạt được từ Mo nếu t1, t2, ..., tk để cho Mo t1M1 t2M2... tkMk=M Tự chu trình Cặp (p,t) được gọi là “tự chu trình” nếu như ptt Lưới Petri N “thuần túy” (pure) nếu không có bất kỳ tự chu trình Lưới Petri N là “thông thường” nếu mọi trọng số cung là 1 (lúc đó không ghi trọng số cung). Lưới Petri trong KPQT: (i) thông thường; (ii) Mo=(1,0,...,0) với p1 là vị trí khởi đầu 48

49 Ví dụ 1 Ví dụ 1: cháy thanh chuyển t
(a) Trước khi cháy: Mo=(2, 2, 0) (b) Sau khi cháy : M’= (0, 1, 2) Lưới chứa vô hạn, lưới chứa hữu hạn Định nghĩa cháy không hạn chế số thẻ tại mỗi vị trí: Lưới chứa vô hạn Thực tiễn: hạn chế số thẻ trong mỗi vị trí: Lưới chứa hữu hạn hay ngắn gọn là “lưới hữu hạn” Trong lưới hữu hạn: K(p) là số cực đại vị trí p có thể lưu giữ Điều kiện cháy bổ sung: “cháy được” (quy tắc chuyển chặt) pt thì M(p) + W(t,p)  K(p). Nếu bỏ qua bổ sung “yếu”. 49

50 Ví dụ 2 (a) Lưới hạn chế (b) Lưới bổ sung không hạn chế
Biến đổi lưới thuần túy qua quy tắc không chặt (a) pP: P=P{p’} với Mo(p’)=K(p)-Mo(p) (b) tT: p t thì F=F(t,p’) với W(t,p’)=W(p,t) tT: p t thì F=F(p’,t) với W(p’,t)=W(t,p) Ví dụ 2 (a) Lưới hạn chế (b) Lưới bổ sung không hạn chế (c) Đồ thị “đạt được” theo lưới bổ sung không hạn chế Định lý Lưới chứa hữu hạn thuần khiết và lưới bổ sung theo hai bước trên là tương đương theo nghĩa tạo cùng một tập dãy cháy. 50

51 Ứng dụng lưới Petri: máy trạng thái HH
Máy bán kẹo 15 xu và 20 xu 51

52 Lưới Petri: hành động đồng thời
Trái: Hoạt động song song xác định Phải: Tính lộn xộn (a) lộn xộn đối xứng: t1, t2 cháy đồng thời và xung đột với t3 (b) lộn xộn không đối xứng: t1 và t3 chỉ đồng thời khi t2 cháy trước t1. 52

53 Lưới Petri: Dòng dữ liệu tính toán
Lưới Petri mô tả dòng dữ liệu tính toán x=(a+b)/(a-b) 53

54 Lưới Petri: Mô tả giao thức truyền thông
Một giao thức truyền thông liên quá trình đơn giản 54

55 Lưới Petri: Hệ thống đọc-ghi
Đọc đồng thời, ghi độc quyền 55

56 Lưới Petri: Hệ thống sản xuất-tiêu dùngthụ
Người tiêu dùng A ưu tiên hơn người tiêu dùng B và nhiều ứng dụng khác [Takao89] Murata Tadao (1989). Petri Nets: Properties, Analysis and Applications. Proceedings of the IEEE, 77(4): , April 1989. 56

57 Lưới Petri trong KPDL Lưới Petri N=(P, T, F)
Định nghĩa Lưới Petri N=(P, T, F) Trọng số cung và trọng số vị trí là 1 Đánh dấu M là hàm bội: MB(A) Tập vào: x và tập ra x : x PT Thanh chuyển “cháy được” Chuyển dịch đánh dấu Dãy cháy: t1, t2, …, tk như đã nói ở lưới Petri tổng quát Hàm chuyển dịch > từ đánh dấu M sang đánh dấu M’ 57

58 Triết lý đường mòn trong KPQT
58

59 Ví dụ triết lý đường mòn Xây dựng lối đi trong ĐH Columbia
Tác giả: Dwight Eisenhower, Chủ tịch ĐH Columbia (sau này là Tổng thống Mỹ đời thứ 34) Bài toán: xây lối đi tốt nhất nối các nhà trong khu trường Lời giải: Cho cỏ mọc giữa các tòa nhà và trì hoãn tạo vỉa hè Mọi người đi: Hình thành dần lối mòn giữa các nhà Xây vỉa hè theo các lối mòn đó 59

60 Mô hình vòng đời quản lý QT tác nghiệp
Mô hình vòng đời BPM Khai phá quy trình: học máy & khai phá dữ liệu ~ mô hình hóa & phân tích quá trình (quá trình kinh doanh). Mục tiêu chính của khai phá quy trình là phát hiện, theo dõi và cải tiến quy trình thực tế, bằng cách lấy tri thức từ nhật ký sự kiện có sẵn trong các hệ thống hiện nay 60

61 Ba bài toán khai phá quy trình
Khai phá quy trình: thiết lập mối liên kết quy trình thực tế và dữ liệu  mô hình quy trình. Khai phá quy trình gồm 3 bài toán: Phát hiện mô hình quy trình. Kiểm tra sự phù hợp của mô hình. Tăng cường mô hình. 61

62 Các bài toán trong khai phá quá trình
Ba bài toán khai phá quy trình Contents Các bài toán trong khai phá quá trình Cycle Diagram Phát hiện Kiểm tra phù hợp Tăng cường

63 Diễn giải quá trình từ DL tới kết quả KPQT
63

64 Phát hiện mô hình quá trình
Là bài toán thứ nhất trong khai phá quá trình Input: Nhật ký sự kiện. Output: Mô hình quá trình. Bài toán thực hiện phát hiện mô hình quá trình dựa vào thông tin trong nhật ký sự kiện mà không sử dụng bất kỳ thông tin tiền nghiệm nào. Mô hình quá trình được biểu diễn bằng một ngôn ngữ mô hình hóa Có nhiều loại ngôn ngữ mô hình hóa khác nhau (BPMN, BPEL, UML, Petri-net,…) Petri-net thường được sử dụng để mô hình hóa quá trình và có thể chuyển đổi sang các mô hình BPMN, PBEL, UML,… khác.

65 BÀI TOÁN KIỂM TRA SỰ PHÙ HỢP
Kiểm tra phù hợp Contents BÀI TOÁN KIỂM TRA SỰ PHÙ HỢP Cycle Diagram Input: Nhật ký sự kiện (Event Log) - Mô hình quá trình (Model) Output: Các độ đo phù hợp. Ứng dụng: Xem xét chất lượng của một mô hình quá trình. Để xác định những trường hợp chệch hướng và hiểu chúng có hành vi chung gì. Để xác định các đoạn quá trình mà ở đó hầu hết xảy ra lệch hướng. Cho mục đích kiểm toán, …

66 Trực quan mô hình quy trình
Mở rộng mô hình khi bổ sung các khía cạnh: khía cạnh tổ chức (organizational perspective, “What are the organizational roles and which resources are performing particular activities?”), khía cạnh trường hợp (case perspective, “Which characteristics of a case influence a particular decision?”) và khía cạnh thời gian (time perspective, “Where are the bottlenecks in my process?”) [Aalst11] WMP Van der Aalst (2011). Process Mining: Discovery, Conformance and Enhancement of Business Processes, Springer, [Aalst12] Wil M. P. van der Aalst: Process Mining: Overview and Opportunities. ACM Trans. Management Inf. Syst. 3(2): 7 (2012) 66

67 Tuyên ngôn Khai phá quy trình [IE3-TFPM12]
Preliminary Defense 11/28/2018 Tuyên ngôn Khai phá quy trình [IE3-TFPM12] [IEEE-TFPM] The IEEE Task Force on Process Mining (2012). Process Mining Manifesto, 67 Hà Quang Thụy - KTLab

68 Nhật ký sự kiện  mô hình quy trình
Preliminary Defense Nhật ký sự kiện  mô hình quy trình 11/28/2018 Ba thao tác liên quan nhật ký sự kiện (hoặc các nguồn thông tin chứa mẫu hành vi khác) và mô hình quy trình: Play-in, Play-out, và Phát lại [Aalst11] 68 Hà Quang Thụy - KTLab


Download ppt "BÀI GIẢNG MỘT SỐ CHỦ ĐỀ HIỆN ĐẠI VỀ KHAI PHÁ DỮ LIỆU: KHAI PHÁ QUÁ TRÌNH CHƯƠNG 1. GIỚI THIỆU CHUNG VỀ HỆ THỐNG THÔNG TIN VÀ KHAI PHÁ QUÁ TRÌNH PGS."

Similar presentations


Ads by Google