Presentation is loading. Please wait.

Presentation is loading. Please wait.

Web Usage Mining: Discovery and Applications of Usage Patterns from Web Data 指導教授:黃三益老師 第二組:洪瑞麟 m964020015 蔡育洲 m964020034 陳怡綾 m964020041 SIGKDD Explorations.

Similar presentations


Presentation on theme: "Web Usage Mining: Discovery and Applications of Usage Patterns from Web Data 指導教授:黃三益老師 第二組:洪瑞麟 m964020015 蔡育洲 m964020034 陳怡綾 m964020041 SIGKDD Explorations."— Presentation transcript:

1 Web Usage Mining: Discovery and Applications of Usage Patterns from Web Data 指導教授:黃三益老師 第二組:洪瑞麟 m964020015 蔡育洲 m964020034 陳怡綾 m964020041 SIGKDD Explorations. Copyrightc 2000 ACM SIGKDD, Jan 2000

2 Outline  Introduction  Problem statement  Detailed data mining  Conclusions and critics

3 Introduction  Web mining: Data mining efforts associated with the Web content, usage, and structure  To discover usage patterns from Web data, in order to understand and better serve the needs of Web- based applications.

4 Classes  Web Content Mining: mining the data on the Web (text, image, audio, video, metadata and hyperlinks)  Web Structure Mining: mining the Web structure data  Web Usage Mining: mining the Web log data (preprocessing, pattern discovery, and pattern analysis )

5 Data type  Content: The real data in the Web pages (text and graphics)  Structure: describes the organization of the content. (as a tree structure)  Usage: describes the pattern of usage of Web pages (IP addresses, page references, and the date and time of accesses.)  User Profile: provides demographic information about users of the Web site. (registration data and customer profile information)

6 Data source (Web traffic )  Server Level Collection log files, Packet sniffing, Cookies, Query data and CGI script  Client Level Collection Javascript, Java applet, and the modified browser  Proxy Level Collection Proxy caching

7 Data abstractions  user a single individual that is accessing file from one or more Web servers through a browser  page view consists of every file that contributes to the display on a user's browser at one time  click-stream a sequential series of page view requests  user session the click-stream of page views for a singe user across the entire Web  server session (visit) The set of page-views in a user session for a particular Web site  episode Any semantically meaningful subset of a user or server session

8 Web usage mining phases

9 Preprocessing  Usage Preprocessing  Content Preprocessing  Structure Preprocessing

10 Preprocessing  Usage Preprocessing 資料處理最為複雜 可能會遭遇的問題  單一 IP 位置,多個 Server Session 使用者可能透過 Proxy 來進行連結。  多個 IP 位置,單一 Server Session 一些 ISP 會在不同的 Session 間,隨機指定 IP 位置。  多個 IP 位置,單一 User 使用者可能透過多台機器進行連結。  多個 Agent ,單一 User 使用者使用一個以上的瀏覽器來進行瀏覽。即使在同一 台機器上,其也會被視為不同的使用者。

11 Preprocessing  Content Preprocessing 將文字、圖像、 script 、或是多媒體形式的檔 案轉換為網頁使用探勘流程有用的格式 通常這個過程也執行分類( classification ) 或分群( clustering )等類型的內容探勘

12 Preprocessing  Structure Preprocessing 網站的結構是由 page view 的超連結所建立 結構可由類似網站內容的處理方法來取得 動態的內容會造成比靜態 page view 更多的問 題

13 Pattern Discovery  Statistical Analysis  Association Rules  Clustering  Classification  Sequential Patterns  Dependency Modeling

14 Statistical Analysis  最常使用到的方法  透過 session file 的分析,即可在 page view 、瀏覽的路徑長度或時間等特性上, 進行頻率、平均值、中位數等不同的描述 統計分析

15 Association Rules  可用來分析一個 server session 中,有 哪些網頁是具有存取的關聯性  協助網頁設計者去重新架構網站,以增加 相關網頁的連結

16 Clustering  將一群有相關特性的項目群組起來  usage cluster 將有類似瀏覽行為的使用者群組起來 運用人口統計上的特性,進行電子商務應用的 市場區隔 提供個人化的網頁  page cluster 找尋擁有相關內容的網頁群集 適合網際網路搜尋引擎的使用

17 Classification  將資料項目對應到一些已事先定義的類別  將使用者的使用紀錄歸類於一個或特定的 類別或分類  i.e. 在 /Procduct/Music 下單的客戶中, 有 30% 的人是屬於 18-25 歲的族群,且 居住在西岸

18 Sequential Patterns  找尋 session 間的模型,某些項目出現後 的一段時間之後,會有哪些的行動出現  預測客戶未來再度瀏覽的行為  針對特定的使用者族群作適當的廣告策略

19 Dependency Modeling  發展一模式,代表 Web domain 中各個變 數之間的重要關係  如建立一個模式以代表在不同階段,一個 瀏覽者所會執行的不同動作  可以提供分析使用者行為的理論架構  預測未來網站資源的消耗

20 Pattern Analysis  整體活動的最後一個階段  篩選在上述階段所產生的規則,將沒有意 義的規則過濾  SQL 、 OLAP 、視覺化工具

21 資料來源  國內某健康檢查中心 2002 年 9 月 ~10 月顧 客上網資料 log 檔 IP 瀏覽的網頁代碼 瀏覽網頁的時間、進入與離開網站的時間  會員基本資料 編號、性別、地區 年齡、加入會員的日期

22 資料描述

23 系統架構

24 關聯法則  將路過 ( 太短 ) 及無效 ( 太長 ) 的資料刪除  累加瀏覽時間  平均停留時間秒 54>37 秒 (Nielsen/NetRating s)

25 關聯法則 -based on Apriori

26 結果與分析

27  (A001,R008)  B002 所代表的意義是在瀏覽首頁 (A001) 及登錄健檢結果查詢的網頁 (R008) 之狀況 下也會瀏覽檢驗結果解讀的網頁 (B002) ,此結果 與一般我們上網查詢健檢結果的狀況相符。可以將 三個網頁擺在一起或是建立超連結,以改善網頁設 計架構。  支持度可以看出網頁被瀏覽時受歡迎的程度,可提 供醫療業者推出健檢項目搭配促銷的決策參考。  當醫療業者欲推出某網頁廣告的資訊時,可以參考 信賴度。

28 決策樹  將一個網頁當成一個屬性,有瀏覽此網頁, 則屬性值為 1 ,反之為 0  輸入參數 Maximum levels 與 Minimum support 以產生決策樹來將顧 客分類

29 結果與分析  對會員基本資料及網站 log 檔 進行探勘  年齡、性別、地區、網頁代 碼等屬性來建構決策樹,以 進行顧客的分類  給予不同的廣告行銷策略及 瀏覽之環境

30 結果與分析  性別為女、年齡大於 35 歲,瀏覽骨質疏鬆 相關網頁的機率較高。當業者推出骨質疏 鬆健檢活動時,顧客的屬性符合性別為女、 年齡大於 35 歲之條件,可自動彈出該項健 檢活動優惠專案

31 結果與分析  在關聯法則的實驗結 果,發現瀏覽網頁 D018( 下午茶 ) 的狀況 下也會瀏覽網頁 D035( 綜合健康檢查 簡介 )

32 結果與分析  結果發現,會瀏覽檢 驗結果解讀 (B002) 網 頁及血脂肪 (D479) 網 頁而不瀏覽肝臟保健 (D306) 網頁之顧客, 是屬於會瀏覽肝功能 (D221) 網頁的族群

33 Conclusions  電子化交易的日漸普及,不僅是商業交易的資料, 網站的日誌紀錄也是同樣的與日俱增  資料探勘領域也有大幅的成長  個人化網站的建立,以及適形化的服務也將成為未 來的趨勢  透過 Web Mining 技術的使用,則可以對現行的資 料進行深入的挖掘,從找出的規則中,去進行改變, 以創造優勢


Download ppt "Web Usage Mining: Discovery and Applications of Usage Patterns from Web Data 指導教授:黃三益老師 第二組:洪瑞麟 m964020015 蔡育洲 m964020034 陳怡綾 m964020041 SIGKDD Explorations."

Similar presentations


Ads by Google