Download presentation
Presentation is loading. Please wait.
1
Web Usage Mining: Discovery and Applications of Usage Patterns from Web Data 指導教授:黃三益老師 第二組:洪瑞麟 m964020015 蔡育洲 m964020034 陳怡綾 m964020041 SIGKDD Explorations. Copyrightc 2000 ACM SIGKDD, Jan 2000
2
Outline Introduction Problem statement Detailed data mining Conclusions and critics
3
Introduction Web mining: Data mining efforts associated with the Web content, usage, and structure To discover usage patterns from Web data, in order to understand and better serve the needs of Web- based applications.
4
Classes Web Content Mining: mining the data on the Web (text, image, audio, video, metadata and hyperlinks) Web Structure Mining: mining the Web structure data Web Usage Mining: mining the Web log data (preprocessing, pattern discovery, and pattern analysis )
5
Data type Content: The real data in the Web pages (text and graphics) Structure: describes the organization of the content. (as a tree structure) Usage: describes the pattern of usage of Web pages (IP addresses, page references, and the date and time of accesses.) User Profile: provides demographic information about users of the Web site. (registration data and customer profile information)
6
Data source (Web traffic ) Server Level Collection log files, Packet sniffing, Cookies, Query data and CGI script Client Level Collection Javascript, Java applet, and the modified browser Proxy Level Collection Proxy caching
7
Data abstractions user a single individual that is accessing file from one or more Web servers through a browser page view consists of every file that contributes to the display on a user's browser at one time click-stream a sequential series of page view requests user session the click-stream of page views for a singe user across the entire Web server session (visit) The set of page-views in a user session for a particular Web site episode Any semantically meaningful subset of a user or server session
8
Web usage mining phases
9
Preprocessing Usage Preprocessing Content Preprocessing Structure Preprocessing
10
Preprocessing Usage Preprocessing 資料處理最為複雜 可能會遭遇的問題 單一 IP 位置,多個 Server Session 使用者可能透過 Proxy 來進行連結。 多個 IP 位置,單一 Server Session 一些 ISP 會在不同的 Session 間,隨機指定 IP 位置。 多個 IP 位置,單一 User 使用者可能透過多台機器進行連結。 多個 Agent ,單一 User 使用者使用一個以上的瀏覽器來進行瀏覽。即使在同一 台機器上,其也會被視為不同的使用者。
11
Preprocessing Content Preprocessing 將文字、圖像、 script 、或是多媒體形式的檔 案轉換為網頁使用探勘流程有用的格式 通常這個過程也執行分類( classification ) 或分群( clustering )等類型的內容探勘
12
Preprocessing Structure Preprocessing 網站的結構是由 page view 的超連結所建立 結構可由類似網站內容的處理方法來取得 動態的內容會造成比靜態 page view 更多的問 題
13
Pattern Discovery Statistical Analysis Association Rules Clustering Classification Sequential Patterns Dependency Modeling
14
Statistical Analysis 最常使用到的方法 透過 session file 的分析,即可在 page view 、瀏覽的路徑長度或時間等特性上, 進行頻率、平均值、中位數等不同的描述 統計分析
15
Association Rules 可用來分析一個 server session 中,有 哪些網頁是具有存取的關聯性 協助網頁設計者去重新架構網站,以增加 相關網頁的連結
16
Clustering 將一群有相關特性的項目群組起來 usage cluster 將有類似瀏覽行為的使用者群組起來 運用人口統計上的特性,進行電子商務應用的 市場區隔 提供個人化的網頁 page cluster 找尋擁有相關內容的網頁群集 適合網際網路搜尋引擎的使用
17
Classification 將資料項目對應到一些已事先定義的類別 將使用者的使用紀錄歸類於一個或特定的 類別或分類 i.e. 在 /Procduct/Music 下單的客戶中, 有 30% 的人是屬於 18-25 歲的族群,且 居住在西岸
18
Sequential Patterns 找尋 session 間的模型,某些項目出現後 的一段時間之後,會有哪些的行動出現 預測客戶未來再度瀏覽的行為 針對特定的使用者族群作適當的廣告策略
19
Dependency Modeling 發展一模式,代表 Web domain 中各個變 數之間的重要關係 如建立一個模式以代表在不同階段,一個 瀏覽者所會執行的不同動作 可以提供分析使用者行為的理論架構 預測未來網站資源的消耗
20
Pattern Analysis 整體活動的最後一個階段 篩選在上述階段所產生的規則,將沒有意 義的規則過濾 SQL 、 OLAP 、視覺化工具
21
資料來源 國內某健康檢查中心 2002 年 9 月 ~10 月顧 客上網資料 log 檔 IP 瀏覽的網頁代碼 瀏覽網頁的時間、進入與離開網站的時間 會員基本資料 編號、性別、地區 年齡、加入會員的日期
22
資料描述
23
系統架構
24
關聯法則 將路過 ( 太短 ) 及無效 ( 太長 ) 的資料刪除 累加瀏覽時間 平均停留時間秒 54>37 秒 (Nielsen/NetRating s)
25
關聯法則 -based on Apriori
26
結果與分析
27
(A001,R008) B002 所代表的意義是在瀏覽首頁 (A001) 及登錄健檢結果查詢的網頁 (R008) 之狀況 下也會瀏覽檢驗結果解讀的網頁 (B002) ,此結果 與一般我們上網查詢健檢結果的狀況相符。可以將 三個網頁擺在一起或是建立超連結,以改善網頁設 計架構。 支持度可以看出網頁被瀏覽時受歡迎的程度,可提 供醫療業者推出健檢項目搭配促銷的決策參考。 當醫療業者欲推出某網頁廣告的資訊時,可以參考 信賴度。
28
決策樹 將一個網頁當成一個屬性,有瀏覽此網頁, 則屬性值為 1 ,反之為 0 輸入參數 Maximum levels 與 Minimum support 以產生決策樹來將顧 客分類
29
結果與分析 對會員基本資料及網站 log 檔 進行探勘 年齡、性別、地區、網頁代 碼等屬性來建構決策樹,以 進行顧客的分類 給予不同的廣告行銷策略及 瀏覽之環境
30
結果與分析 性別為女、年齡大於 35 歲,瀏覽骨質疏鬆 相關網頁的機率較高。當業者推出骨質疏 鬆健檢活動時,顧客的屬性符合性別為女、 年齡大於 35 歲之條件,可自動彈出該項健 檢活動優惠專案
31
結果與分析 在關聯法則的實驗結 果,發現瀏覽網頁 D018( 下午茶 ) 的狀況 下也會瀏覽網頁 D035( 綜合健康檢查 簡介 )
32
結果與分析 結果發現,會瀏覽檢 驗結果解讀 (B002) 網 頁及血脂肪 (D479) 網 頁而不瀏覽肝臟保健 (D306) 網頁之顧客, 是屬於會瀏覽肝功能 (D221) 網頁的族群
33
Conclusions 電子化交易的日漸普及,不僅是商業交易的資料, 網站的日誌紀錄也是同樣的與日俱增 資料探勘領域也有大幅的成長 個人化網站的建立,以及適形化的服務也將成為未 來的趨勢 透過 Web Mining 技術的使用,則可以對現行的資 料進行深入的挖掘,從找出的規則中,去進行改變, 以創造優勢
Similar presentations
© 2025 SlidePlayer.com. Inc.
All rights reserved.