A Classification Approach for Movie Recommender System 指導教授:黃三益 老師 學生: M964020007 黃于珊 M964020011 李界寬 M964020022 程尚文.

Slides:



Advertisements
Similar presentations
Software Engineering for Digital Home 單元 2 :軟體處理程序與需求分析 2-3 需求工程處理程序 Presenter: Away.
Advertisements

Chapter 10 馬可夫鏈 緒言 如果讀者仔細觀察日常生活中所發生的 諸多事件,必然會發現有些事件的未來 發展或演變與該事件現階段的狀況全然 無關,這種事件稱為獨立試行過程 (process of independent trials) ;而另一些 事件則會受到該事件現階段的狀況影響。
指導教授:應鳴雄 老師 組長: B 鄧光宏 組員: B 莊禮仲 B 陳品諺 B 林于迪 古弗瑞德交友網站系統 中華大學資訊管理學系九十九學年專題報告 1.
目的 「升學調查系統」,幫助某一學校調查並記錄 其歷屆畢業生報考研究所的情況、未來提供給 學弟妹作參考,以及學校推廣之相關工作。 功能需求 紀錄並追蹤歷屆畢業生升學的狀態 協助畢業生做升學輔導 未來提供學弟妹作查詢、參考 計算上榜率、前十大學校上榜率.
論文研讀 - 心得分享 The Diffusion of an Innovation Among Physicians Diffusion of Innovations 創新的擴散 淡江資管碩專二 江文傑 林忠毅 指導教授 戴敏育老師.
哲學系教師引用文獻分析.  圖資二 張碩真  圖資二 林苡舒  圖資二 呂蔚瑩  圖資二 張育榕  圖資二 阮佩琪  圖資二 黃恩瓊.
多媒體安全 Macros Examples Gamma.txt 報告學生:碩專 2A 王朝鵬 ( ) 指導教授:黃文楨 博士.
數位學習經驗分享 「 E 化教學教室與虛擬攝影棚」推廣經驗分享暨觀摩 高高屏活動 義守大學應用數學系郎正廉.
McGraw-Hill/Irwin © 2003 The McGraw-Hill Companies, Inc.,All Rights Reserved. 參 實驗法.
第十三章 卡方檢定. 學 習 目 標學 習 目 標學 習 目 標學 習 目 標 1. 學習何謂多項試驗 。 2. 學習如何將一群觀測資料與其期望之分配相比較 與檢定。 3. 學習如何檢定兩變數間是否獨立 。
Review of Chapter 3 - 已學過的 rules( 回顧 )- 朝陽科技大學 資訊管理系 李麗華 教授.
消費者物價指數反映生活成本。當消費者物價指數上升時,一般家庭需要花費更多的金錢才能維持相同的生活水準。經濟學家用物價膨脹(inflation)來描述一般物價持續上升的現象,而物價膨脹率(inflation rate)為物價水準的變動百分比。
Last modified 2004/02 An Introduction to SQL (Structured Query Language )
STAT0_corr1 二變數的相關性  變數之間的關係是統計研究上的一大目標  討論二分類變數的相關性,以列聯表來表示  討論二連續隨機變數時,可以作 x-y 散佈圖觀察它 們的關係強度  以相關係數來代表二者關係的強度.
McGraw-Hill/Irwin © 2003 The McGraw-Hill Companies, Inc.,All Rights Reserved. 肆 資料分析與表達.
WWW Surfing Technique 莊東穎 WWW Surfing Technique The Starting point w 自己的書籤 (Bookmark) w 熱門的綜合式網站,如 HiNet, SeedNet w Search Engine( 搜尋引擎 )
人文學期末報告 人文學期末報告 第四組 陳宥儒 溫知涵 林湘瑜 楊雅筑 李佳宸. 組員名單  圖資二 陳宥儒  圖資二 溫知涵  圖資二 林湘瑜  圖資二 楊雅筑  圖資二 李佳宸.
Department of Air-conditioning and Refrigeration Engineering/ National Taipei University of Technology 模糊控制設計使用 MATLAB 李達生.
EIP (Enterprise Info. Portal) 企業入口網站 EC Yu 研揚科技 Mar. 14th 2005.
參考文獻 補充說明. 參考文獻 一、文獻探討 二、文獻引用 一、文獻探討 (一)過程 1. 尋找、蒐集所欲研究領域中現有的文獻 2. 閱讀所選擇的文獻(宜做研究摘要並分門別 類加以彙整) 3. 發展理論架構作為進一步文獻尋找和探討的 參考 4. 發展議題(文獻探討之大綱)以統整、分析 相關文獻資料.
資源整合查詢系統. (2) 找尋資料時面臨的問題 1. 如何取得檢索結果的全文或相關資料 ? Ex: GoogleScholar, ISI SCI? 2. 如何看到參考文獻 (Citation, Reference) 的全文 ? 3. 該從那個資料庫開始查 ? 4. 如何分類儲存查詢結果 ? 5.
FGU LDT. FGU EIS 96 ‧ 8 ‧ 25 FGU LDT 佛光大學學習與數位科技學系.
第三部分:研究設計 ( 二): 研究工具的信效度 與研究效度 (第九章之第 306 頁 -308 頁;第四章)
3-3 使用幾何繪圖工具 Flash 的幾何繪圖工具包括線段工具 (Line Tool) 、橢圓形工具 (Oval Tool) 、多邊星形 工具 (Rectangle Tool) 3 種。這些工具畫出 來的幾何圖形包括了筆畫線條和填色區域, 將它們適當地組合加上有技巧地變形與配 色, 不但比鉛筆工具簡單,
Matlab Assignment Due Assignment 兩個 matlab 程式 : Eigenface : Eigenvector 和 eigenvalue 的應用. Fractal : Affine transform( rotation, translation,
探究教學法 (Inquiry Teaching Method)
論文研討 ( 一 ) B 組 課程簡介 劉美纓 / 尚榮安 / 胡凱傑 2009/09/17. 一、課程基本資料 科目名稱: ( 中文 ) 論文研討(一)B組 ( 英文 ) SEMINARS (I) 開課學期: 98 學年度第 1 學期 開課班級:企碩一 學 分 數: 2 學分 星期節次: 四 34.
第二章 供給與需求 中興大學會計學系 授課老師:簡立賢.
Ubiquitous News(Unews) 的設計與實作 指導教授:黃毅然 教授 學生:葉雅琳 系別:資訊工程學系.
McGraw-Hill/Irwin © 2003 The McGraw-Hill Companies, Inc.,All Rights Reserved. 參 資料蒐集的方法.
The 9th Asia Pacific Student Services Association Conference Power of youth: Developing Professionalism, Cooperative Learning and Social Responsibility.
面談的類型 結構化 非結構化 情境化 系列式 會談式 壓力式 評估式 而每一種皆可依下面的四種方式來分類:
1 透過 IT 電子商務和知識管 理應用之探討 指導老師:李富民 教授 報告者:許志傑 學號: 職 1A 報告日期 :97/01/14.
North Point Government Primary PM School 北角官立下午小學 應用 ‘ 基本能力學生評估 ’ 及 ‘ 網上學與教支援系統 ’ 經驗分享.
1 第六章 Blog 網誌 網誌已是 Web2.0 的最新指標. 2 教學目標  了解 Blog 的意義  了解 Blog 的功用  了解 RSS  能註冊 Blog 並加以使用.
Analysis of Variance (ANOVA) CH 13 變異數分析. What is ANOVA? n 檢定 3 個或 3 個以上的母體平均數是否相等的統計檢定 n 檢定多個母體平均數是否相同 n 比較大二、大三、大四學生實習滿意度是否一樣 ? ( 來 自相同的 population)
手機模擬機車事故黑盒子 指導教授 : 姚修慎 教授 李易璋 鍾明哲 黃靖宇.
歡迎新生入學. 選 課 說 明 95 學年第一學期 辦理科目抵免時間: 95 年 9 月 4 日至 95 年 9 月 7 日 加退選時間: 95 年 9 月 13 日至 9 月 25 日 本畫面僅供學生參考,若有更新皆以學校畫面 為準,請學生即早試試 本畫面僅供學生參考,若有更新皆以學校畫面 為準,請學生即早試試.
Structural Equation Modeling Chapter 1 模式存在與否之需,見仁見智; 但是,人無模式,就無決策 SEM 概論.
1 Introduction to Java Programming Lecture 2: Basics of Java Programming Spring 2008.
Section 4.2 Probability Models 機率模式. 由實驗看機率 實驗前先列出所有可能的實驗結果。 – 擲銅板:正面或反面。 – 擲骰子: 1~6 點。 – 擲骰子兩顆: (1,1),(1,2),(1,3),… 等 36 種。 決定每一個可能的實驗結果發生機率。 – 實驗後所有的實驗結果整理得到。
函式 Function Part.2 東海大學物理系‧資訊教育 施奇廷. 遞迴( Recursion ) 函式可以「呼叫自己」,這種動作稱為 「遞迴」 此程式的執行結果相當於陷入無窮迴圈, 無法停止(只能按 Ctrl-C ) 這給我們一個暗示:函式的遞迴呼叫可以 達到部分迴圈的效果.
JAVA 程式設計與資料結構 第二十章 Searching. Sequential Searching Sequential Searching 是最簡單的一種搜尋法,此演 算法可應用在 Array 或是 Linked List 此等資料結構。 Sequential Searching 的 worst-case.
演算法 8-1 最大數及最小數找法 8-2 排序 8-3 二元搜尋法.
網站流量分析工具 Google Analytics 指導老師:吳有龍 進修資管 4B B 林佩樺.
資訊理論 授課老師 : 陳建源 研究室 : 法 401 網站
逆向選擇和市場失調. 定義  資料不對稱 在交易其中,其中一方較對方有多些資料。  逆向選擇 出現在這個情況下,就是當買賣雙方隨意在 市場上交易,與比較主動交易者作交易為佳 。
Structural Equation Modeling Chapter 6 CFA 根據每個因素有多重指標,以減少 測量誤差並可建立問卷的構念效度 驗證性因素分析.
廣電新聞播報品質電腦化 評估系統之研發 國立政治大學 資訊科學系 指導教授:廖文宏 學生:蘇以暄.
Learning Method in Multilingual Speech Recognition Author : Hui Lin, Li Deng, Jasha Droppo Professor: 陳嘉平 Reporter: 許峰閤.
Chapter 10 m-way 搜尋樹與B-Tree
網路介紹及其運用 講師陳炯勳. 5-2 IP 協定 ( 一 ) IP 協定運作 (1) – 網路成員:主機 (Host) 與路由器 (Router) – 路由表 – 電報傳輸運作.
概念性產品企劃書 呂學儒 李政翰.
Building a knowledge base for MIS research: A meta-analysis of a systems success model Mark I Hwang, John C Windsor, Alan Pryor Information Resources Management.
Probability Distribution 機率分配 汪群超 12/12. 目的:產生具均等分配的數值 (Data) ,並以 『直方圖』的功能計算出數值在不同範圍內出現 的頻率,及繪製數值的分配圖,以反應出該 機率分配的特性。
1 © 2011 台灣培生教育出版 (Pearson Education Taiwan). 2 學習目標 1. 當面對可預測的變異性時,同步管理並改善供應鏈 中的供給。 2. 當面對可預測的變異性時,同步管理並改善供應鏈 中的需求。 3. 當面對可預測的變異性時,使用總體規劃將利潤最 大化。
無線通訊網路 Mac 層 TDM 通訊模式的操作與效能研究 專題生 : 林書弘、蔡逸祥、毛建翔、王政 華 指導教授 : 黃依賢.
論文研討 2 學分 授課教師:吳俊概. 第一節 論文發表的目的 第二節 論文發表的歷程 第三節 投稿過程 第四節 退稿處理 學術期刊論文的製作與發表.
1 Introduction to Java Programming Lecture 2: Basics of Java Programming Spring 2009.
ArcINFO &Geodatabase 由 ESRI 產生 1970 ArcINFO 一開始被設計在迷你電 腦上, 後來逐漸發展, 在 UNIX 系統上也能 執行, 直到今天, 已經可以在不同的平台上 運作.
INFORMATION RETRIEVAL AND EXTRACTION 作業: Program 1 第十四組 組員:林永峰、洪承雄、謝宗憲.
McGraw-Hill/Irwin © 2003 The McGraw-Hill Companies, Inc.,All Rights Reserved. 壹 企業研究導論.
( 計畫名稱 ) 簡 報 報告人: 計畫執行團隊: 中華民國九十五年十一月二十四 、 二十五日 教育部顧問室奈米科技人才培育計畫 96 年度期末成果報告暨 97 年度工作規劃.
全國奈米科技人才培育推動計畫辦公室 中北區奈米科技K -12 教育發展中心計畫 簡 報 報告人:楊鏡堂教授 計畫執行單位:國立清華大學動力機械工程學系 計畫種子學校:教育部顧問室 94 年度奈米科技人才培育先導型計畫年度成果報告 中華民國九十四年十月十四日.
實體關係模型 (ER Model).
CH 14-可靠度工程之數學基礎 探討重點 失效時間之機率分配 指數模式之可靠度工程.
Chapter 12 Estimation 統計估計. Inferential statistics Parametric statistics 母數統計 ( 母體為常態或 大樣本 ) 假設檢定 hypothesis testing  對有關母體參數的假設,利用樣本資料,決定接受或 不接受該假設的方法.
Exploring Mediation Between Environmental and Structural Attributes: The Penetration of Communication Technologies in Manufacturing Organizations 陳志凡
Software Engineering for Digital Home 單元 3 :軟體設計 Chapter 3-6 – Specifying Interfaces.
Presentation transcript:

A Classification Approach for Movie Recommender System 指導教授:黃三益 老師 學生: M 黃于珊 M 李界寬 M 程尚文

Agenda Introduction Motivation and background Determination of data set The Data Mining Procedure Conclusion and Limitation

1.MOTIVATION AND BACKGROUND 2.DETERMINATION OF DATA SET INTRODUCTION

Motivation and background Dataset 來源自 GroupLens ◦ (Research lab in the Department of Computer Science and Engineering at the University of Minnesota ; 線上電影推薦系統 -MovieLensMovieLens ( ) ◦ 加入會員,評價隨機選出的數部電影,即 可享受到網站給予的五部電影之推薦,並 附上預測使用者喜好該電影的程度。 We all loves movies Find the rule

Determination of data set 使用 MovieLens 目前提供兩種 Datasets 的其中一種。 ◦ 內容包含 1682 部電影, 943 使用者,共 100,000 ratings 。 ◦ 提供足夠的樣本規模,讓我們可以適當的 建立和測試模型。

1.DATA MINING PROCEDURE:10 STEP 2. CONCLUSION AND LIMITATION The Data Mining Procedure

Step 1. Translate the business problem into a data mining problem 電影種類與數目相當繁多,如何在眾多 的電影中可以快速的找到符合自己偏好 的電影 ? ◦ 電影推薦系統 ◦ 縮短搜尋時間 ◦ Find the Rule  年齡、職業、性別等之偏好那些種類的電影 ◦ Potential customers

Step 2. Select appropriate data 線上電影推薦系統 -MovieLens Research lab in the Department of Computer Science and Engineering at the University of Minnesota ; 資料來源自加入其網站的會員對電影所作的評價與 會員的相關個人資料 其所提供的 Dataset 內容包含 1682 部電影, 943 使 用者,共 100,000 ratings 。

Step 3. Get to know the data(1/2) This data has been cleaned up ◦ users who had less than 20 ratings ◦ did not have complete demographic information

Step 3. Get to know the data(2/2) Attribute nameDescriptionDomain Age User 年齡 1: “Under 18” , 18: "18-24“ 25: “25-34” , 35: "35-44" 45: “45-49” , 50: "50-55“ 56: "56+” Gender User 性別 "M" 代表男性, "F" 代表女性 Occupation User 職業 0: "other" or not specified 1: “academic/educator” 2: "artist" 3: “clerical/admin” 4: "college/grad student“ And so on…… Movie Kind 電影類型 * Action * Adventure * Animation * Children‘s * Comedy * Crime * Documentary * Drama * Fantasy * Film-Noir * Horror * Musical * Mystery * Romance * Sci-Fi * Thriller * War * Western

Step 4. Create a model set Data Source – MovieLens (The GroupLens Research Project at the University of Minnesota) Data Characteristics: – 100,000 ratings (1-5) from 943 users on 1682 movies – Each user has rated at least 20 movies – seven-month period from September 19th, 1997 through April 22nd, 1998 – With complete demographic information

Step 5. Fix problems with the data Variable with too many values ◦ Movie kind ◦ Occupation ◦ We do not consider variables such as ZipCode and rate

Step 6.Transform data to bring information to the surface We skip this step due to the uselessness of transforming data into different formats

Step 7. Build models Data mining tool: ◦ Weka Explorer Classifier ◦ Decision tree methods ◦ using C4.5 algorithm  Performs well on both accuracy and speed

Weka: the software

Step8. Assess Model Confusion Matrix Table 1. Confusion Matrix of Classifier C4.5 from Training Set The Kind of MovieRomanceThrillerWar Romance2,5767,46538 Thriller1,74215,64353 War1,0956,42890

Step8. Assess Model Detailed Accuracy Table 2. Detailed Accuracy of Classifier C4.5 from Training Set ClassTP RateFP RatePrecisionRecallF-Measure Romance Thriller War

Step8. Assess Model Other Information Table 3. The Results of Classifier C4.5 from Training Set Correctly Classified Instances 18,309Rate : % Incorrectly Classified Instances 16,821Rate : % Kappa statistic Mean absolute error Root mean squared error Relative absolute error % Root relative squared error % Total Number of Instances 35,130

Step 8. Assess Model Decision Tree ◦ Number of Leaves : 118 ◦ Size of the tree : 216

Step 9. Deploy Model It’s difficult to deploy, because ◦ Computer’s resources are not enough ◦ Difficult to implementation

Conclusion and Limitation Classification Approach : C4.5 → Decision Tree Data Set : 35,130 data Limitation ◦ Hardware and software don’t support enough to mining more data to find more interest and complete rules.

Thanks For Your Attention.