A Classification Approach for Movie Recommender System 指導教授：黃三益老師學生： M964020007 黃于珊 M964020011 李界寬 M964020022 程尚文.

Slides:

Advertisements

Similar presentations

Software Engineering for Digital Home 單元 2 ：軟體處理程序與需求分析 2-3 需求工程處理程序 Presenter: Away.

Advertisements

Chapter 10 馬可夫鏈緒言如果讀者仔細觀察日常生活中所發生的諸多事件，必然會發現有些事件的未來發展或演變與該事件現階段的狀況全然無關，這種事件稱為獨立試行過程 (process of independent trials) ；而另一些事件則會受到該事件現階段的狀況影響。

指導教授：應鳴雄老師組長： B 鄧光宏組員： B 莊禮仲 B 陳品諺 B 林于迪古弗瑞德交友網站系統中華大學資訊管理學系九十九學年專題報告 1.

目的「升學調查系統」，幫助某一學校調查並記錄其歷屆畢業生報考研究所的情況、未來提供給學弟妹作參考，以及學校推廣之相關工作。功能需求紀錄並追蹤歷屆畢業生升學的狀態協助畢業生做升學輔導未來提供學弟妹作查詢、參考計算上榜率、前十大學校上榜率.

論文研讀 - 心得分享 The Diffusion of an Innovation Among Physicians Diffusion of Innovations 創新的擴散淡江資管碩專二江文傑林忠毅指導教授戴敏育老師.

哲學系教師引用文獻分析.  圖資二張碩真  圖資二林苡舒  圖資二呂蔚瑩  圖資二張育榕  圖資二阮佩琪  圖資二黃恩瓊.

多媒體安全 Macros Examples Gamma.txt 報告學生：碩專 2A 王朝鵬 ( ) 指導教授：黃文楨博士.

數位學習經驗分享「 E 化教學教室與虛擬攝影棚」推廣經驗分享暨觀摩高高屏活動義守大學應用數學系郎正廉.

McGraw-Hill/Irwin © 2003 The McGraw-Hill Companies, Inc.,All Rights Reserved. 參實驗法.

第十三章卡方檢定. 學習目標學習目標學習目標學習目標 1. 學習何謂多項試驗。 2. 學習如何將一群觀測資料與其期望之分配相比較與檢定。 3. 學習如何檢定兩變數間是否獨立。

Review of Chapter 3 - 已學過的 rules( 回顧 )- 朝陽科技大學資訊管理系李麗華教授.

消費者物價指數反映生活成本。當消費者物價指數上升時，一般家庭需要花費更多的金錢才能維持相同的生活水準。經濟學家用物價膨脹（inflation）來描述一般物價持續上升的現象，而物價膨脹率（inflation rate）為物價水準的變動百分比。

Last modified 2004/02 An Introduction to SQL (Structured Query Language )

STAT0_corr1 二變數的相關性  變數之間的關係是統計研究上的一大目標  討論二分類變數的相關性，以列聯表來表示  討論二連續隨機變數時，可以作 x-y 散佈圖觀察它們的關係強度  以相關係數來代表二者關係的強度.

McGraw-Hill/Irwin © 2003 The McGraw-Hill Companies, Inc.,All Rights Reserved. 肆資料分析與表達.

WWW Surfing Technique 莊東穎 WWW Surfing Technique The Starting point w 自己的書籤 (Bookmark) w 熱門的綜合式網站，如 HiNet, SeedNet w Search Engine( 搜尋引擎 )

人文學期末報告人文學期末報告第四組陳宥儒溫知涵林湘瑜楊雅筑李佳宸. 組員名單  圖資二陳宥儒  圖資二溫知涵  圖資二林湘瑜  圖資二楊雅筑  圖資二李佳宸.

Department of Air-conditioning and Refrigeration Engineering/ National Taipei University of Technology 模糊控制設計使用 MATLAB 李達生.

EIP (Enterprise Info. Portal) 企業入口網站 EC Yu 研揚科技 Mar. 14th 2005.

參考文獻補充說明. 參考文獻一、文獻探討二、文獻引用一、文獻探討（一）過程 1. 尋找、蒐集所欲研究領域中現有的文獻 2. 閱讀所選擇的文獻（宜做研究摘要並分門別類加以彙整） 3. 發展理論架構作為進一步文獻尋找和探討的參考 4. 發展議題（文獻探討之大綱）以統整、分析相關文獻資料.

資源整合查詢系統. (2) 找尋資料時面臨的問題 1. 如何取得檢索結果的全文或相關資料 ? Ex: GoogleScholar, ISI SCI? 2. 如何看到參考文獻 (Citation, Reference) 的全文 ? 3. 該從那個資料庫開始查 ? 4. 如何分類儲存查詢結果 ? 5.

FGU LDT. FGU EIS 96 ‧ 8 ‧ 25 FGU LDT 佛光大學學習與數位科技學系.

第三部分：研究設計 ( 二）：研究工具的信效度與研究效度（第九章之第 306 頁 -308 頁；第四章）

3-3 使用幾何繪圖工具 Flash 的幾何繪圖工具包括線段工具 (Line Tool) 、橢圓形工具 (Oval Tool) 、多邊星形工具 (Rectangle Tool) 3 種。這些工具畫出來的幾何圖形包括了筆畫線條和填色區域, 將它們適當地組合加上有技巧地變形與配色, 不但比鉛筆工具簡單,

Matlab Assignment Due Assignment 兩個 matlab 程式 : Eigenface ： Eigenvector 和 eigenvalue 的應用. Fractal ： Affine transform( rotation, translation,

探究教學法 (Inquiry Teaching Method)

論文研討 ( 一 ) B 組課程簡介劉美纓 / 尚榮安 / 胡凱傑 2009/09/17. 一、課程基本資料科目名稱： ( 中文 ) 論文研討（一）Ｂ組 ( 英文 ) SEMINARS (I) 開課學期： 98 學年度第 1 學期開課班級：企碩一學分數： 2 學分星期節次：四 34.

第二章供給與需求中興大學會計學系授課老師：簡立賢.

Ubiquitous News(Unews) 的設計與實作指導教授：黃毅然教授學生：葉雅琳系別：資訊工程學系.

McGraw-Hill/Irwin © 2003 The McGraw-Hill Companies, Inc.,All Rights Reserved. 參資料蒐集的方法.

The 9th Asia Pacific Student Services Association Conference Power of youth: Developing Professionalism, Cooperative Learning and Social Responsibility.

面談的類型結構化非結構化情境化系列式會談式壓力式評估式而每一種皆可依下面的四種方式來分類：

1 透過 IT 電子商務和知識管理應用之探討指導老師：李富民教授報告者：許志傑學號：職 1A 報告日期 :97/01/14.

North Point Government Primary PM School 北角官立下午小學應用 ‘ 基本能力學生評估 ’ 及 ‘ 網上學與教支援系統 ’ 經驗分享.

1 第六章 Blog 網誌網誌已是 Web2.0 的最新指標. 2 教學目標  了解 Blog 的意義  了解 Blog 的功用  了解 RSS  能註冊 Blog 並加以使用.

Analysis of Variance (ANOVA) CH 13 變異數分析. What is ANOVA? n 檢定 3 個或 3 個以上的母體平均數是否相等的統計檢定 n 檢定多個母體平均數是否相同 n 比較大二、大三、大四學生實習滿意度是否一樣 ? ( 來自相同的 population)

手機模擬機車事故黑盒子指導教授 : 姚修慎教授李易璋鍾明哲黃靖宇.

歡迎新生入學. 選課說明 95 學年第一學期辦理科目抵免時間： 95 年 9 月 4 日至 95 年 9 月 7 日加退選時間： 95 年 9 月 13 日至 9 月 25 日本畫面僅供學生參考，若有更新皆以學校畫面為準，請學生即早試試本畫面僅供學生參考，若有更新皆以學校畫面為準，請學生即早試試.

Structural Equation Modeling Chapter 1 模式存在與否之需，見仁見智；但是，人無模式，就無決策 SEM 概論.

1 Introduction to Java Programming Lecture 2: Basics of Java Programming Spring 2008.

Section 4.2 Probability Models 機率模式. 由實驗看機率實驗前先列出所有可能的實驗結果。 – 擲銅板：正面或反面。 – 擲骰子： 1~6 點。 – 擲骰子兩顆： (1,1),(1,2),(1,3),… 等 36 種。決定每一個可能的實驗結果發生機率。 – 實驗後所有的實驗結果整理得到。

函式 Function Part.2 東海大學物理系‧資訊教育施奇廷. 遞迴（ Recursion ）函式可以「呼叫自己」，這種動作稱為「遞迴」此程式的執行結果相當於陷入無窮迴圈，無法停止（只能按 Ctrl-C ）這給我們一個暗示：函式的遞迴呼叫可以達到部分迴圈的效果.

JAVA 程式設計與資料結構第二十章 Searching. Sequential Searching Sequential Searching 是最簡單的一種搜尋法，此演算法可應用在 Array 或是 Linked List 此等資料結構。 Sequential Searching 的 worst-case.

演算法 8-1 最大數及最小數找法 8-2 排序 8-3 二元搜尋法.

網站流量分析工具 Google Analytics 指導老師：吳有龍進修資管 4B B 林佩樺.

資訊理論授課老師 : 陳建源研究室 : 法 401 網站

逆向選擇和市場失調. 定義  資料不對稱在交易其中，其中一方較對方有多些資料。  逆向選擇出現在這個情況下，就是當買賣雙方隨意在市場上交易，與比較主動交易者作交易為佳。

Structural Equation Modeling Chapter 6 CFA 根據每個因素有多重指標，以減少測量誤差並可建立問卷的構念效度驗證性因素分析.

廣電新聞播報品質電腦化評估系統之研發國立政治大學資訊科學系指導教授：廖文宏學生：蘇以暄.

Learning Method in Multilingual Speech Recognition Author : Hui Lin, Li Deng, Jasha Droppo Professor: 陳嘉平 Reporter: 許峰閤.

Chapter 10 m-way 搜尋樹與B-Tree

網路介紹及其運用講師陳炯勳. 5-2 IP 協定 ( 一 ) IP 協定運作 (1) – 網路成員：主機 (Host) 與路由器 (Router) – 路由表 – 電報傳輸運作.

概念性產品企劃書呂學儒李政翰.

Building a knowledge base for MIS research: A meta-analysis of a systems success model Mark I Hwang, John C Windsor, Alan Pryor Information Resources Management.

Probability Distribution 機率分配汪群超 12/12. 目的：產生具均等分配的數值 (Data) ，並以『直方圖』的功能計算出數值在不同範圍內出現的頻率，及繪製數值的分配圖，以反應出該機率分配的特性。

1 © 2011 台灣培生教育出版 (Pearson Education Taiwan). 2 學習目標 1. 當面對可預測的變異性時，同步管理並改善供應鏈中的供給。 2. 當面對可預測的變異性時，同步管理並改善供應鏈中的需求。 3. 當面對可預測的變異性時，使用總體規劃將利潤最大化。

無線通訊網路 Mac 層 TDM 通訊模式的操作與效能研究專題生 : 林書弘、蔡逸祥、毛建翔、王政華指導教授 : 黃依賢.

論文研討 2 學分授課教師：吳俊概. 第一節論文發表的目的第二節論文發表的歷程第三節投稿過程第四節退稿處理學術期刊論文的製作與發表.

1 Introduction to Java Programming Lecture 2: Basics of Java Programming Spring 2009.

ArcINFO &Geodatabase 由 ESRI 產生 1970 ArcINFO 一開始被設計在迷你電腦上, 後來逐漸發展, 在 UNIX 系統上也能執行, 直到今天, 已經可以在不同的平台上運作.

INFORMATION RETRIEVAL AND EXTRACTION 作業： Program 1 第十四組組員：林永峰、洪承雄、謝宗憲.

McGraw-Hill/Irwin © 2003 The McGraw-Hill Companies, Inc.,All Rights Reserved. 壹企業研究導論.

( 計畫名稱 ) 簡報報告人：計畫執行團隊：中華民國九十五年十一月二十四、二十五日教育部顧問室奈米科技人才培育計畫 96 年度期末成果報告暨 97 年度工作規劃.

全國奈米科技人才培育推動計畫辦公室中北區奈米科技Ｋ -12 教育發展中心計畫簡報報告人：楊鏡堂教授計畫執行單位：國立清華大學動力機械工程學系計畫種子學校：教育部顧問室 94 年度奈米科技人才培育先導型計畫年度成果報告中華民國九十四年十月十四日.

實體關係模型 (ER Model).

CH 14-可靠度工程之數學基礎探討重點失效時間之機率分配指數模式之可靠度工程.

Chapter 12 Estimation 統計估計. Inferential statistics Parametric statistics 母數統計 ( 母體為常態或大樣本 ) 假設檢定 hypothesis testing  對有關母體參數的假設，利用樣本資料，決定接受或不接受該假設的方法.

Exploring Mediation Between Environmental and Structural Attributes: The Penetration of Communication Technologies in Manufacturing Organizations 陳志凡

Software Engineering for Digital Home 單元 3 ：軟體設計 Chapter 3-6 – Specifying Interfaces.

Presentation transcript:

A Classification Approach for Movie Recommender System 指導教授：黃三益老師學生： M 黃于珊 M 李界寬 M 程尚文

Agenda Introduction Motivation and background Determination of data set The Data Mining Procedure Conclusion and Limitation

1.MOTIVATION AND BACKGROUND 2.DETERMINATION OF DATA SET INTRODUCTION

Motivation and background Dataset 來源自 GroupLens ◦ (Research lab in the Department of Computer Science and Engineering at the University of Minnesota ; 線上電影推薦系統 -MovieLensMovieLens ( ) ◦ 加入會員，評價隨機選出的數部電影，即可享受到網站給予的五部電影之推薦，並附上預測使用者喜好該電影的程度。 We all loves movies Find the rule

Determination of data set 使用 MovieLens 目前提供兩種 Datasets 的其中一種。 ◦ 內容包含 1682 部電影， 943 使用者，共 100,000 ratings 。 ◦ 提供足夠的樣本規模，讓我們可以適當的建立和測試模型。

1.DATA MINING PROCEDURE:10 STEP 2. CONCLUSION AND LIMITATION The Data Mining Procedure

Step 1. Translate the business problem into a data mining problem 電影種類與數目相當繁多，如何在眾多的電影中可以快速的找到符合自己偏好的電影 ? ◦ 電影推薦系統 ◦ 縮短搜尋時間 ◦ Find the Rule  年齡、職業、性別等之偏好那些種類的電影 ◦ Potential customers

Step 2. Select appropriate data 線上電影推薦系統 -MovieLens Research lab in the Department of Computer Science and Engineering at the University of Minnesota ; 資料來源自加入其網站的會員對電影所作的評價與會員的相關個人資料其所提供的 Dataset 內容包含 1682 部電影， 943 使用者，共 100,000 ratings 。

Step 3. Get to know the data(1/2) This data has been cleaned up ◦ users who had less than 20 ratings ◦ did not have complete demographic information

Step 3. Get to know the data(2/2) Attribute nameDescriptionDomain Age User 年齡 1: “Under 18” ， 18: "18-24“ 25: “25-34” ， 35: "35-44" 45: “45-49” ， 50: "50-55“ 56: "56+” Gender User 性別 "M" 代表男性， "F" 代表女性 Occupation User 職業 0: "other" or not specified 1: “academic/educator” 2: "artist" 3: “clerical/admin” 4: "college/grad student“ And so on…… Movie Kind 電影類型 * Action * Adventure * Animation * Children‘s * Comedy * Crime * Documentary * Drama * Fantasy * Film-Noir * Horror * Musical * Mystery * Romance * Sci-Fi * Thriller * War * Western

Step 4. Create a model set Data Source – MovieLens (The GroupLens Research Project at the University of Minnesota) Data Characteristics: – 100,000 ratings (1-5) from 943 users on 1682 movies – Each user has rated at least 20 movies – seven-month period from September 19th, 1997 through April 22nd, 1998 – With complete demographic information

Step 5. Fix problems with the data Variable with too many values ◦ Movie kind ◦ Occupation ◦ We do not consider variables such as ZipCode and rate

Step 6.Transform data to bring information to the surface We skip this step due to the uselessness of transforming data into different formats

Step 7. Build models Data mining tool: ◦ Weka Explorer Classifier ◦ Decision tree methods ◦ using C4.5 algorithm  Performs well on both accuracy and speed

Weka: the software

Step8. Assess Model Confusion Matrix Table 1. Confusion Matrix of Classifier C4.5 from Training Set The Kind of MovieRomanceThrillerWar Romance2,5767,46538 Thriller1,74215,64353 War1,0956,42890

Step8. Assess Model Detailed Accuracy Table 2. Detailed Accuracy of Classifier C4.5 from Training Set ClassTP RateFP RatePrecisionRecallF-Measure Romance Thriller War

Step8. Assess Model Other Information Table 3. The Results of Classifier C4.5 from Training Set Correctly Classified Instances 18,309Rate ： % Incorrectly Classified Instances 16,821Rate ： % Kappa statistic Mean absolute error Root mean squared error Relative absolute error % Root relative squared error % Total Number of Instances 35,130

Step 8. Assess Model Decision Tree ◦ Number of Leaves ： 118 ◦ Size of the tree ： 216

Step 9. Deploy Model It’s difficult to deploy, because ◦ Computer’s resources are not enough ◦ Difficult to implementation

Conclusion and Limitation Classification Approach : C4.5 → Decision Tree Data Set : 35,130 data Limitation ◦ Hardware and software don’t support enough to mining more data to find more interest and complete rules.

Thanks For Your Attention.