Lazy Associative Classification

Slides:



Advertisements
Similar presentations
Transform-domain Wyner-Ziv Codec for Video 教師 : 楊士萱 老師 學生 : 李桐照 同學.
Advertisements

1 Mining Relationships Among Interval-based Events for Classification Dhaval Patel 、 Wynne Hsu Mong 、 Li Lee SIGMOD 08.
McGraw-Hill/Irwin © 2003 The McGraw-Hill Companies, Inc.,All Rights Reserved. 肆 資料分析與表達.
布林代數的應用--- 全及項(最小項)和全或項(最大項)展開式
第七章 抽樣與抽樣分配 蒐集統計資料最常見的方式是抽查。這 牽涉到兩個問題: 抽出的樣本是否具有代表性?是否能反應出母體的特徵?
:Word Morphing ★★☆☆☆ 題組: Problem Set Archive with Online Judge 題號: 10508:word morphing 解題者:楊家豪 解題日期: 2006 年 5 月 21 日 題意: 第一行給你兩個正整數, 第一個代表下面會出現幾個字串,
Section 1.2 Describing Distributions with Numbers 用數字描述分配.
“Rule” By OX. By Check CREATE TABLE 員工薪資 ( 編號 int IDENTITY PRIMARY KEY, 薪資 smallmoney, CHECK ( 薪資 > 0 AND 薪資
Using High and Low Level Communication in Agile Method Presenter: 花金地.
McGraw-Hill/Irwin © 2003 The McGraw-Hill Companies, Inc.,All Rights Reserved. 參 實驗法.
1 Simple Regression ( 簡單迴歸分析 ) Social Research Methods 2109 & 6507 Spring, 2006 March 8, 9, 13, 2006.
亂數產生器安全性評估 之統計測試 SEC HW7 姓名:翁玉芬 學號:
Stat_chi21 類別資料 (Categorical data) 一種質性資料, 其觀察值可歸類於數個不相交的項目內, 例 : 性別, 滿意度, …, 一般以各項的統計次數表現. 分析此種資料,通常用卡方檢定 類別資料分析 卡方檢定 卡方檢定基本理論 一個含有 k 項的試驗,設 p i.
研究法簡介 何明洲 中山醫學大學心理系. Single Factor – Two Levels Independent groups design: use random assignment –IV, manipulated –Between-subject Matched groups design:
: ShellSort ★★☆☆☆ 題組: Problem D 題號: 10152: ShellSort 解題者:林一帆 解題日期: 2006 年 4 月 10 日 題意:烏龜王國的烏龜總是一隻一隻疊在一起。唯一改變烏龜位置 的方法為:一隻烏龜爬出他原來的位置,然後往上爬到最上方。給 你一堆烏龜原來排列的順序,以及我們想要的烏龜的排列順序,你.
第 4 章 迴歸的同步推論與其他主題.
1 政大公企中心產業人才投資課程 -- 企業決策分析方法 -- 黃智聰 政大公企中心產業人才投資課程 課程名稱:企業決策分析方法 授課老師:黃智聰 授課內容:利用分公司之追蹤資料進行企業決策分析 參考書目: Hill, C. R., W. E. Griffiths, and G. G. Judge,
Structural Equation Modeling Chapter 7 觀察變數路徑分析=路徑分析 觀察變數路徑分析.
Section 2.2 Correlation 相關係數. 散佈圖 1 散佈圖 2 散佈圖的盲點 兩座標軸的刻度不同,散佈圖的外觀呈 現的相聯性強度,會有不同的感受。 散佈圖 2 相聯性看起來比散佈圖 1 來得強。 以統計數字相關係數做為客觀標準。
Lazy Associative Classification By Adriano Veloso,Wagner Meira Jr., Mohammad J. Zaki Presented by: Fariba Mahdavifard Department of Computing Science University.
8.1 何謂高度平衡二元搜尋樹 8.2 高度平衡二元搜尋樹的加入 8.3 高度平衡二元搜尋樹的刪除
McGraw-Hill/Irwin © 2003 The McGraw-Hill Companies, Inc.,All Rights Reserved. 肆 資料分析與表達.
基礎物理總論 基礎物理總論 熱力學與統計力學(三) Statistical Mechanics 東海大學物理系 施奇廷.
1 政治大學東亞所選修 -- 計量分析與中國大陸研究黃智聰 政治大學東亞所選修 課程名稱:計量分析與中國大陸研究 (量化分析) 授課老師:黃智聰 授課內容:時間序列與橫斷面資料的共用 參考書目: Hill, C. R., W. E. Griffiths, and G. G. Judge, (2001),
Monte Carlo Simulation Part.2 Metropolis Algorithm Dept. Phys. Tunghai Univ. Numerical Methods C. T. Shih.
Role of specific hemagglutinin amino acids in the immunogenicity and protection of H5N1 influenza virus vaccines Hoffmann E et al(2005)PNAS vol
1 Part IC. Descriptive Statistics Multivariate Statistics ( 多變量統計 ) Focus: Multiple Regression ( 多元迴歸、複迴歸 ) Spring 2007.
2009fallStat_samplec.i.1 Chap10 Sampling distribution (review) 樣本必須是隨機樣本 (random sample) ,才能代表母體 Sample mean 是一隨機變數,隨著每一次抽出來的 樣本值不同,它的值也不同,但會有規律性 為了要知道估計的精確性,必需要知道樣本平均數.
Chapter 13 塑模靜態觀點:物件圖 Static View : Object Diagram.
1 第十四章 職業道德 職業道德是一個人在行業工作內表現的道德 情操. 2 職業道德貴在實踐 3 學習目標  了解職業道德的意義  了解職業道得的重要性  遵守職業道德規範.
第二章 供給與需求 中興大學會計學系 授課老師:簡立賢.
: Happy Number ★ ? 題組: Problem Set Archive with Online Judge 題號: 10591: Happy Number 解題者:陳瀅文 解題日期: 2006 年 6 月 6 日 題意:判斷一個正整數 N 是否為 Happy Number.
: Fast and Easy Data Compressor ★★☆☆☆ 題組: Problem Set Archive with Online Judge 題號: 10043: Fast and Easy Data Compressor 解題者:葉貫中 解題日期: 2007 年 3.
選舉制度、政府結構與政 黨體系 Cox (1997) Electoral institutions, cleavage strucuters, and the number of parties.
WEKA Evaluation of WEKA Waikato Environment for Knowledge Analysis Presented By: Manoj Wartikar & Sameer Sagade.
CH 15- 元件可靠度之驗證  驗證方法  指數模式之可靠度驗證  韋式模式之可靠度驗證  對數常態模式之可靠度驗證  失效數為零時之可靠度估算  各種失效模式之應用.
: Problem A : MiniMice ★★★★☆ 題組: Contest Archive with Online Judge 題號: 11411: Problem A : MiniMice 解題者:李重儀 解題日期: 2008 年 9 月 3 日 題意:簡單的說,題目中每一隻老鼠有一個編號.
Distributed Video Coding. Outline Distributed video coding Lossless compression Lossy compression Low complexity video encoding Distributed image coding.
:Nuts for nuts..Nuts for nuts.. ★★★★☆ 題組: Problem Set Archive with Online Judge 題號: 10944:Nuts for nuts.. 解題者:楊家豪 解題日期: 2006 年 2 月 題意: 給定兩個正整數 x,y.
政治大學公企中心必修課-- 社會科學研究方法(量化分析)--黃智聰
宏觀經濟學之均衡點. 定義  非自願性失業 當工人預備以現有的名義工資水平去接受工作,但 未能找到工作時,這種稱為非自願性失業。  通貨膨脹 所有名義價格持續上升。
: Beautiful Numbers ★★★★☆ 題組: Problem Set Archive with Online Judge 題號: 11472: Beautiful Numbers 解題者:邱經達 解題日期: 2011 年 5 月 5 日 題意: 若一個 N 進位的數用到該.
Section 4.2 Probability Models 機率模式. 由實驗看機率 實驗前先列出所有可能的實驗結果。 – 擲銅板:正面或反面。 – 擲骰子: 1~6 點。 – 擲骰子兩顆: (1,1),(1,2),(1,3),… 等 36 種。 決定每一個可能的實驗結果發生機率。 – 實驗後所有的實驗結果整理得到。
Teacher : Ing-Jer Huang TA : Chien-Hung Chen 2015/6/25 Course Embedded Systems : Principles and Implementations Weekly Preview Question CH 2.4~CH 2.6 &
JAVA 程式設計與資料結構 第二十章 Searching. Sequential Searching Sequential Searching 是最簡單的一種搜尋法,此演 算法可應用在 Array 或是 Linked List 此等資料結構。 Sequential Searching 的 worst-case.
Density and control Reproduction curve 劉耀仁. Density :濃度、密度 ► 1 號區是 High-Density 區、 2 號是 Middle-density 區、 3 號區是 Low- Density 區。 ► 計算反射率( R )或透射率( T )
逆向選擇和市場失調. 定義  資料不對稱 在交易其中,其中一方較對方有多些資料。  逆向選擇 出現在這個情況下,就是當買賣雙方隨意在 市場上交易,與比較主動交易者作交易為佳 。
: Flip Sort ★★☆☆☆ 題組: Problem Set Archive with Online Judge 題號: 10327: Flip Sort 解題者:歐子揚 解題日期: 2010 年 2 月 26 日 題意:在這個問題中使用一種排序方式 (Flip) ,意思就是 只能交換相鄰的.
845: Gas Station Numbers ★★★ 題組: Problem Set Archive with Online Judge 題號: 845: Gas Station Numbers. 解題者:張維珊 解題日期: 2006 年 2 月 題意: 將輸入的數字,經過重新排列組合或旋轉數字,得到比原先的數字大,
Chapter 10 m-way 搜尋樹與B-Tree
時間序列 Chap7 1 Chap 7 Decomposition method 4 components : Trend (TR t ) :長期向上或向下的移動趨勢 Seasonal variation (SN t ) :以年為基礎的變動原型 Cycle (CL t ) :在 2 到 10 年中向上或向下的改變.
Data Mining: A Closer Look Chapter Data Mining Strategies.
: Sum-up the Primes ★★★★☆ 題組: Problem A 題號: 10419: Sum-up the Primes 解題者:林一帆 解題日期: 2006 年 5 月 15 日 題意: 評斷一個給予的數字是否是由給予個數 的質數所組成的.
2005/7 Linear system-1 The Linear Equation System and Eliminations.
第三章 涉入理論.
連續隨機變數 連續變數:時間、分數、重量、……
自我概念與自我效能 張利中. 我 (self) 是人格的主體 我傷心我要! 我很痛我沒錯! 不公平我付出! 看不起人?我不爽! 我怎麼哭了?幫幫我 為什麼不理我?我錯了 我很差嗎?我很棒!
協助孩子從閱讀學習英文 吳敏而 香港教育學院 家長的責任   安排學習空間   安排學習材料   安排學習時間   陪孩子   關懷孩子   鼓勵孩子.
Regression 相關 –Cross table –Bivariate –Contingency Cofficient –Rank Correlation 簡單迴歸 多元迴歸.
牽涉兩個變數的 Data Table 汪群超 11/1/98. Z=-X 2 +4X-Y 2 +6Y-7 觀察 Z 值變化的 X 範圍 觀察 Z 值變化的 Y 範圍.
:Rings and Glue ★★☆☆☆ 題組: Problem Set Archive with Online Judge 題號: 10301: Rings and Glue 解題者:施博修 解題日期: 2011 年 5 月 18 日 題意:小約翰有了個大麻煩,他不小心將 rings.
幼兒行為觀察與記錄 第八章 事件取樣法.
Chapter 12 Estimation 統計估計. Inferential statistics Parametric statistics 母數統計 ( 母體為常態或 大樣本 ) 假設檢定 hypothesis testing  對有關母體參數的假設,利用樣本資料,決定接受或 不接受該假設的方法.
McGraw-Hill/Irwin © 2003 The McGraw-Hill Companies, Inc.,All Rights Reserved. 肆 資料分析與表達.
青少年認知發展.
啤酒遊戲- 供應鍊模擬 Dr. CK Farn 2006 Spring. 中央大學。范錚強 2 模擬設定 過度簡化的供應鍊 銷售桶裝啤酒 角色 工廠(倉庫) 配銷商 大盤商 零售商.
1 Query Optimization for Inter Document Relationships in XML Structured Document Radha Senthilkumar, A. Kannan, D.Vimala, M. Bhuvaneswari Department of.
Asus WL-500GP OS/Platform/Environment Introduction.
Packet Classification Using Dynamically Generated Decision Trees
Presentation transcript:

Lazy Associative Classification A. Veloso, W. M. Jr., and M. J. Zaki ICDM 2006 Advisor: Dr. Koh Jia-Ling Speaker: Liu Yu-Jiun Date: 2007/3/8

Outline Introduction Information Gain Decision Tree Eager Associative Classifier DT v.s. EAC Lazy Associative Classifier LAC v.s. EAC Experiment

Introduction Classification problem Models of classification Decision Tree Associative Classifier Neural Network Genetic Algorithm Lazy association classifier DT缺乏宏觀的相關性 (local) AC有可能產生太多的rule (global) LAC希望保留AC的準確度且不會產生太多的規則 Lazy的意思是force在有用的features上

Information gain S: any subset of training instances. si: the # of instances with class ci. |S|: the total # of training instance. : the probability of class ci in S. : the entropy of S. : information gain

Decision Tree A DT is built using a greedy, recursive splitting strategy. Each internal node is split according to the information gain. One rule per leaf.

Example

Decision Tree Classifier {outlook=sunny and humidity=high  play=no} {outlook=sunny, temperature=cool, humidity=high, windy=false}

Eager Associative Classifier

CARs from EAC {windy=false and temperature=cool  play=yes} {outlook=sunny and humidity=high  play=no} {outlook=sunny and temperature=cool  play=yes} {outlook=sunny, temperature=cool, humidity=high, windy=false}

DT v.s. EAC

Lazy Associative Classifier

Projected Training Data

Prediction results of EAC and LAC minsup = 40% Test instance: {o=overcast, t=hot, h=low, w=true} {windy=false and humidity=normal  play=yes} {windy=false and temperature=cool  play=yes} {temperature=cool and humidity=normal  play=yes} {outlook=overcast  play=yes} {temperature=hot  play=yes} {windy=true  play=no}

LAC v.s. EAC

Two characteristics Missing CARs Highly Disjunctive Spaces

Experiment 26 datasets from UCI Machine Learning Repository min_conf = 50%, min_sup = 1% Linux-based PC Intel PIII 1.0 GHz 1G RAM

Error Rates EAC info. gain 絕對比C4.5好,而其他 EAC則不一定,CBA在稀疏資料空間表現比較好,平均而言EAC info gain比CBA好,而CMAR更好的原因在於預測類別時使用多個規則,EAC info gain只有挑rank最高的那個。

Rule-Set Utilization

Execution Times Cache size: 10,000 CARs