Intelligent Database Systems Lab 國立雲林科技大學 National Yunlin University of Science and Technology 1 Learning from imbalanced data in surveillance of nosocomial.

Slides:



Advertisements
Similar presentations
Intelligent Database Systems Lab 國立雲林科技大學 National Yunlin University of Science and Technology 1 On Rival Penalization Controlled Competitive Learning.
Advertisements

1 Mining Relationships Among Interval-based Events for Classification Dhaval Patel 、 Wynne Hsu Mong 、 Li Lee SIGMOD 08.
Chapter 10 馬可夫鏈 緒言 如果讀者仔細觀察日常生活中所發生的 諸多事件,必然會發現有些事件的未來 發展或演變與該事件現階段的狀況全然 無關,這種事件稱為獨立試行過程 (process of independent trials) ;而另一些 事件則會受到該事件現階段的狀況影響。
第七章 抽樣與抽樣分配 蒐集統計資料最常見的方式是抽查。這 牽涉到兩個問題: 抽出的樣本是否具有代表性?是否能反應出母體的特徵?
On Mathematical Structures for Systems Archetypes 系統基模的數學結構 Rafael E. Bourguet-Díaz Gloria Pérez-Salazar.
指導教授:陳淑媛 學生:李宗叡 李卿輔.  利用下列三種方法 (Edge Detection 、 Local Binary Pattern 、 Structured Local Edge Pattern) 來判斷是否為場景變換,以方便使用者來 找出所要的片段。
McGraw-Hill/Irwin © 2003 The McGraw-Hill Companies, Inc.,All Rights Reserved. 參 實驗法.
Lecture 8 Median and Order Statistics. Median and Order Statistics2 Order Statistics 問題敘述 在 n 個元素中,找出其中第 i 小的元素。 i = 1 ,即為找最小值。 i = n ,即為找最大值。 i = 或 ,即為找中位數。
Review of Chapter 3 - 已學過的 rules( 回顧 )- 朝陽科技大學 資訊管理系 李麗華 教授.
:New Land ★★★★☆ 題組: Problem Set Archive with Online Judge 題號: 11871: New Land 解題者:施博修 解題日期: 2011 年 6 月 8 日 題意:國王有一個懶兒子,為了勞動兒子,他想了一個 辦法,令他在某天早上開始走路,直到太陽下山前,靠.
: ShellSort ★★☆☆☆ 題組: Problem D 題號: 10152: ShellSort 解題者:林一帆 解題日期: 2006 年 4 月 10 日 題意:烏龜王國的烏龜總是一隻一隻疊在一起。唯一改變烏龜位置 的方法為:一隻烏龜爬出他原來的位置,然後往上爬到最上方。給 你一堆烏龜原來排列的順序,以及我們想要的烏龜的排列順序,你.
STAT0_sampling Random Sampling  母體: Finite population & Infinity population  由一大小為 N 的有限母體中抽出一樣本數為 n 的樣 本,若每一樣本被抽出的機率是一樣的,這樣本稱 為隨機樣本 (random sample)
第一章 信號與系統初論 信號的簡介與DSP的處理方式。 系統特性與穩定性的判定方法。 以MATLAB驗證系統的線性、非時變、因果等特性。
Chapter 3 資料表示法 研讀完本章後,你應該可以: 區分類比與數位資訊。 解釋資料壓縮與計算壓縮比。 解釋負數與浮點數的二進制格式。
Monte Carlo Simulation Part.2 Metropolis Algorithm Dept. Phys. Tunghai Univ. Numerical Methods C. T. Shih.
空間域之影像強化 3.1 背景介紹 3.2 基礎灰階值轉換 3.3 以灰階統計圖為基礎之處理 3.4 算術與邏輯運算 3.5 基礎空間域濾波
具備人臉追蹤與辨識功能的一個 智慧型數位監視系統 系統架構 在巡邏模式中 ,攝影機會左右來回巡視,並 利用動態膚色偵測得知是否有移動膚色物體, 若有移動的膚色物體則進入到追蹤模式,反之 則繼續巡視。
圖片索引專題 指導教授:陳淑媛 教授 黃伯偉 林育瑄. 動機 & 理念  目前圖像檢索系統中使用的大多都為利用文字 標籤圖像或是圖像輪廓特徵來進行搜尋,然而 輪廓特徵的缺點卻是所有組成圖像的線條都要 逐一處理相當耗時。  所以本研究的目標在於,提出一個以像素點為 特徵的有效率與正確率的圖像檢索演算法實作。
第 1 章 PC 的基本構造. 本章提要 PC 系統簡介 80x86 系列 CPU 及其暫存器群 記憶體: Memory 80x86 的分節式記憶體管理 80x86 的 I/O 結構 學習組合語言的基本工具.
BEM 特論 - 第一次討論 指導教授 : 陳正宗 終身特聘教授 指導學長 : 高聖凱、謝祥志、林羿州 學生 : 吳建鋒 日期 :2015/6/16 Fundamental Solution Green’s Function Green’s Theorem.
Introduction to Java Programming Lecture 17 Abstract Classes & Interfaces.
: Happy Number ★ ? 題組: Problem Set Archive with Online Judge 題號: 10591: Happy Number 解題者:陳瀅文 解題日期: 2006 年 6 月 6 日 題意:判斷一個正整數 N 是否為 Happy Number.
實用管理科學 陳明德、陳武林 著 前程文化 Ch14 決策分析 14-1 本章結構 隨機模式導論 決策分析步驟 決策分析模式與符號 非機率性模式分析 機率性模式分析 貝氏決策分析技術 決策樹的建立 風險分析與敏感度分析.
Fourier Series. Jean Baptiste Joseph Fourier (French)(1763~1830)
CH 15- 元件可靠度之驗證  驗證方法  指數模式之可靠度驗證  韋式模式之可靠度驗證  對數常態模式之可靠度驗證  失效數為零時之可靠度估算  各種失效模式之應用.
:Nuts for nuts..Nuts for nuts.. ★★★★☆ 題組: Problem Set Archive with Online Judge 題號: 10944:Nuts for nuts.. 解題者:楊家豪 解題日期: 2006 年 2 月 題意: 給定兩個正整數 x,y.
Final-project 資科碩二 蔡瑞陽 Furukawa, Y. and Ponce, J. “ Accurate, Dense, and Robust Multi-View Stereopsis ” IEEE Conference on Computer Vision and.
資料結構實習-一 參數傳遞.
Section 4.2 Probability Models 機率模式. 由實驗看機率 實驗前先列出所有可能的實驗結果。 – 擲銅板:正面或反面。 – 擲骰子: 1~6 點。 – 擲骰子兩顆: (1,1),(1,2),(1,3),… 等 36 種。 決定每一個可能的實驗結果發生機率。 – 實驗後所有的實驗結果整理得到。
演算法 8-1 最大數及最小數找法 8-2 排序 8-3 二元搜尋法.
Density and control Reproduction curve 劉耀仁. Density :濃度、密度 ► 1 號區是 High-Density 區、 2 號是 Middle-density 區、 3 號區是 Low- Density 區。 ► 計算反射率( R )或透射率( T )
-Antidifferentiation- Chapter 6 朝陽科技大學 資訊管理系 李麗華 教授.
845: Gas Station Numbers ★★★ 題組: Problem Set Archive with Online Judge 題號: 845: Gas Station Numbers. 解題者:張維珊 解題日期: 2006 年 2 月 題意: 將輸入的數字,經過重新排列組合或旋轉數字,得到比原先的數字大,
DECISION TREE LEARNING. Outlook Sunny Overcast Rain Humidity Yes Wind High Normal Strong Weak No Yes No Yes.
Optimization And Differential Equations 最佳化與微分方程 Peng-Jen Lai ( 賴鵬仁 ) Department of Mathematics National Kaohsiung Normal University ( 高雄師範大學數學系 ) ( 高雄師範大學數學系.
Probability Distribution 機率分配 汪群超 12/12. 目的:產生具均等分配的數值 (Data) ,並以 『直方圖』的功能計算出數值在不同範圍內出現 的頻率,及繪製數值的分配圖,以反應出該 機率分配的特性。
連續隨機變數 連續變數:時間、分數、重量、……
Teacher : Ing-Jer Huang TA : Chien-Hung Chen 2015/6/30 Course Embedded Systems : Principles and Implementations Weekly Preview Question CH7.1~CH /12/26.
-Artificial Neural Network- Matlab操作介紹 -以類神經網路BPN Model為例
McGraw-Hill/Irwin © 2003 The McGraw-Hill Companies, Inc.,All Rights Reserved. 參 資料蒐集的方法.
: SAM I AM ★★★★☆ 題組: Contest Archive with Online Judge 題號: 11419: SAM I AM 解題者:李重儀 解題日期: 2008 年 9 月 11 日 題意: 簡單的說,就是一個長方形的廟裡面有敵人,然 後可以橫的方向開砲或縱向開砲,每次開砲可以.
: Finding Paths in Grid ★★★★☆ 題組: Contest Archive with Online Judge 題號: 11486: Finding Paths in Grid 解題者:李重儀 解題日期: 2008 年 10 月 14 日 題意:給一個 7 個 column.
:Rings and Glue ★★☆☆☆ 題組: Problem Set Archive with Online Judge 題號: 10301: Rings and Glue 解題者:施博修 解題日期: 2011 年 5 月 18 日 題意:小約翰有了個大麻煩,他不小心將 rings.
幼兒行為觀察與記錄 第八章 事件取樣法.
第 1 章 PC 的基本構造. 本章提要 PC 系統簡介 80x86 系列 CPU 及其暫存器群 記憶體: Memory 80x86 的分節式記憶體管理 80x86 的 I/O 結構 學習組合語言的基本工具.
: How many 0's? ★★★☆☆ 題組: Problem Set Archive with Online Judge 題號: 11038: How many 0’s? 解題者:楊鵬宇 解題日期: 2007 年 5 月 15 日 題意:寫下題目給的 m 與 n(m
McGraw-Hill/Irwin © 2003 The McGraw-Hill Companies, Inc.,All Rights Reserved. 肆 資料分析與表達.
青少年認知發展.
第七章 計算複雜度概論:排序問題 7.1計算複雜度 7.2插入排序與選擇排序 7.3每次比較至多移除一個導致之演算法的下限
Intelligent Database Systems Lab 國立雲林科技大學 National Yunlin University of Science and Technology 1 Extreme Re-balancing for SVMs: a case study Advisor :
Intelligent Database Systems Lab 國立雲林科技大學 National Yunlin University of Science and Technology Advisor : Dr. Hsu Presenter : Chien-Shing Chen Author: Tie-Yan.
Intelligent Database Systems Lab 國立雲林科技大學 National Yunlin University of Science and Technology On multidimensional scaling and the embedding of self-organizing.
Intelligent Database Systems Lab 國立雲林科技大學 National Yunlin University of Science and Technology 1 A Comprehensive Comparison Study of Document Clustering.
Intelligent Database Systems Lab 國立雲林科技大學 National Yunlin University of Science and Technology Advisor : Dr. Hsu Graduate : Chun Kai Chen Author: Aravind.
Intelligent Database Systems Lab 國立雲林科技大學 National Yunlin University of Science and Technology 1 An Empirical Study of Learning from Imbalanced Data Using.
Intelligent Database Systems Lab N.Y.U.S.T. I. M. An IPC-based vector space model for patent retrieval Presenter: Jun-Yi Wu Authors: Yen-Liang Chen, Yu-Ting.
Intelligent Database Systems Lab 國立雲林科技大學 National Yunlin University of Science and Technology 1 GMDH-based feature ranking and selection for improved.
Intelligent Database Systems Lab 國立雲林科技大學 National Yunlin University of Science and Technology A Plagiarism Detection Technique for Java Program Using.
Intelligent Database Systems Lab 國立雲林科技大學 National Yunlin University of Science and Technology 1 Utilizing Marginal Net Utility for Recommendation in E-commerce.
Intelligent Database Systems Lab 國立雲林科技大學 National Yunlin University of Science and Technology Enhanced neural gas network for prototype-based clustering.
Intelligent Database Systems Lab 國立雲林科技大學 National Yunlin University of Science and Technology 1 Cost- sensitive boosting for classification of imbalanced.
Intelligent Database Systems Lab 國立雲林科技大學 National Yunlin University of Science and Technology 1 Direct mining of discriminative patterns for classifying.
Intelligent Database Systems Lab 國立雲林科技大學 National Yunlin University of Science and Technology 1 A Multistrategy Approach for Digital Text Categorization.
Intelligent Database Systems Lab 國立雲林科技大學 National Yunlin University of Science and Technology 1 Growing Hierarchical Tree SOM: An unsupervised neural.
Intelligent Database Systems Lab 國立雲林科技大學 National Yunlin University of Science and Technology Advisor : Dr. Hsu Presenter : Chien-Shing Chen Author: Gustavo.
Intelligent Database Systems Lab 國立雲林科技大學 National Yunlin University of Science and Technology 1 Prediction model building and feature selection with support.
Intelligent Database Systems Lab 國立雲林科技大學 National Yunlin University of Science and Technology Advisor : Dr. Hsu Graduate : Chun Kai Chen Author : Andrew.
Intelligent Database Systems Lab 國立雲林科技大學 National Yunlin University of Science and Technology 1 A New Cluster Validity Index for Data with Merged Clusters.
Intelligent Database Systems Lab 國立雲林科技大學 National Yunlin University of Science and Technology 1 f-information measures in medical image registration Presenter.
Intelligent Database Systems Lab 國立雲林科技大學 National Yunlin University of Science and Technology 1 Investigating the Effect of Sampling Methods for Imbalanced.
Presentation transcript:

Intelligent Database Systems Lab 國立雲林科技大學 National Yunlin University of Science and Technology 1 Learning from imbalanced data in surveillance of nosocomial infection Advisor : Dr. Hsu Presenter : Ai-Chen Liao Authors : Gilles Cohen, Melanie Hilario, Hugo Sax, Stephane Hugonnet, Antoine Geissbuhler Artificial Intelligence in Medicine. Page(s) : positive or infected(11%) and negative(89%) cases

Intelligent Database Systems Lab N.Y.U.S.T. I. M. 2 Outline Motivation Objective Method  Strategies for handling imbalanced data  Prototype-based resampling  Overview of support vector classification  Asymmetrical margin support vector classification Experimental Result Conclusion Comments

Intelligent Database Systems Lab N.Y.U.S.T. I. M. 3 Motivation  An important problem that arises in hospitals is the monitoring and detection of nosocomial or hospital acquired infections (NIs).  The gold standard is hospital-wide prospective surveillance. The method is labor-intensive, infeasible at a hospital level.

Intelligent Database Systems Lab N.Y.U.S.T. I. M. 4 Objective  Our goal is to identify patients with one or more NIs on the basis of clinical and other data collected during the prevalence survey.

Intelligent Database Systems Lab N.Y.U.S.T. I. M. 5 Method ─ Strategies for handling imbalanced data 將資料進行事前的處理 Resampling  upsizing the minority class (oversampling)  downsizing the majority class (undersampling) 修正學習演算法來處理 imbalanced data  The first is aimed at eliminating or at least attenuating class imbalance before the leaning process.  The second adjusts the learning algorithm’s bias to allow it to learn despite the handicap of imbalanced data.

Intelligent Database Systems Lab N.Y.U.S.T. I. M. 6 Method ─ Prototype-based resampling  A selected class is subclustered and the resulting prototypes are reintroduced as synthetic cases.  The key difference is that in the downsizing approach, the synthetic case are used to replace all the original majority class members.  We ran K-menas clustering on the training instances of this class with K=N min, the size of the minority class.

Intelligent Database Systems Lab N.Y.U.S.T. I. M. 7 Method ─ Prototype-based resampling  The second variant involves oversampling the minority class using agglomerative hierarchical clustering (AHC).

Intelligent Database Systems Lab N.Y.U.S.T. I. M. 8 Overview of support vector classification

Intelligent Database Systems Lab N.Y.U.S.T. I. M. 9 Overview of support vector classification 訓練資料往往會有重疊的情況發生,因此無法使用剛性邊 界限度的方式, 柔性邊界限度 (soft margin) 來解決線性不可 分離的情形。

Intelligent Database Systems Lab N.Y.U.S.T. I. M. 10 Overview of support vector classification 針對非線性函數的問題,發現如果將原始資料透過非線性的映 射函數 Φ 轉換到另外一個較高維度的特徵空間 (Feature Space) 中 ( Φ : Rd → F ) ,然後在特徵空間上執行線性分類,可以獲 得更好的正確率

Intelligent Database Systems Lab N.Y.U.S.T. I. M. 11 Asymmetrical margin support vector classification The above formulation of the SVM is inappropriate in two common situations:  In the case of unbalanced distributions  Whenever misclassifications must be penalized more heavily for one class than for the other The basic idea is to introduce different error weights C + and C - for the positive and the negative class respectively.

Intelligent Database Systems Lab N.Y.U.S.T. I. M. 12 Experimental Results In two-class problems: the accuracy rate on the positives, called sensitivity, is defined as sensitivity: TP/(TP+FN) the accuracy rate on the negative, also known as specificity, is specificity: TN/(TN+FP)

Intelligent Database Systems Lab N.Y.U.S.T. I. M. 13 Experimental Results

Intelligent Database Systems Lab N.Y.U.S.T. I. M. 14 Experimental Results

Intelligent Database Systems Lab N.Y.U.S.T. I. M. 15 Conclusion  Our novel resampling strategies perform remarkably better than classical random resampling.  They are outperformed by asymmetrical soft margin support vector machines which attained a sensitivity rate of 92%, significantly better than the highest sensitivity (87%) obtained via prototype-based resampling.

Intelligent Database Systems Lab N.Y.U.S.T. I. M. 16 Comments Advantage  … Drawback  … Application  Handling imbalanced data