Download presentation
Presentation is loading. Please wait.
1
第 1 章 基本概念 © 2008 台灣培生教育出版 (Pearson Education Taiwan)
2
l 收集了大量的資料 – 來自網站和電子商務交易 – 來自商店的購物紀錄 – 來自銀行和信用卡交易紀錄 l 電腦設備的功能越來越強大,且價錢越來越便宜 l 競爭壓力越來越高 – 以提供更好、客製化的服務作為競爭優勢(如顧客 關係管理) 為什麼需要資料探勘 ? 商業上的應用
3
為什麼需要資料探勘 ? 科學上的應用 l 資料收集和儲存技術大幅提升 (GB/ 小時 ) – 利用衛星收集資料 – 太空望遠鏡收集氣候資料 – 微陣列技術產生基因的描述性資料 l 傳統技術無法分析這些原始資料 l 資料探勘可以協助科學家 – 分類資料 – 形成假設檢定
4
© 2008 台灣培生教育出版 (Pearson Education Taiwan) 探勘大量資料集 :動機 l 資訊通常「隱藏」在並非顯而易見的資料之中 l 分析師需花費數週才可發現有用的資訊 l 多數的資料並未經過分析
5
© 2008 台灣培生教育出版 (Pearson Education Taiwan) 何謂資料探勘 ? – 是一種能夠在大量資料自動化發現一些有用資訊的流程 ,它可以用來處理大量資料,而且可以發現一些新奇以 及有用的樣式,而這些知識是前所未知的。
6
© 2008 台灣培生教育出版 (Pearson Education Taiwan) 什麼不是資料探勘 ? – 從電話簿中查到電話號碼 – 從網站的搜尋引擎查詢有關「 Amazon 」的資訊
7
© 2008 台灣培生教育出版 (Pearson Education Taiwan) l 採用來自機器學習、圖形辨識、統計學和資料庫系統 等領域的想法 l 傳統的技術可能不 適用於處理 – 大量的資料 – 高維度資料 異質和分散性的資料 資料探勘的起源 機器學習/ 圖形辨識 統計學 資料探勘 資料庫系統
8
© 2008 台灣培生教育出版 (Pearson Education Taiwan) 資料探勘的工作 l 預測方法 – 以其他屬性的值為基礎來預測特定屬性的值 l 敘述性方法 – 找出人類可以解釋的描述資料的樣式
9
© 2008 台灣培生教育出版 (Pearson Education Taiwan) 四種主要的資料探勘技術 l 預測模式 l 關聯規則分析 l 分群分析 l 異常偵測
10
© 2008 台灣培生教育出版 (Pearson Education Taiwan) 預測模式 l 建立一個將目標變數視為解釋變數的函數 之模式 l 預測模式有兩種: – 分類模式:應用在目標變數為離散型的資料 上 – 回歸模式:應用在目標變數為連續型的資料 上 l 範例:花型的預測
11
© 2008 台灣培生教育出版 (Pearson Education Taiwan) 關聯規則分析 l 用來發現資料中特徵屬性間具有高度關聯 的一種樣式 l 範例:購物籃分析
12
© 2008 台灣培生教育出版 (Pearson Education Taiwan) 分群分析 l 發現一群具有相似特質的觀察值,而這群 具有相似特質的觀察值具有一些和其他觀 察值不一樣的特性 l 範例:文件分群
13
© 2008 台灣培生教育出版 (Pearson Education Taiwan) 異常偵測 l 從一群資料中找出一些具有顯著差異的觀 察值出來 l 範例:信用卡詐騙的偵測
14
© 2008 台灣培生教育出版 (Pearson Education Taiwan) 資料探勘的挑戰 l 擴展性 l 高維度的問題 l 異質性及複雜性的資料 l 資料品質 l 資料擁有者與分散性 l 非傳統式的分析
Similar presentations
© 2025 SlidePlayer.com. Inc.
All rights reserved.