Presentation is loading. Please wait.

Presentation is loading. Please wait.

KNN 應用之種類型資料 對映演算法 指導教授:郭煌政 博士 研究生:林奕森 資四甲 張文馨 簡辰珈.

Similar presentations


Presentation on theme: "KNN 應用之種類型資料 對映演算法 指導教授:郭煌政 博士 研究生:林奕森 資四甲 張文馨 簡辰珈."— Presentation transcript:

1 KNN 應用之種類型資料 對映演算法 指導教授:郭煌政 博士 研究生:林奕森 資四甲 張文馨 簡辰珈

2 2 摘要  基於記憶推理是一種運用廣泛的資料探勘技術,要 預測新進案例時,必須與資料集中的案例一一計算 距離,再找出鄰近的 k 筆案例,最後利用這些案例 推理出新進案例。  以索引架構模擬多維度空間索引資料結構來確定 對映準確度,去計算同欄位間不同類別的彼此之 相似度,這個轉換之方式經實驗證實可以有效的 指出兩個類別彼此之相似度,可以有效減少搜尋 時間,及資料屬性相似度之準確性。

3 3 大綱  研究目的  MBR 技術之相關概述  MBR 技術之相關應用  MBR 技術優缺點評析  多維度空間資料結構 相關研究  多維度空間資料結構 概述  距離矩陣概述  定義對映表 (Mapping Table)  對映演算法 (Mapping Algorithm)  結論  未來展望

4 4 研究目的  除了利用 MBR 強大的分類及預測功能外,更 希望藉由演算法,對兩筆記錄資料中的欄位 作位置順序之比對。 ( 對種類資料轉換為數值資料形態,進而利用 一些高維度的樹狀資料結構,模擬索引機制 使用近似 KNN 技術,比對新進資料與訓練 資料集在轉換後的準確度。 )

5 5 MBR 技術之相關概述  MBR 除了大家比較熟知方法,如使用一些 參數函數去做每筆紀錄運算外,還可以使用 一些統計方面的相關技術去做分類,如 線性回歸等等。

6 6 MBR 領域之相關應用  MBR 已經被成功的應用在一些範圍上的分類 ,早期亦與類神經網路或是人工智慧方面的 應用結合,近期則是為了紀錄與預測顧客購買 商品的行為模式,而和商業技術應用結合。  MBR 利用已知的 training dataset 來推斷未知 的模型。

7 7 MBR 技術優缺點評析  MBR 之優點  分類結果易於推論  幾乎可以處理任何形式的資料  輸入欄位數量並不影響決定性  訓練資料集易於建立

8 8 MBR 技術優缺點評析  MBR 之缺點  預測階段計算複雜  訓練資料集必須數量足夠  設定不同距離、組合函數有不同結果

9 9 多維度空間資料結構相關研究  Aha 提出的演算法是一種基於增加案例的學習 演算法,除了可以同時處理類別型及數值形式 外,更將數值正規化於 [0 , 1] 這個區間,而在 類別形式之間的距離稱為漢明距離 (Hamming distance) 。  iDistance 也是在多維度空間中尋找出最鄰近 K 個 的資料結構,將相似度相似的群組對應到單一個 維度,作為對應到某一部份資料之相關聯性。

10 10 多維度空間資料結構相關研究  The Principal Component Analysis (PCA) 演算法 是被廣泛的應用在高維度資料空間轉換成低維度 資料空間的一種技術,所以,當大部份分部較廣 的資料將由原來所處的維度空間被壓縮並轉換成 較低維度的資料,以方便儲存至高維度的樹狀 資料結構。

11 11 多維度空間資料結構概述  為了克服效率問題,建立多維索引為一可行 之設計,可以篩選不必要之計算。本論文將 採用 indexing 方法,現已有許多研究,查詢 k 個 nearest neighbors (k-NN queries) , 大多採用 tree-based index 之 R-tree 系列。

12 12 距離矩陣概述  在計算兩不同類別屬性相似度時,我們利用 使用者定義方式,定訂出兩筆資料之不同 類別型態欄位,並利用我們提出之演算法 作轉換,計算轉換後兩兩不同類別屬性間 在同一欄位下之相似度。

13 13 定義對映表 (Mapping Table)  在定義距離矩陣的同時,我們必須定義 出矩陣中不同類別型,兩兩彼此間的 相似度數值,再對轉換的對映表做出 分析與評估。

14 14 對映演算法 (Mapping Algorithm)  本篇論文中提出一個新的轉換資料型態對映演 算法,稱為最鄰近資料先選演算法。  做法:先找出距離矩陣中,兩兩類別屬性距離最大的 值放入空白對映表中,然後再從距離矩陣中剩餘的 類別屬性對映,找出兩個值距離最小者,再分別放入 對映表中先前放入的兩個最大值旁邊。最後再對距離 矩陣中剩餘的類別型態重覆上一步驟之處理,直到 距離矩陣中每一不同類別型態均被選取完畢。

15 15 評估三角不等式流程圖

16 16 結論  本研究主要內容在於類別型態資料轉換,開始 時定義出兩不同類別資料在同一欄位形成之 距離矩陣,並且根據距離矩陣的資料作對映 轉換,形成對映表,也就是處理類別資料型態 為數值資料型態,再根據所形成的對映表, 作一近似 KNN 索引資料模擬,算出由 KNN 所擷取資料之準確率。

17 17 未來展望  本論文研究已解決類別型資料之轉換,並成功 的解釋,轉換後的各屬性間的相似距離,再 重新予以定義後,彼此間的相似程度可以獲得 肯定,進而可以沿用該演算,將資料存入多維 索引的資料結構,但是在處理轉換及引入模擬 索引架構時,仍存在一些問題,整理如下:

18 18  一、在提出之演算法中,由於在組合成對映表期間,所以估計 區域性組合有較佳之結果,但在全域性組合上結果就不一定會 較佳,未來將會試著提出另一種不同組合方式之演算法,用以 比較是否在全域組成之對映表中,有較佳之準確度。  二、在完成對映表後,由於導入索引模擬資料結構中之對映表, 各個屬性位置是採用平均位置導入,各個輸入對照位置也是按 順序給定位置,而彼此間的距離關係是正規化於 0 至 1 區間,並 按照算出兩兩類別間屬性之數值給定,但在這過程中,當對映表 對照回距離矩陣時,可能就會有些誤差,故未來希望能導入類似 類神經網路知識,將對映表作進一步的修正。

19 19  三、在做索引模擬時,當選取不同範圍值的時候,若真正放入 高維度資料結構中,可能會對一筆新進資料該屬於哪一分類, 造成資料標界效應,這是未來希望加以改進的作。  四、目前工作對於類別資料形態處理已經完成,但對於時間序列 資料形態處理上還有問題,也許在索引架構中,可能導入權重 選取之觀念,亦是往後努力的目標之一。

20 20 ~ end ~


Download ppt "KNN 應用之種類型資料 對映演算法 指導教授:郭煌政 博士 研究生:林奕森 資四甲 張文馨 簡辰珈."

Similar presentations


Ads by Google