Presentation is loading. Please wait.

Presentation is loading. Please wait.

אשכול - clustering Clustering הוא תחום הקשור לבינה מלאכותית, ותת תחום של למידה לא מבוקרת.

Similar presentations


Presentation on theme: "אשכול - clustering Clustering הוא תחום הקשור לבינה מלאכותית, ותת תחום של למידה לא מבוקרת."— Presentation transcript:

1

2 אשכול - clustering Clustering הוא תחום הקשור לבינה מלאכותית, ותת תחום של למידה לא מבוקרת.

3 Micro-arrays Known gene sequences Glass slide (chip) Cancer cell Normal cell Isolation RNA Cy3 dye Cy5 dye

4 כמה גן מבוטא בכל ניסוי Gene 1 Gene 2 Gene N Exp 1 E 1 Exp 2 E 2 Exp 3 E 3

5 איך בודקים דמיון פנימי בין שני נקודות 0.233342.7 PeterPiotr

6 Norms הגדרה יבשה של נורמה

7 מרחק בין שני וקטורים מוגדר להיות נורמה מאיזשהו מימד בין שני הוקטורים

8 1. Euclidean distance: D(X,Y)=sqrt[(x 1 -y 1 ) 2 +(x 2 -y 2 ) 2 +…(x n -y n ) 2 ] 2. (Pearson) Correlation coefficient R(X,Y)=1/n*∑[(x i -E(x))/  x *(y i -E(y))/  y ]  x= sqrt(E(x 2 )-E(x) 2 ); E(x)=expected value of x R=1 if x=y 0 if E(xy)=E(x)E(y) 3. Norm 1 D(X,Y)=|x 1 -y 1 |+|x 2 -y 2 |+ … |(x n -y n )| 4. Norm inf D(X,Y)=max i (|x n -y n |) הגדרות מרחק

9 דמיון בין פרטים -מרחק בין וקטורים מגדירים וקטור המקבל פרמטרים על סמך מאפיינים קבועים מראש v=[dress color,earings,height,hair,weight] Patty =[ 3, 2, 1.7, 4, 65 ] Salma= [4, 1, 1.7, 3,65 ] Marge=[5, 0, 1.6, 6, 60] || Patty-Salma|| 1 = 1+1+0+1+0 = 3 || Patty-Marge|| 1 = 2+2+0.1+2+5 = 11.1 || Salma-Marge|| 1 = 1+1+0.1+3+5 = 10.1 || Patty-Salma|| ∞ = 1 || Patty-Marge|| ∞ = 5 || Salma-Marge|| ∞ = 5 מרחק זה נקרא מרחק עריכה edit distance

10 דרכים למציאת דמיון בין פרטים מגדירים וקטור המקבל את ציון הדמיון על פי פרמטרים שאנחנו קובעים The distance between Patty and Selma שינוי צבע שמלה, 1 point שינוי צורת עגילים, 1 point שינוי בצורת השיער, 1 point 0 point גובה שונה 0 point משקל שונה D(Patty,Selma) = 3 The distance between Marge and Selma. שינוי צבע שמלה, 1 point שינוי צורת עגילים, 1 point גובה שונה 0.1 point שינוי בצורת השיער 3 point משקל, 5 point D(Marge,Selma) = 10.1 מרחק זה נקרא מרחק עריכה edit distance

11 Data Clustering

12 School Employees Simpson's Family MalesFemales איך מפרידים לקבוצות?

13 Partitional Clustering Nonhierarchical, each instance is placed in exactly one of K nonoverlapping clusters. Since only one set of clusters is output, the user normally has to input the desired number of clusters K.

14 אלגוריתם k-means קבע מס' מרכזים k באקראי / לא באקראי שייך כל נקודה למרכז הקרוב אליה ע"פ פונקצית המרחק שהגדרת קבע את הk החדש ע"פ מרכז הכובד של האשכול שנוצר המשך עד להתכנסות המרכזים

15 0 1 2 3 4 5 012345 K-means Clustering: Step 1 Algorithm: k-means, Distance Metric: Euclidean Distance k1k1 k2k2 k3k3

16 0 1 2 3 4 5 012345 K-means Clustering: Step 2 Algorithm: k-means, Distance Metric: Euclidean Distance k1k1 k2k2 k3k3

17 0 1 2 3 4 5 012345 K-means Clustering: Step 3 Algorithm: k-means, Distance Metric: Euclidean Distance k1k1 k2k2 k3k3

18 0 1 2 3 4 5 012345 K-means Clustering: Step 4 Algorithm: k-means, Distance Metric: Euclidean Distance k1k1 k2k2 k3k3

19 K-means Clustering: Step 5 Algorithm: k-means, Distance Metric: Euclidean Distance k1k1 k2k2 k3k3

20 Hierarchical clustering E1E2E3

21 אשכול היררכי Hierarchical Partitional

22 Peter Piter Pioter Piotr Substitution (i for e) Insertion (o) Deletion (e) Edit Distance How similar are the names “Peter” and “Piotr”? Assume the following cost function Substitution1 Unit Insertion1 Unit Deletion1 Unit D( Peter,Piotr ) is 3 Piotr Pyotr Petros Pietro Pedro Pierre Piero Peter

23 Piotr Pyotr Petros Pietro Pedro Pierre Piero Peter Peder Peka Peadar Pedro (Portuguese/Spanish) Petros (Greek), Peter (English), Piotr (Polish), Peadar (Irish), Pierre (French), Peder (Danish), Peka (Hawaiian), Pietro (Italian), Piero (Italian Alternative), Petr (Czech), Pyotr (Russian)

24 Piotr Pyotr Petros Pietro Pedro Pierre Piero Peter Peder Peka Peadar Pedro (Portuguese/Spanish) Petros (Greek), Peter (English), Piotr (Polish), Peadar (Irish), Pierre (French), Peder (Danish), Peka (Hawaiian), Pietro (Italian), Piero (Italian Alternative), Petr (Czech), Pyotr (Russian)

25 בניית -dendogram מרחק בין אשכולות Single linkage (nearest neighbor): המרחק בין האשכולות מוגדר על שני הנקודות הכי קרובות Complete linkage (furthest neighbor):Complete linkage (furthest neighbor): המרחק בין האשכולות מוגדר על שני הנקודות הכי רחוקות Group average linkage Group average linkage : המרחק מוגדר להיות בין שני המרכזים (ממוצע של כל אשכול)

26 06857 0244 033 01 0 D(, ) = 6 D(, ) = 1 בניית DENDOGRAM

27 0685 024 03 0 D(, )=2

28 D(, )=3 065 03 0

29 … … … בונים את העץ מלמטה ועולים כלפי מעלה בחר את המרחק הקצר ביותר

30

31 Outlier הוספת נקודה של טעות לא תפגע באשכול הקודם

32 דוגמא ממבחן(בשיעור) אשכולות (clustering) 1.נתונות הנקודות המסומנות a.בצע אשכול הררכי עם 2 אשכולות ועם 3 אשכולות b.בצע k-means עם 2 אשכולות ועם 4 אשכולות c.פרט את את שלבי אלגוריתם ה fuzzy – k mean

33 Matlab….

34 דוגמאות ביולוגיות אזורי קשירה (binding-site) הם אזורים במקטעי DNA,רבים מאתרי הקשירה האלו דומים במקומות שונים בגן יחיד או בסט של גנים. בשלב הראשון יש להעביר את כל ה binding sites ל data-points בשלב השני יש לבצע clustering ולהזהר מנק' הרעש........ acgtttataatggcg..............ggctttatattcgtc..............ccgatataatcta.........

35 העברת הנק' לגרף קבע את הנק' במישור קבע מרחק בין כל זוג נקודות 0 1 1.5 2 5 6 7 9 1 0 2 1 6.5 6 8 8 1.5 2 0 1 4 4 6 5.5. n-D data points graph representation distance matrix

36 עץ פורש מינימאלי (MST) קבע קודקוד מקור והכנס אותו לסט A (עץ) מצא את הקודקוד בסט B (שאר הקודקודים בגרף) אשר הכי קרוב לעץ (A) חזור על התהליך עד שלא ישארו קודקודים בסט B

37 דוגמא 4 10 6 7 3 5 8 (e) 4 7 3 5 (b) 44 (c) 7 4 3 (d) 7 (a)

38 מציאת clustring קבע את כיוון ההתקדמות בעץ (כל הוספה של צומת) בפונקציה של משקל הקשת שהוספה כל "עמק" בגרף מייצג cluster


Download ppt "אשכול - clustering Clustering הוא תחום הקשור לבינה מלאכותית, ותת תחום של למידה לא מבוקרת."

Similar presentations


Ads by Google