Presentation is loading. Please wait.

Presentation is loading. Please wait.

1 Selectivity Estimation in Spatial Databases S. Acharya, V. Poosala, S. Ramaswamy Presented By: Eyal Flato.

Similar presentations


Presentation on theme: "1 Selectivity Estimation in Spatial Databases S. Acharya, V. Poosala, S. Ramaswamy Presented By: Eyal Flato."— Presentation transcript:

1 1 Selectivity Estimation in Spatial Databases S. Acharya, V. Poosala, S. Ramaswamy Presented By: Eyal Flato

2 2 מבנה הקדמה - תאור הבעיה ובעייתיות בפתרונות קיימים פתרונות בסיסיים אלגוריתם Min-Skew תוצאות ניסויים מסקנות

3 3 תאור הבעיה GIS - Geographic Information System מוצרים ייעודיים : ESRI ARC/INFO, MapInfo DB עם תמיכה גיאוגפית : Informix, Oracle Selectivity Estimation - הערכת מספר האלמנטים בשאילתה מסויימת : - חשוב ב - query optimizers - הערכת זמן ביצוע שאילתה - לפני ביצועה - שאילתות ייעודיות על הערכת כמות אלמנטים

4 4 תאור הבעיה - דוגמא

5 5 פתרונות קיימים היסטוגרמה דגימה מטרה : אפשרות לביצוע הערכה ע ” ב מספר קטן של נתונים פתרון נפוץ : חלוקת הנתונים ל -buckets, הערכת השאילתה לפי מענה לשאילתה על ה -buckets

6 6 Spatial v. Traditional האלמנטים ב -DB יכולים להיות בעלי גדלים שונים התפלגות תדירות הופעה של נתונים היא אחידה ( יחסית מעט אלמנטים חופפים ) הערכים ( מיקום במרחב ) מפוזרים באופן מוטה Q # in Q ?# of Milk ?

7 7 פישוט הבעיה כל אלמנט מוגדר ע ” י המלבן החוסם שלו ( מקביל לצירים ) השאילתה הינה מלבן גודל השאילתה : 9 אלמנטים

8 8 סימונים T - אוסף המלבנים Area(T) - שטח המלבן החוסם של כל המלבנים TA - סכום השטחים של כל האלמנטים Q - מלבן השאילתה selectivity of Q - גודל התשובה לשאילתה יחסית למספר האלמנטים Vavg, Havg - אורך ורוחב ממוצע למלבנים ב - T

9 9 פתרון מדויק מצריך מעבר על כל אוסף הנתונים או שימוש באינדקס שתי השיטות יקרות מדי לכן נסתפק בהערכה

10 10 Uniformity Assumption Point Query - כמה אלמנטים חלים בנקודה : TA / Area(T) סך שטחי המלבנים יחסית לשטח הכללי Range Query - מניחים שמלבני הקלט זהים באורך וברוחב ומפוזרים באופן אחיד בשטח n*Area(Q’) / Area(T) ‘Q - הגדלה של השאילתה בחצי הגודל הממוצע

11 11 3 7 2 10 8 חלוקת השטח לאזורים הפתרונות שיוצגו בהמשך מבוססים על חלוקת השטח לאזורים - מספר האזורים קבוע מראש מענה מדויק לאזורים שמוכלים במלואם בשאילתה והסתמכות על אחידות באזורים המוכלים חלקית 15 19

12 12 Equi-Area - אזורים בגודל אחיד. ניסיון להביא למינימום את השגיאה המקסימלית האפשרית ( בד ” כ שטח גדול = שגיאה גדולה ) חסרון : אזורים עם הרבה אלמנטים חלוקה לאזורים שווים

13 13 חלוקה לאזורים שווים Equi-Count - בכל אזור מספר דומה של אלמנטים. ניסיון להביא למינימום את השגיאה המקסימלית האפשרית ( בד ” כ הרבה אלמנטים = שגיאה גדולה ) חסרון : אזורים גדולים, הרבה אזורים גם אם אחיד

14 14 אזורים עפ ” י אינדקס R-Tree הכנסת מלבנים לעץ שבו כל צומת פנימי מכיל מלבן החוסם את כל המלבנים בתת - העץ שלו דומה לעץ בינארי / עץ 2-3 החלטה על פיצול בעץ לפי קריטריונים שונים בנסיון להביא למינימום את השטח, חפיפה וכו ’

15 15 חסרונות של אזורים שווים ו -R-Tree דיוק : Equi-Area - לא מתייחס לשינויים בפיזור האלמנטים Equi-Count - מייצר יותר אזורים במקומות צפופים, אך אם ההתפלגות אחידה - זה מיותר R-Tree - מייצר הרבה אזורים לא אחידים

16 16 חסרונות של אזורים שווים ו -R-Tree זמן חישוב : Equi-Area, Equi-Count - דורש המצאות כל הקלט בזיכרון בזמן הבנייה R-Tree - זמן חישוב יקר

17 17 אלגוריתם Min-Skew מטרות : טיפול בבעיות הדיוק - התייחסות בבניה להתפלגות הקלט חסכון בזמן וזיכרון הנדרשים לבניה שמירה על מספר אזורים נתון מראש שמירה על אחידות בתוך כל תתי האזור

18 18 אלגוריתם Min-Skew האלגוריתם מורכב משני שלבים עיקריים : 1. קירוב קומפקטי של הקלט שניתן להחזיק בזיכרון ולבנות על פיו את החלוקה לאזורים 2. אלגוריתם greedy לבניית החלוקה

19 19 אלגוריתם Min-Skew קירוב הקלט חלוקה ל -grid בגודל שאותו אפשר לנהל בזיכרון מעבר אחד על הקלט וספירה של מספר האלמנטים החלים בכל אחד מהתאים ב -grid - צפיפות מרחבית הקלט לשלב השני של האלגוריתם יהיו ה -grid וערכי הצפיפות המרחבית לכל תא בו.

20 20 אלגוריתם Min-Skew: בניית החלוקה לכל אזור Bi בחלוקה נגדיר spatial skew: Si = השונות של ערכי הצפיפות המרחבית של נקודות ה -grid שנמצאות בתוך Bi פונקצית המטרה : (Ni = מספר נקודות ה -grid באזור Bi) באופן חמדני מביאים למינימום את פונקצית המטרה האלגוריתם הוא Binary Space Partition Ni = 6 Si = 2.3 4101 23 0 2 5 21 1 1 1 3 1 Bi

21 21 אלגוריתם Min-Skew: בניית החלוקה קלט : נקודות grid עם צפיפות מרחבית לכל תא נתחיל מאזור יחיד המכסה את כל אזור העניין כל עוד יש פחות אזורים מהדרוש - חשב לכל תא קיים את השונות לגבי כל ציר - בחר את התא שחלוקתו תפחית יותר את פונקצית המטרה

22 22 תוצאות ניסויים ביצוע שאילתות בגדלים משתנים על נתונים אמיתיים וסינתטיים מדד לאיכות ההערכה - שגיאה יחסית ממוצעת של השאילתות לעומת הספירה המדויקת של אלמנטים בשאילתה

23 23 תוצאות ניסויים השפעת גודל השאילתה

24 24 תוצאות ניסויים השפעת מספר האזורים המותר

25 25 תוצאות ניסויים השפעת צפיפות ה -grid על Min- Skew

26 26 שיפור Min-Skew Progressive Refinement ביצוע אלגוריתם החלוקה במספר שלבים כאשר כל שלב מעודנת צפיפות ה -grid

27 27 השפעת Progressive Refinement

28 28 זמני ריצה

29 29 מסקנות השיטות הרגילות ל - selectivity estimation ( דגימה, היסטוגרמה ) לא מתאימות ל -DB גיאוגרפי ( מרחבי ) שיטות ספציפיות למידע גיאוגרפי נותנות תוצאות טובות גם עם זיכרון מוקצה קטן אלגוריתם Min-Skew מנצח את שאר הטכניקות שנבחנו במאמר : מדויק יותר ומהיר יותר

30 30


Download ppt "1 Selectivity Estimation in Spatial Databases S. Acharya, V. Poosala, S. Ramaswamy Presented By: Eyal Flato."

Similar presentations


Ads by Google