A. Frank File Organization Sequential File Measures
2 A. Frank Steps in analysis of file organization בהערכת מבנה קובץ, נתייחס ל - 6 שלבים / צעדים : 1. תאור / מבנה לוגי ( רעיון, פילוסופיה וכו '). 2. שימושים / יישומים אפשריים. 3. תאור / מבנה פיסי ( מימוש אחד או יותר ). 4. מעבר לא - פורמלי על הדינמיקה בקובץ והמדדים. 5. הערכה פורמלית של מבנה הקובץ. 6. סיכום, השוואה לאחור והסתכלות קדימה.
3 A. Frank Notation for File Organizations איך נבדיל בין המדדים של מבני קבצים שונים ? שימוש בסימול הקובץ P, A, C) ) כמציין - על (Superscript) בכל מדד. דוגמאות : למדדים של קובץ ערמה שכבר הערכנו, צריך להניח מציין - על של P בכולם. בקובץ סדרתי, יש לנו שני סוגים : A ו -C – נעריך אותם במקביל לכל מדד ומדד.
4 A. Frank Measure R בקובץ : A ( מינימום השטח הנדרש ). בקובץ C, בקובץ תנועות יש מקומות. – נניח בממוצע שמלא בחציו -. – מתוכם נניח שחצי מתנועות הם תנועות הוספה -. אם קובץ התנועות מכיל תנועות באורך משתנה, אזי : אם קובץ התנועות מכיל תנועות באורך קבוע, אזי :
5 A. Frank Time to fetch any record (1) - בקובץ A אפשר לשקול 4 שיטות חיפוש : 1. חיפוש טורי (Serial) – דורש מעבר על חצי קובץ בממוצע : נראה אבל שגרוע כמו בערמה ?! 1. קל יותר לחפש בזיכרון ב -A – אבל לא מוזיל ק / פ ! 2. אבל אפשר להניח ש וכן זול יותר לא למצוא (Not Find) רשומה.
6 A. Frank Time to fetch any record (2) 2. חיפוש בינרי (Binary Search) - חיפוש לפי מפתח ראשי על גושי / רשומות הקובץ כדי להגיע למקום הרשומה המבוקשת : c - זמן מעבד לבדוק את מפתח הרשומה בהתחלת הגוש ( שבאמצע הקובץ ) ואולי גם את הרשומה בסופו. אי אפשר לדעת את מען הגוש הבא לקריאה עד לסיום הבדיקה / חישוב c מיהו הגוש הבא שצריך לגשת אליו להמשך החיפוש.
7 A. Frank Time to fetch any record (3) 3. חיפוש גיחה (Probe) – מתחילים מרשומה מסוימת שמענה נקבע לפי נוסחה / טבלה ( ע " ס מידע מוקדם ), וממשיכים משם בחיפוש טורי ( מגוש לגוש ): –z מספר גושים נקראים – אמור להיות מספר קטן. החיפוש מתבצע בתוך גליל אחד. 4. חיפוש אינטרפולציה (Interpolation) – שילוב של חיפוש גיחה קודם והמשך בחיפוש בינרי בשטח מצומצם :
8 A. Frank Time to fetch any record (4) חיפוש בקובץ סדרתי לפי שדה שאינו שדה המפתח הראשי הוא למעשה חיפוש כמו בערמה, עד שמגיעים לרשומה, אבל החיפוש בתוך הגוש במכלא יותר יעיל. לגבי C, מחפשים לפי מפתח ראשי בקובץ המקורי וגם בקובץ התנועות. אם בקובץ התנועות יש רשומות, אזי הבאה מקובץ התנועות : ולכן, בהכללה ( לכל 4 השיטות האפשריות בקובץ (A:
9 A. Frank Time to fetch next logical record - מדד הבאה של הרשומה הלוגית הבאה. בקובץ A, בהנחת מכלאים כפולים, הרשומה הלוגית הבאה כבר נמצאת במכלא, אז אולי : אבל כדי שימצא במכלא, היינו צריכים קודם לקרוא את הגוש שלו, אז אולי : אבל זה לרשומה, אזי : בקובץ C, נקבל :
10 A. Frank Time to insert any record - מדד להוספה של רשומה כלשהי. בקובץ A זה מתווסף בממוצע באמצע. זה דורש הזזה של חצי מהקובץ, ועוד מהסוף לאמצע – יקר מדי !! אז מה נעשה ? נעתיק את הקובץ הישן לקובץ חדש תוך שילוב הרשומה המתווספת לתוכו : בקובץ C, מכניסים את הרשומה החדשה בקובץ התנועות P, אבל יש גם עלות לרשומה בארגון מחדש : הנחה : בארגון מחדש, יש תנועות ביומן.
11 A. Frank Time to update/delete any record - מדד לעדכון של רשומה כלשהי. בקובץ A, אם אין שינוי במפתח ( ות ), אפשר לעדכן במקום : אם יש שינוי במפתח ( ות ) ( כמו כאשר עובד עוזב ומחליפו נכנס ), זה בעצם פעולת ביטול פלוס הוספה. בקובץ C, בכל מקרה, זה כמו בפעולת הוספה :
12 A. Frank Time for exhaustive read of file - מדד לקריאה ממצה של הקובץ. בקובץ A, קריאת הרשומות מהקובץ מתבצעת לפי סדר המפתח הראשי שזה הסדר הפיסי : בקובץ C, אין טעם לנסות לקרוא רשומה רשומה – יקר ! הפעולה הדרושה היא בעצם ארגון מחדש ! אבל נחייב כל אחת משתי הפעולות בחצי המחיר
13 A. Frank Time to reorganize file - מדד לארגון מחדש של הקובץ. בקובץ A, אם יש הוספות וביטולים פיסיים אז אין צורך, אבל אם היו הרבה ביטולים לוגיים, אז : בקובץ C, צריך קודם למיין ( מיון חיצוני ?) את קובץ התנועות. לאחר מכן, קריאת קובץ התנועות הממוין וקובץ האב וכתיבת קובץ הבן נעשות שלושתם בצורה חופפת ( לוקח כבר הפרעות בחשבון ):
14 A. Frank Steps in analysis of file organization בהערכת מבנה קובץ, נתייחס ל - 6 שלבים / צעדים : 1. תאור / מבנה לוגי ( רעיון, פילוסופיה וכו '). 2. שימושים / יישומים אפשריים. 3. תאור / מבנה פיסי ( מימוש אחד או יותר ). 4. מעבר לא - פורמלי על הדינמיקה בקובץ והמדדים. 5. הערכה פורמלית של מבנה הקובץ. 6. סיכום, השוואה לאחור והסתכלות קדימה.
15 A. Frank The Table Family | | | | | | | n כניסות entries m תאים cells קובץ טבלה Table file ציר הסדר Order Spectrum מקסימום סדר Maximum order מינימום סדר Minimum order ערמתייםסדרתייםטבלאיים TPA למה באמצע ? סתם ככה ?
16 A. Frank Table File טבלה (Table) היא בעצם אוסף של יחסים – יחס הוא מבנה הנתונים היחיד המשמש את המודל היחסי (Model Relational) במסדי נתונים (Databases). בגדול, מה מאפיין טבלה / יחס : – גודל כל תא / שדה קבוע ( היחס מתוקנן / מנורמל ). – רשומות / כניסות באותו גודל קבוע. – בממד האנכי - סדר כלשהו של רשומות / כניסות. – בממד האופקי - סדר כלשהו של עמודות ( פעולת הטלה (Project. אז למה הטבלאיים באמצע ? כל סדר בממד האנכי / אופקי הולך ? ערמה ! אבל די מסודר ! סדרתי ! אז מה היא המסקנה ? זה משהו באמצע !
17 A. Frank Summary קובץ A הוא בבירור יותר מאופיין קריאה מאשר C! אבל בגדול, בסדרתי קיבלנו שהמדדים מאופייני קריאה טובים יחסית בעוד שהמדדים מאופייני כתיבה גרועים יחסית. לכן קובץ סדרתי הוא בבירור קובץ מאופיין קריאה. אבל מה אם צריכים " גישה ישירה " לרשומה בקובץ ?