רשתות נוירונים הרצאת טעימות אורן שריקי
מוח
נוירון
מבנה טיפוסי של נוירון נוירון אופייני מקבל קלטים מ- 1000 עד 10,000 נוירונים ושולח את הפלט שלו לכמות דומה של נוירונים.
מודל מפושט של נוירון הקלט: הפלט:
פונקציות קלט-פלט טיפוסיות: פונקצית מדרגה
פונקציות קלט-פלט טיפוסיות: פונקציה סיגמואידלית
פונקציות קלט-פלט טיפוסיות: פונקציה חצי-לינארית
רשתות נוירונים
עיבוד ולמידה ברשתות נוירונים עיבוד- התפתחות בזמן של מצבי הנוירונים ברשת כתוצאה מעדכון מקבילי של פלטי הנוירונים. תנאי ההתחלה: תבנית פעילות המייצגת את הקלט. התוצר הסופי: תבנית פעילות המייצגת את הפלט. למידה - התפתחות בזמן של הקשרים ברשת (והארכיטקטורה) באמצעות אלגוריתמי למידה ואינפורמציה חיצונית. תנאי ההתחלה: סט קשרים התחלתי כלשהו. התוצר הסופי: סט קשרים המאחסנים אינפורמציה נלמדת ומאפשרים לרשת לבצע את תהליך העיבוד במשימה שנלמדה.
ייצוג מידע בזמנים קצרים ובזמנים ארוכים הנחת המוצא בחקר המוח - בזמנים קצרים המידע מיוצג ע"י הפעילות החשמלית של תאי העצב ומעובד ע"י הדינמיקה של רשתות תאי העצב במוח. בזמנים ארוכים המידע מיוצג ע"י החוזקים הסינפטיים ומעובד ע"י תהליכי למידה, כלומר ע"י שינוי חוזקיהם של הקשרים.
האם יש תפקיד חישובי לתאי הגליה? במוח יש בערך פי 10 עד פי 100 יותר תאי גליה מתאי עצב. בשנים האחרונות מתגלה כי לתאי הגליה (בפרט לאסטרוציטים) תפקידים בתהליכי למידה. האם נזכה לראות תחום כגון: Computational Gliascience ?
מהן רשתות נוירונים? הגדרה - מערכות המורכבות ממספר רב של מעבדים פשוטים, הקשורים הדדית בקשירות גבוהה ופועלים במקביל. המידע נרכש דרך תהליך למידה ומאוחסן בקשרים.
דוגמאות לרשתות פשוטות – שערים לוגיים פלט קלט 2 קלט 1 1 שער OR פלט קלט 2 קלט 1 1 שער AND
דוגמאות לרשתות פשוטות ניקח לצורך הדוגמא נוירונים בינאריים: הפלט של נוירון הוא מהצורה: (פונקצית מדרגה: אם הקלט גדול מהסף הפעילות היא 1 ואם קטן מהסף הפעילות היא 0) שער AND שער OR
סוגים של למידה למידה מפוקחת – יש מורה שיודע את התשובה הרצויה לכל דוגמא. למידה לא מפוקחת – אין מורה.
למידה מפוקחת
זיהוי ספרות בכתב יד http://yann.lecun.com/exdb/lenet/index.html
רשת רב שכבתית לא-לינארית
פונקצית הקלט-פלט של כל נוירון היא בדרך-כלל פונקציה סיגמואידלית
למידה לא מפוקחת
למידה לא מפוקחת כיצד גילה מנדלייב את הטבלה המחזורית? הוא הבחין בכך שקיימת חוקיות במאפיינים של היסודות השונים. לא היה לו מורה שלימד אותו את החוקיות! בלמידה לא מפוקחת המטרה היא לאפיין את החוקיות הסטטיסטית של עולם הקלטים.
דחיסת מידע על-ידי הפחתת מימדים נתונים קלטים דו-מימדיים. המשימה: לשמור מכל קלט מספר יחיד, כך ששחזור הקלט המקורי יהיה הטוב ביותר שאפשר להשיג. הרעיון: נבחר את הציר שלאורכו השונות הגדולה ביותר!
דחיסת מידע על-ידי הפחתת מימדים מימוש ברשת נוירונים לינארית:
מה לעשות כשיש קורלציות בין הרכיבים? הרעיון: נבחר מערכת צירים חדשה שבה אין קורלציות, ואז נבחר את הציר שלאורכו השונות הגדולה ביותר! גישה זו מכונה "ניתוח רכיבים עיקריים" (PCA – Principal Component Analysis).
דחיסת מידע על-ידי הפחתת מימדים מימוש ברשת נוירונים לינארית: הדגמה ב- MATLAB
דחיסת תמונות על-ידי הפחתת מימדים נתונות תמונות בעלות מאפיינים סטטיסטיים דומים: כאן התמונות הן של 48 על 48 פיקסלים (2304 מספרים)
מבנה הרשת כל נוירון בפלט מקבל קלטים מכל הפיקסלים בתמונה. תבנית הקשרים לכל נוירון מהווה תמונה דו-מימדית בעצמה. כיצד נראות תבניות הקשרים לאחר הלמידה?
שחזור תמונות של 2304 פיקסלים על-ידי דחיסה ל-48 מספרים מקור
ניתוח רכיבים בלתי-תלויים (ICA – Independent Component Analysis) גישת ה- PCA מבוססת על נוירונים לינאריים ומוגבלת ביכולת פעולתה על נתונים אמיתיים מהעולם. גישת ה- ICA מבוססת על נוירונים לא לינאריים ושימושית במגוון רחב של ישומים מעשיים.
ICA לעומת PCA [OnStart -> Title, PCA text, and Gaussian data could] What is the difference between ICA and the far more well-known Principal Component Analysis or PCA? PCA is really only concerned with data that is Gaussian distributed. Given such data, [ENTER] PCA derives so-called ‘sufficient’ statistics that essentially tell everything that can be told about the distribution -- the directions of its maximum variance and its size or amplitude in each direction. [ENTER] But what about data that is not really Gaussian? Most data has significant higher-order statistics, representing tendencies for data values to group along lines or in other shapes, even if this tendency is hidden in the overall distribution. [ENTER] Here PCA again models the data as Gaussian, finds its directions of maximum variance, and ignores its higher-order structure. [ENTER}Infomax ICA, on the other hand, finds independent components in the data using higher-order statistics either explicitly or implicitly [Note: Tony Bell’s ICA algorithm uses implicit statistics through its introduced nonlinearity] [ENTER].
מה קורה כשהקלטים הם תמונות טבעיות? [OnStart -> forest image plus Title Our visual system has evolved to pick up relevant visual information quikcly and efficiently, but with minimal assumptions about exactly what we see (since this could lead to frequent hallucinations!). [ENTER 2nd forest image] An important assumption that visual systems can make is that the statistical nature of natural scenes is fairly stable. How can a visual system, either natural or synthetic, extract maximum information from a visual scene most efficiently? [ENTER] Infomax ICA, developed under ONR funding by Bell and Sejnowski, does just this. Infomax ICA is a neural network approach to blind signal processing that seeks to maximize the total information (in Shannon’s sense) in its output channels, given its input. This is equivalent to minimizing the mutual information contained in pairs of outputs. Applied to image patches from natural scenes like these by Tony Bell and others, [ENTER] ICA derives maximally informative sets of visual patch filters that strongly resemble the receptive fields of primary visual neurons. [ENTER]
מה קורה כשהקלטים הם תמונות טבעיות? תכונות התאים המתהווים בלמידה דומות לאלו של התאים בשלבים הראשונים של עיבוד המידע הראייתי במוח. [OnStart -> forest image plus Title Our visual system has evolved to pick up relevant visual information quikcly and efficiently, but with minimal assumptions about exactly what we see (since this could lead to frequent hallucinations!). [ENTER 2nd forest image] An important assumption that visual systems can make is that the statistical nature of natural scenes is fairly stable. How can a visual system, either natural or synthetic, extract maximum information from a visual scene most efficiently? [ENTER] Infomax ICA, developed under ONR funding by Bell and Sejnowski, does just this. Infomax ICA is a neural network approach to blind signal processing that seeks to maximize the total information (in Shannon’s sense) in its output channels, given its input. This is equivalent to minimizing the mutual information contained in pairs of outputs. Applied to image patches from natural scenes like these by Tony Bell and others, [ENTER] ICA derives maximally informative sets of visual patch filters that strongly resemble the receptive fields of primary visual neurons. [ENTER]
דוגמא: הפרדת תערובת קולות בצע ICA Mic 1 Mic 2 Mic 3 Mic 4 [OnStart -> Title and figure on left representing weights in the mixing matrix between 4 superimposed voices and 4 distant microphones that each pick up all 4 voices] [After “Mixtures,” appears, ENTER -> The four mixtures play now, each introduced by a “Mic” label and illustrated by a 4-faces image on right]. When we try to separate these arithmetic voice mixtures “by ear,” we make use of lots of information about about the frequency spectrum of the human voice. We follow spectral information through time, and bring in our knowledge of English syntax and semantics. Infomax ICA, on the other hand, uses only the stable weight differences in the four audio channels, plus the reasonable assumption that the voice waveforms of the 4 speakers are independent of one another. [After “Perform ICA” appears, ENTER] ICA was trained on these four mixtures. The fading diagonal lines represent the actual mixing weights between the ICA input and output at each ICA training step. At the end of training, each voice is directed to only one ICA component channel. Now we will hear recordings of the four ICA component outputs.: [After “Components” appears, ENTER and listen as Terry, Scot, Te-Won and Tzyy-Ping, now unmixed, give a brief summary of this ICA presentation]. Note that infomax ICA, as applied here, used no temporal or spectral information to perform the “blind” separation of the mixed signals. Actual audio applications of ICA have proved difficult, because of nonstationarity and time delays in actual acoustic environments… [ENTER] Terry Scott Te-Won Tzyy-Ping השמע רכיבים השמע תערובות
זכרון אסוציאטיבי
זיכרון אסוציאטיבי ברשתות נוירונים העבודה המקורית נעשתה על-ידי ג'ון הופפילד (1982). המודל מתאר רשת משוב (כל נוירון מחובר לכל נוירון באופן כללי).
לכל זיכרון אגן משיכה במרחב המצבים של הרשת
זיכרון אסוציאטיבי ברשתות נוירונים ייצוג אינפורמציה - אינפורמציה מיוצגת ע"י וקטורים של N ביטים. כל וקטור מהווה מצב אפשרי של הרשת. שליפת אינפורמציה - התייצבות הרשת במצב מסוים מהווה שליפה או שחזור של תבנית האינפורמציה המיוצגת ע"י מצב זה. אסוציאטיביות - זרימה של הרשת אל המצב היציב ממצב התחלתי מרוחק הנמצא באגן המשיכה שלו. אחסון אינפורמציה - האינפורמציה מאוחסנת באופן מבוזר במטריצת הקשרים הסינפטיים. הקשרים נקבעים כך שתבניות הזכרון תהיינה מצבים יציבים של הדינמיקה. למידה - התהליך שבו מתעדכנים הקשרים הסינפטיים כדי לייצב תבנית או תבניות זכרון חדשות.
פונקצית אנרגיה במודלים מסויימים, ניתן לרשום פונקצית "אנרגיה" לדינמיקה הדינמיקה מובילה לאחד ממצבי המינימום הלוקאלי של פונקצית האנרגיה, שהם הזיכרונות המאוחסנים ברשת.
מודל חישובי להזיות ראייתיות Ermentrout and Cowan, 1979. Bressloff et al., 2000-2003.
מהרשתית לקורטקס תא 3 תא 2 תא 1
מפת זוויות בקורטקס הראייתי הראשוני - סכימה יחידת עיבוד מקומית לכל זווית מותאם צבע
ייצוג זוויות – תוצאות ניסיוניות "תת-הכרה נפתחת כמו מניפה" - יונה וולך הגדלה של אחת השבשבות
קשרים אופקיים בקורטקס הראייתי
מודל של רשת נוירונים הקלט המגיע מכיוון הרשתית W K הקורטקס הראייתי
הנחות המודל הסם מחזק את כל הקשרים בין הנוירונים בקורטקס הראייתי. כאשר חוזק הקשרים עובר ערך קריטי מסוים נוצרות תבניות של פעילות ספונטנית, הנתפסות כגירויים ראייתיים, גם בהעדר קלט ראייתי. בגלל מבנה הקשרים ההזיות הן של תבניות גיאומטריות אופייניות ואינן שרירותיות.
מודל רישום של הזיות
מודל רישום של הזיות
מודל רישום של הזיות
מודל של רשת נוירונים הקלט המגיע מכיוון הרשתית W K הקורטקס הראייתי
השערה ניתוח מתמטי של ייצוג מידע ברשתות משוב מראה כי הייצוג אופטימלי קרוב ל"מעברי פאזה", כלומר על הגבול בין "הגברה יעילה של הקלט" לבין "פעילות ספונטנית לא נשלטת". במצבים אלו, שינוי קטן בחוזק הסינפסות עשוי לחולל שינוי משמעותי בהתנהגות הדינמית של הרשת. האם יתכן שרשתות נוירונים במוח נוטות לעבוד קרוב לגבול בין "גאונות" ל"שיגעון"?
A small step for the synapses – a giant leap for the network dynamics.
--J. von Neumann “When we will discover the laws underlying natural computation . . . . . . we will finally understand the nature of computation itself.” --J. von Neumann
"כשנבין את החישוב בטבע... ...נבין את טבע החישוב". --J. von Neumann