CNN for No-Reference Image Quality Assessment(NR-IQA)

CNN for No-Reference Image Quality Assessment(NR-IQA)
Tzachi Hershkovich

Outline Image Quality – Degradation sources
Full Reference-Image Quality Assessment vs. No Reference-Image Quality Assessment System architecture Training Evaluation and results Conclusions

Image Degradation Sources
Blur (defocus, motion blur Chromatic diffraction etc.) Compression WN (Digital gain – low light) Non uniform Shading קודם נדבר שניה על מה משפיע על איכות תמונה בכלל ישנם מקורות רבים לדגרדציה של תמונות – ארטיפקטים של דחיסה, דה-פוקוס,מואושן בלידר, הגבר דיגיטלי וכו' בסוף, נרצה לבחון את כולם תחת אותה הסקאלה של ערכים המכמתים את רמת הדגרדציה של התמונה לצורך הערכת איכות

FR-IQA vs. NR-IQA Full Reference Image Quality algorithms:
assumes perfect reference image evaluates differences according to different FR- measures Consistent with human rater Hard to get No Reference Image Quality algorithms: doesn’t rely on reference image Seeks discriminative features Not trivial ישנן שיטות שונות המסתמכות על הימצאותה של תמונות רפרנס אופטימלית לצורך חישוב רמת הדיסטורשין של התמונה שמגיעים לרמת התאמה מאוד גבוהה לדעה אנושית הבעיה שלא תמיד יש כזו תמונה אם בכלל. מצד שני, שיטות רבות שלא מסתמכות על כך מנסות למצוא פיצ'רים דיסקרימינטיבים שונים מתוך התמונה על מנת להעריך את איכותה – וזו משימה לא פשוטה בכלל

NR-IQA Traditional approaches: Recent approaches:
Natural Scene Statistics(NSS) features – by using certain filter responses (wavelet filters, DCT transform etc.) Time consuming Recent approaches: Discriminative spatial features (CORNIA, BRISQUE) Complicated but fast שיטות מסורתיות יותר ישנות, מבוססות על מציאת פיצ'רים טבעיים בעזרת פילטרים והתמרות שונות שיטות יותר חדשות מראות שימוש בפיצ'רים מרחביים לביצוע הערכת האיכות אבל גם הן מסובכות יחסית אבל לפחות מהירות ודי מדוייקות מכאן הגיעה המוטיבציה להשתמש ברשת על מנת לבצע חישוב של איכות התמונה. כשהיא משתמש בפיצ'רים מרחביים בתמונה לצורך כך ללא מודלים מסובכים.

System Architecture Gray level image Local Contrast normalization
Separate to non-overlapping patches CNN for patch quality score Average all patches scores Score אז שניה נתחיל בסקירה רחבה על מבנה המערכת ואז נצלול לכל חלק בנפרד בדגש על מבנה הרשת

System Architecture Gray level image Local Contrast normalization
Separate to non-overlapping patches CNN for patch quality score Average all patches scores נבצע נירמול של הקונטרסט – עולה די סטנדרטית בטיפול בתמונות באופן כללי ועבור רשתות בפרט. הם מדברים על ירידה\עלייה בביצועים של כמה אחוזים משמעותיים כאשר לא מבצעים את הנירמול כמו שצריך, במיוחד אם הוא לא נעשה לוקאלית

System Architecture 32 32 Gray level image
Local Contrast normalization Separate to non-overlapping patches CNN for patch quality score Average all patches scores 32 32 כמו שהסברתי כבר קודם, את פעולת הרשת אנו מבצעים לכל פאטצ' בנפרד בגודל של 32 על 32 – בגרסא הבסיסית שלהם - ללא ריפוד באפסים כמובן הם בחרו פאטצ'ים ללא חפיפות מטעמי חישוביות בלבד וגם נראה את זה בהמשך בבדיקות שהם עשו.

System Architecture Gray level image CNN for patch quality score
Local Contrast normalization Separate to non-overlapping patches CNN for patch quality score Average all patches scores אז זה מבנה הרשת: כניסה: 32 על 32 שכבה שניה: 50 מפות פילטרים שכל קרנל בגודל 7X7 עם סטרייד 1 שכבה שלישית: פולינג אבל מיוחד – מתוך כל פיטר נלקחים הערך הגדול ביותר והערך הקטן ביותר – בשונה מPOOLING שמבצע הורדת מימד באופן לוקאלי על מספר פיקסלים זה נעשה בצורה כזו כי בניגוד לבעיות שנועדו לזיהוי אובייקטים, סגמנטציה וכולי, כאן ההנחה שהבעיה גלובאלית (ברמת הפאטצ' לפחות) – כלומר הדיסטורשין מופיע בכל הפיקסלים בפאטצ' שכבה רביעית:פולי קונקטד עם אקטיבציה של רליו במקום סיגמואיד רגיל מה שלטענתם מאפשר אימון מהיר יותר שכבה חמישית: פולי קונקטד עם אקטיבציה של רליו מוצא:רגרסיה לינארית פשוטה למתן הסקור

CNN training Training data set is compounded of patches
Each patch inherits the original image score from the training data – Provide a much larger labeled data set During Test phase they averaged the score of all image patches הדאטה סט מורכב מפאטצ'ים מתוך תמונות והסקור של כל פאטצ' הוא הסקור של אותה התמונה שהוגדר בדאטה סט בשלב הטסט הם ביצעו מיצוע התוצאות של כל הפאטצ'ים בתמונה (בהתאם לבנצ'מארק שיתאים לסקור של תמונה שלמה)

CNN training Objective function:
SGD with 40 epochs and keep the model the provided the highest LCC on the validation set Dropout and momentum for boosting פונקציית מחיר ב"L1" הם כמובן ממשיכים במגמת נפנופי הידיים כאשר ביצעו את האימון ב 40 EPOCHS ולקחו את המודל עם הכי פחות OVERFITTING LCC – מציין כמה תלות לינארית קיימת בין שני ערכים בנוסף ביצעו דרופ אאוט(לשכבה האחרונה בלבד מטעמי זמן ריצה) ומומנטום וכך שיפרו גם כן את הביצועים

Evaluation - LIVE data set
Images: JPEG compressed images (169 images) JPEG2000 compressed images (175 images) Gaussian blur (145 images) White noise (145 images) Fast Fading (145 images) Labeling: Scores [0, 100] – 100 is the highest distortion level 29 different reference images לביצוע אימון ואבליואציה של האלגוריתם שלהם הם השתמשו ב"לייב" דאטה סט שמכיל דוגמאות שונות של דיסטורשינס סך הכל 779 תמונות עם 5 סוגים שונים של דיסטורנס שנגזרו מ29 תמונות רפרנס שונות הסקור שניתן עבור כל תמונה התקבל על ידי ממוצע של מספר רב של אנשים שדירגו את איכות התמונה מ0 עד 100 כאשר 100 זה האיכות הגרועה ביותר

D. Ghadiyaram and A. C. Bovik, "Perceptual Quality Prediction on Authentically Distorted Images Using a Bag of Features Approach," Journal of Vision , vol. 2016, no. 28, October, 2016.

Evaluation methods: LCC – Linear Correlation Coefficient SROLCC – Spearman Rank Order Correlation Results: 100 iterations of train-test Random selection of 60% of the reference images and their distorted versions as training set. Random selection of 20% for validation Rest 20% for test להערכת ביצועים נעשה שימוש בשני SCORES LCC – מציין כמה תלות לינארית קיימת בין שני ערכים SROLCC – מציין כמה טוב ניתן להציג ערך אחד כפונקציה מונוטונית של ערך אחר להצגת התוצאות הם ביצעו 100 פעמים את פעולת האימון בכל פעם אימנו אקראית עם תמונות אחרות מהDATA SET

בטבלאות הבאות נראה את ביצועי המערכת (LCC ו- SROLCC) לעומת שאר השיטות שהן NR-IQA וגם למול FR-IQA ניתן לראות כמובן שהשיטות FR מניבות תוצאות גבוהות יותר וזה גם מסבר את הדעת. בסך הכל בעזרת הרשת הגיעו לתוצאות לא רחוקות בכלל (פחות מאחוז) מה- STATE OF THE ART כאשר לצורך השוואת הביצועים עם FR-measures שהם לא בין 0 ל1 הם ביצעו LOGISTIC REGRESSION על 80% מהדאטה וב20% הנותרים ביצעו את הטסט עבור כל אחת מהשיטות (PSNR, SSIM, FSIM)

אלה דוגמאות לקרנלים שנלמדו פעם אחת רק עבור דחיסת JPEG ואחד עבור כולם יחד. בדוגמא משמאל אפשר לראות כמה פילטרים עם צורות די ברורות אבל בימני כבר ממש לא רואים שום דבר אינטואיטיבי – לפחות כך הם טוענים

Evaluation –Kernels Kernel size sensitivity
Number of Kernels sensitivity עבור גודל הקרנל – אין משמעות יתרה ולכן הם הסיקו שהרשת לא רגישה לגודל הקרנל – אני קצת סקפטי בנוגע לזה כי ברור שיש גם משמעות לגודל בפאטצ'ים שהוכנס והיחס בינייהם. מבחינת מספר הפילטרים ניתן לראות את ההתנהגות להגדלת מספרם – כמו שציפו באמת ככל שמספר הפילטרים גדל גם תפקוד המערכת משתפר (עד גבול מסויים)

Evaluation –Patches Patch size sensitivity Number of Patch sensitivity
הSTRIDE אבל איפשרו חפיפות ככה שמספר הפאטצ'ים לכל תמונה לא יקטן רואים שככל שגודל הפאטצ' גדל התוצאות גם משתפרות אבל: בגלל ששימוש בפאטצ'ים גדולים יותר הורידה של הרזולוציה של הבדיקה ברמה הלוקאלית הם בחרו בגודל פאטצ' מינימלי כך שיפאשר להם רזולוציה מקסימלית למול תוצאות STATE OF THE ART LEVEL כדי לבחון באופן דומה את ההשפעה של שינוי במספר הפאטצ'ים הם קיבעו את גודל הפאטצ' ושינו את כלומר רק הכניסו יותר פאטצ'ים על חשבון חפיפה בינייהם. מן הסתם ככל שהSTRIDE גדל התוצאות נפגעו. זה בגלל שפחות מידע מהתמונה נלקח בחשבון.

Evaluation –Generalization
Cross data set test using TID2008 data set כאן הם גם בדקו את ההכללה של הרשת על ידי כך שבדקו למול BENCHMARK אחר. גם כאן בדומה להשוואה לFR היה צורך בביצוע התאמת ה SCORES ועשו זאת באופן דומה עם 80% מהדטא לצורך אימון פונקציה לוגיסטית שתטיל את התוצאות לתחום בין 0 ל1 (חזרו על כך 100 פעמים) אלה התוצאות למול ה STATE OF THE ART בDATA הזה.

Evaluation –Local Quality Estimation
WN BLUR JPEG JPEG2000 זה החלק המיוחד בעבודה שלהם – לנצל את מבנה הרשת לביצוע הערכת איכות לוקאלית לכל איזור בתמונה הבדיקה הראשונה מראה את הביצועים שלהם כאשר לכל תמונה כאן אחד מבין 4 סוגי DISTORTION שונים ובכל תמונה מחולקת ל4 חלקים עם רמות שונות של DISTORTION בבדיקות הללו ה PATCHES בגודל 16X16 עם STRIDE 8

Evaluation –Local Quality Estimation
Local distortion JPEG JPEG2000 בדוגמאות אלה החליפו באיזורים שונים חלקים מהתמונה עם חלקים "מקולקלים" מה DATA SET כדי להראות שהאלגוריתם מצליח להפריד יפה איזורים תקינים ולא תקינים חשוב פה לציין שישנן דוגמאות שה DISTORTION ב TEST כלל לא היה ב TRAIN ועדיין הם מצליחים להפריד יפה ולציין איזורים בעייתיים.

Evaluation –Run time Using python Theano library
בשקף הזה ניתן לראות את זמני הריצה שלהם עבור רמות חפיפה שונות של ה PATCHEs

Conclusions State of The Art performance NR-IQA algorithm
Apply a CNN architecture for Natural Scene Statistics features extraction Transform Global assignment to Local Real time performance הצגתי שיטה לביצוע הערכת איכות תמונה ללא תמונת רפרנס שמגיע לביצועים מיטביים התאמת ארכיטקטורת רשת CNN למציאת פיצ'רים טבעיים בתמונה בשונה מהשימוש הבסיסי שלה במשימות כגון קלסיפיקציה או סגמנטציה סמנטית (להבחין בין תמונה "טבעית" ל"לא טבעית") מבצע בצורה אלגנטית מעבר מחישוב גלובאלי לחישוב לוקאלי של איכות התמונה זמני ריצה ל REAL TIME

Example of SROCC כאן זו דוגמא של חישוב SROCC של ערכי IQ לבין שעות צפייה בטלויזיה - מחשבים RANK ב X ו RANK בY - סוכמים את המרחק הריבועי בין ה RANKים כמו שכתוב במשוואה

CNN for No-Reference Image Quality Assessment(NR-IQA)

Similar presentations

Presentation on theme: "CNN for No-Reference Image Quality Assessment(NR-IQA)"— Presentation transcript:

Similar presentations

About project

Feedback

Log in

Auth with social network:

CNN for No-Reference Image Quality Assessment(NR-IQA)

Similar presentations

Presentation on theme: "CNN for No-Reference Image Quality Assessment(NR-IQA)"— Presentation transcript:

Similar presentations

About project

Feedback