Download presentation
Presentation is loading. Please wait.
2
Sparse Coding مهندس فرامرزپور Faramarzpour2005@gmaildotcom
دکتر کیوان راد دانشگاه صنعتی مالک اشتر - مجتمع دانشگاهی فناوری اطلاعات، ارتباطات و امنیت
3
فهرست مطالب: کد گذاری تنک کاربردها مبانی کد گذاری تنک
استفاده در بازشناسی استفاده در طبقه بندی جمع بندی دانشگاه صنعتی مالک اشتر - مجتمع دانشگاهی فناوری اطلاعات، ارتباطات و امنیت
4
کد گذاری تنک بردارهای داده را به صورت ترکیب خطی تعداد کمی از مؤلفه های یک دیکشنری بیان می کند. الهام گرفته از Neural code است: Neural coding چگونگی بازنمایی اطلاعات و حواس در مغز توسط شبکه ای از نورون ها را بررسی می کند. دانشگاه صنعتی مالک اشتر - مجتمع دانشگاهی فناوری اطلاعات، ارتباطات و امنیت
5
= [a1, …, a64] (feature representation)
Natural Images Learned bases (f1 , …, f64): “Edges” روش موفق در انتخاب ویژگی تخمین با بعد پایین تر از یک سیگنال تنکی از لحاظ زمانی یا جمعیتی Test example » 0.8 * * * x » 0.8 * f * f * f63 [0, 0, …, 0, 0.8, 0, …, 0, 0.3, 0, …, 0, 0.5, …] = [a1, …, a64] (feature representation) Compact & easily interpretable دانشگاه صنعتی مالک اشتر - مجتمع دانشگاهی فناوری اطلاعات، ارتباطات و امنیت
6
نمایش سیگنال تبدیل فوریه موجک
نمایش سیگنال بر اساس مؤلفه های پایه ای سینوسی و کسینوسی موجک در مقایسه با تبدیل فوریه میتوان گفت که تبدیل موجک دارای خصوصیت محلیسازی بسیار خوبی است. تبدیل فوریه یک پیک تیز دارای تعداد زیادی ضریب است، چرا که توابع پایه تبدیل فوریه توابع سینوسی و کسینوسی هستند که دامنه آنها در کل بازه ثابت است، در حالی که توابع موجک توابعی هستند که بیشتر انرژی آنها در بازه کوچکی متمرکز شدهاست و به سرعت میرا میشوند. با انتخاب مناسب موجک های مادر می توان فشرده سازی بهتری در مقایسه با تبدیل فوریه انجام داد. دانشگاه صنعتی مالک اشتر - مجتمع دانشگاهی فناوری اطلاعات، ارتباطات و امنیت
7
کاربردها ترکیب خطی Image Processing Transform Coding Sparse PCA
دانشگاه صنعتی مالک اشتر - مجتمع دانشگاهی فناوری اطلاعات، ارتباطات و امنیت
8
حذف نویز در تصویر حذف تاری از تصویر فشرده سازی تصویر شناسایی چهره
کلاس بندی ردیابی اشیا دانشگاه صنعتی مالک اشتر - مجتمع دانشگاهی فناوری اطلاعات، ارتباطات و امنیت
9
Tranform Coding نوعی فشرده سازی اطلاعات است.
بیشتر در داده های طبیعی مثل صوت و تصاویر طبیعی استفاده میشود. هدف: حجم داده (پهنای باند مورد استفاده) کم شود. بر اساس نوع Application، اطلاعات اضافی حذف میشوند. ممکن است از دست دهنده باشد و عملیات معکوس داده اصلی را به درستی به دست نیاورد. بازنمایی خلوت میتواند این هدف را تامین کند. دانشگاه صنعتی مالک اشتر - مجتمع دانشگاهی فناوری اطلاعات، ارتباطات و امنیت
10
Sparse PCA در PCA ترکیب خطی از متغیرها (PC) به طوری پیدا میشود که واریانس داده ها در آن راستا بیشتر باشد. این کار سبب میشود تحلیل روی داده های با ابعاد کمتر ساده تر شود. در Sparse PCA تلاش میشود بردارهای خلوتی پیدا شوند که از آنها برای ترکیب خطی متغیرها (همچنان به منظور افزایش واریانس) استفاده شود. بدین ترتیب احتمالا برخی از متغیرها کنار گذاشته میشوند. دانشگاه صنعتی مالک اشتر - مجتمع دانشگاهی فناوری اطلاعات، ارتباطات و امنیت
11
دانشگاه صنعتی مالک اشتر - مجتمع دانشگاهی فناوری اطلاعات، ارتباطات و امنیت
12
مجموعه ای از مؤلفه های پایه (دیکشنری)
X: یک سیگنال در Rm مجموعه ای از مؤلفه های پایه (دیکشنری) بردار تنک آلفا در Rp به گونه ای است که: α، sparse code نامیده می شود. دانشگاه صنعتی مالک اشتر - مجتمع دانشگاهی فناوری اطلاعات، ارتباطات و امنیت
13
دانشگاه صنعتی مالک اشتر - مجتمع دانشگاهی فناوری اطلاعات، ارتباطات و امنیت
14
بی نهایت ضرایب α می توانند وجود داشته باشند که بتوانند x را تولید کنند.
= ضرایب تنک α دیکشنری (D) تصویر نویزی (x) دانشگاه صنعتی مالک اشتر - مجتمع دانشگاهی فناوری اطلاعات، ارتباطات و امنیت
15
استفاده از ضرایب لاگرانژ در بهینه سازی
پیدا کردن مینمم یا ماکزیمم یک تابع در حالی که محدود به شرایطی است. هدایت کردن محدود کردن دانشگاه صنعتی مالک اشتر - مجتمع دانشگاهی فناوری اطلاعات، ارتباطات و امنیت
16
در نقطه بهینه، شیب f و g همراستا هستند.
در سایر نقاط، مشتق f مولفه ای در راستای منحنی g=c دارد. اگر در این راستا حرکت کنیم، ضمن اینکه روی منحنی g=c باقی مانده ایم، مقدار تابع f را نیز بهینه تر کرده ایم. وجود ضریب لاگرانژ بدان علت است که مشتق f وg در نقطه بهینه لزوما هم اندازه نیستند و فقط هم راستا هستند. این ضریب باعث میشود چنین نقطه ای عملا قابل محاسبه باشد. دانشگاه صنعتی مالک اشتر - مجتمع دانشگاهی فناوری اطلاعات، ارتباطات و امنیت
17
X ضرایب ستونهای ماتریس A است.
ستونها، بردارهایی در فضای nبعدی هستند که قرار است نقطه b را بر حسب آنها بیان کرد. وقتی m>n باشد، ممکن است بینهایت انتخاب برای x وجود داشته باشد: لذا شکل جوابهای x،در فضای m بعدی قابل بررسی است. این بار سطرهای A ضرایب X هستند. اگر A تک سطری باشد: [a b c][x y z]T=b صفحهای در فضای 3بعدی. صفحه=ابرسطحی به ابعاد 2 اگر A دوسطری باشد، دو صفحه در فضای 3 بعدی داریم که هر دو باید برقرار باشند: تلاقی دو صفحه(خط)، جوابهای X است: خط=ابرسطحی به ابعاد 1 ماتریس full Rank یعنی با فرض n<m، ستونهای ماتریس nبردار غیر وابسته خطی به هم را داشته باشد. مقدارnبیشترین مقدار ممکن است و لذا full rank گفته میشود. پس هم باید ستونها بتوانند کل فضای n بعدی را پوشش دهند و هم nتا بردار غیر وابسته به هم داشته باشد. دانشگاه صنعتی مالک اشتر - مجتمع دانشگاهی فناوری اطلاعات، ارتباطات و امنیت
18
جوابی که با مشتق گیری در مساله بهینه سازی قابل یافتن است:
یکتا و بهینه دانشگاه صنعتی مالک اشتر - مجتمع دانشگاهی فناوری اطلاعات، ارتباطات و امنیت
19
معادله تجزیه تنک Ψ(α) تنک بودن را لحاظ می کند، می تواند:
نرم L0 باشد تنک بودن قطعاً لحاظ می شود نرم L1 باشد .... نرم L∞ باشد تعریف نرم دانشگاه صنعتی مالک اشتر - مجتمع دانشگاهی فناوری اطلاعات، ارتباطات و امنیت
20
الگوریتم های پیدا کردن اسپارس کد ( α )
Matching pursuit Orthogonal Matching pursuit LS-OMP Lasso FOCUSS دانشگاه صنعتی مالک اشتر - مجتمع دانشگاهی فناوری اطلاعات، ارتباطات و امنیت
21
هر دو روش تکراری محسوب می شوند
MP و OMP در OMP هر مؤلفه دیکشنری تنها یک بار می تواند انتخاب شود پیاده سازی دشوارتری دارد می توان DTD را یک بار اول الگوریتم پیاده سازی کرد می توان DTr را برای هر سیگنالی از قبل محاسبه کرد می توان تجزیه چلسکی را برای هر سیگنال از قبل محاسبه کرد هر دو روش تکراری محسوب می شوند دانشگاه صنعتی مالک اشتر - مجتمع دانشگاهی فناوری اطلاعات، ارتباطات و امنیت
22
الگوریتم LS –OMP each of the tests in the sweep stage is done as full Least-Squares (LS) الگوریتم بهبود یافته در هر بار که یک ستون انتخاب میشود، فرض نباشد که همین یک ستون باید خطا را تقریب زند، بلکه این ستون کاندید در کنار ستونهای قبلی انتخاب شده قرار است تقریب بزند و همه ضرایب ستونها هم یکجا محاسبه شود! هزینه بالاتری دارد. دانشگاه صنعتی مالک اشتر - مجتمع دانشگاهی فناوری اطلاعات، ارتباطات و امنیت
23
الگوریتم Lasso Lasso مسئله تخمین تنک بودن را به یک مسئله محدب تبدیل می کند. بهتر از الگوریتم های حریصانه تکراری مشکل : نرم صفر راه حل: تبدیل به نرم یک معادله محدب بدست می آید نرم یک با مقدار مؤلفه ها سر و کار دارد نه با تعداد نرم یک کوچک ممکن است نرم صفر بزرگی باشد دانشگاه صنعتی مالک اشتر - مجتمع دانشگاهی فناوری اطلاعات، ارتباطات و امنیت
24
الگوریتم FOCUSS از روشی با نام Iterative-Reweighed-Least-Squares (IRLS) برای تقریب زدن نرم صفر توسط نرم 2 وزن دار استفاده میکند. این مساله محدب است و با تابع لاگرانژ قابل حل است. علت اینکه تلاش کردیم تا نرم p را به صورت نرم2 بیان کنیم : نرم های کمتر از 1، هنگام مشتق گیری از تابع لاگرانژ، توان منفی برای x ایجاد میکنند که حل آن درد سر بیشتری دارد و در برخی نقاط هم تحلیلی نیست به لحاظ هندسی هم نرم های کمتر از 1 نقاط غیر تحلیلی دارند که احتمالا جواب بهینه در نزدیک همان نقاط است. نرم صفر هم که اصلا قابل مشتق گیری نیست . دانشگاه صنعتی مالک اشتر - مجتمع دانشگاهی فناوری اطلاعات، ارتباطات و امنیت
25
روش های یادگیری دیکشنری
Brute-force search تمام حالت های ممکن برای دیکشنری را در نظر می گیرد نا ممکن به عنوان base line K-means-like MOD K_SVD نمونه های آموزشی دانشگاه صنعتی مالک اشتر - مجتمع دانشگاهی فناوری اطلاعات، ارتباطات و امنیت
26
الگوریتم MOD این معادله غیر محدب است. دو متغیر A و x
مینمم کردن در دو مرحله انجام می شود گامی که A را مینمم می کند، گام به روز رسانی دیکشنری نامیده می شود از روی داده های آموزشی انجام می شود تمام داده های آموزشی را کنار هم قرار می دهیم: Y (n*M) تمام ضرایب مجهول را هم کنار هم قرار می دهیم: X (m*M) معادله Y=AX ایجاد می شود دانشگاه صنعتی مالک اشتر - مجتمع دانشگاهی فناوری اطلاعات، ارتباطات و امنیت
27
الگوریتم MOD در هر گام ابتدا دیکشنری A را مینمم می کنیم و سپس تعداد صفرهای x را مینمم می کند. در گام k: A(k-1) بدست آمده از گام قبلی استفاده می شود و معادله برای تمام yi ها بر اساس روش های قبلی گفته شده حل می شود (دیکشنری ثابت فرض می شود) از ماتریس X(k) بدست آمده، دیکشنری A(k) با حداقل کردن مربع خطا بدست می آوریم: دانشگاه صنعتی مالک اشتر - مجتمع دانشگاهی فناوری اطلاعات، ارتباطات و امنیت
28
دانشگاه صنعتی مالک اشتر - مجتمع دانشگاهی فناوری اطلاعات، ارتباطات و امنیت
29
دیکشنری های MOD و K-SVD به ظاهر شبیه اند اما تنها 14% بردار یکسان(خیلی شبیه به هم) دارند.
نتیجه آزمایش: دانشگاه صنعتی مالک اشتر - مجتمع دانشگاهی فناوری اطلاعات، ارتباطات و امنیت
30
اگر میزان فشرده سازی را یکسان در نظر بگیریم:
دانشگاه صنعتی مالک اشتر - مجتمع دانشگاهی فناوری اطلاعات، ارتباطات و امنیت
31
طبقه بندی با sparse coding
مسئله اساسی در الگوریتم های طبقه بندی: انتخاب ویژگی دیکشنری بزرگی از ویژگی های ممکن همزمان یا قبل از فاز تخمین پارامترها انتخاب ویژگی بهینه، NP-complete راه حل: تغییر تابع جریمه، لحاظ کردن شرط تنک بودن دانشگاه صنعتی مالک اشتر - مجتمع دانشگاهی فناوری اطلاعات، ارتباطات و امنیت
32
طبقه بندی با sparse coding
کدگذاری تنک نوعی بازسازی مناسب برای کاربردهای حذف نویز، تشخیص چهره روش های discriminative (LDA): مناسب برای طبقه بندی ادغام دو روش: مقابله با نویز، missing data، outlier تبدیل به روش state of art استفاده از Fisher برای ساخت دیکشنری هر دو مزیت لحاظ می شود. دانشگاه صنعتی مالک اشتر - مجتمع دانشگاهی فناوری اطلاعات، ارتباطات و امنیت
33
SIFT descriptors x(1), x(2), …, x(m) (each in R128)
Input: Images x(1), x(2), …, x(m) (each in Rn x n) Learn: Dictionary of bases f1, f2, …, fk (also Rn x n). Training time Test time Input: Novel image x (in Rn x n) and previously learned fi’s. Output: Representation [a1, a2, …, ak] of image x. » 0.8 * * * x » 0.8 * f * f * f63 Represent as: [0, 0, …, 0, 0.8, 0, …, 0, 0.3, 0, …, 0, 0.5, …] دانشگاه صنعتی مالک اشتر - مجتمع دانشگاهی فناوری اطلاعات، ارتباطات و امنیت
34
جمع بندی رویکرد موفق در انتخاب ویژگی
نمایش یک بردار ویژگی به صورت ترکیب خطی تعداد اندکی از مؤلفه های یک دیکشنری از قبل تعریف شده است. نرم یک شرط تنک بودن را فراهم می کند. دیکشنری و ضرایب در فرمول کدگذاری تنک به طور جداگانه پیدا می شوند. کدگذاری تنک به روش state-of-art در بسیاری از کاربردها تبدیل شده است. دانشگاه صنعتی مالک اشتر - مجتمع دانشگاهی فناوری اطلاعات، ارتباطات و امنیت
35
بررسی مقاله NON-NEGATIVE SPARSE CODING FOR HUMAN ACTION RECOGNITION
S. Mohsen Amiri, Panos Nasiopoulos, Victor C.M. Leung Department of Electrical and Computer Engineering The University of British Columbia Vancouver, BC, Canada {mohsena, panos, دانشگاه صنعتی مالک اشتر - مجتمع دانشگاهی فناوری اطلاعات، ارتباطات و امنیت
36
تشخیص عمل انجام شده توسط انسان
الگوریتم آموزش دیکشنری کدینگ تنک غیر منفی، برای جداسازی فعالیت های مختلف در این مقاله SVM می باشد. در داده های KTH به دقت 100 درصد رسید است. شناسایی خودکار عمل انسان موضوع بسیار مهم مورد نیاز در برنامه های کاربردی مختلف از جمله نظارت تصویری در محیط های هوشمند و یا بازیابی ویدیویی موتورهای جستجوگر و.. است دانشگاه صنعتی مالک اشتر - مجتمع دانشگاهی فناوری اطلاعات، ارتباطات و امنیت
37
دقت این تکنیک تا حدود زیادی به دقت ردیاب بدن انسان بستگی دارد.
در طول چند سال گذشته، الگوریتم های مختلف تشخیص پیشنهاد شده است، در بسیاری از این الگوریتم ها رفتار انسان به صورت اشیای D3 (مکان – زمان ) در نظر گرفته شده است. دقت این تکنیک تا حدود زیادی به دقت ردیاب بدن انسان بستگی دارد. این عمل ردیابی به دلیل انسداد و به هم ریخته شدن پس زمینه کاری بسیار چالش برانگیز می باشد و بالا بردن دقت در آن کار بسیار دشواری است. تحلیل بخش های مکان – زمان محلی که توسط سیگنال ویدیو اطلاعات جمع می شود، نتایج بهتری را نشان داده است. ساختار بخش های مکانی – زمانی محلی، توسط تکنیک های مختلف یاگیری ماشین از قبیل SVM بدست می آید. دانشگاه صنعتی مالک اشتر - مجتمع دانشگاهی فناوری اطلاعات، ارتباطات و امنیت
38
Bag – of - Word مدل پذیرفته شده خوب برای توصیف دنباله ویدیو یا تصویر، برای استخراج ویژگی به صورت محلی است. این تکنیک از quantize کردن عبارت مکانی – زمانی و محاسبه هیستوگرام فشرده آنها برای مجموعه نامرتبی از ویژگی ها استفاده می کند و آنها را به عنوان نماینده کل global در نظر می گیرد. معمولا برای ایجاد بخش های visual، مکانی – زمانی از الگوریتم خوشه بندی K-Means استفاده می شود. جایگزینی این الگوریتم با Sparse Coding دقت بالاتری را ارائه می دهد. دانشگاه صنعتی مالک اشتر - مجتمع دانشگاهی فناوری اطلاعات، ارتباطات و امنیت
39
دانشگاه صنعتی مالک اشتر - مجتمع دانشگاهی فناوری اطلاعات، ارتباطات و امنیت
40
این افزایش دقت را Sparse Coding ، با افزایش ابعاد بدست می آورد.
افزایش ابعاد سبب می شود Train سخت تری داشته باشیم و Overfitting اتفاق بیافتد. روش این مقاله در مواجهه با این مشکل، استخراج اسپارس های غیر منفی ویژگی های مکانی – زمانی بوده است که نتایج خوبی را باعث شده است. دانشگاه صنعتی مالک اشتر - مجتمع دانشگاهی فناوری اطلاعات، ارتباطات و امنیت
41
دانشگاه صنعتی مالک اشتر - مجتمع دانشگاهی فناوری اطلاعات، ارتباطات و امنیت
42
دانشگاه صنعتی مالک اشتر - مجتمع دانشگاهی فناوری اطلاعات، ارتباطات و امنیت
43
Thank You ? دانشگاه صنعتی مالک اشتر - مجتمع دانشگاهی فناوری اطلاعات، ارتباطات و امنیت
Similar presentations
© 2024 SlidePlayer.com. Inc.
All rights reserved.