استفاده از ماشین بردار پشتیبان (SVM) برای تشخیص گوینده

استفاده از ماشین بردار پشتیبان (SVM) برای تشخیص گوینده
سمینار درس بازشناسی گفتار سجاد شیرعلی شهرضا

فهرست مطالب تشخیص گوینده استخراج ویژگی برای تشخیص گوینده
مسئله دسته‌بندی و جداسازی نمونه‌ها از روی ویژگی‌ها معیار مقایسه دسته‌بندی کننده‌ها دسته‌بندی کننده خطی پیدا کردن دسته‌بندی خطی بهینه استفاده از فضاهای بالاتر و توابع هسته حالت خطای یادگیری غیر صفر

تشخیص گوینده تفکیک گوینده های مختلف از یکدیگر
استفاده از ویژگیهای صوتی برای تشخیص دو روش کلی: ساخت مدل برای هر گوینده و تطبیق دادن نمونه جدید با مدلها سعی در تفکیک گوینده های مختلف از یکدیگر

استخراج ویژگی برای کاهش ابعاد
تعداد زیاد نمونه در صدای ذخیره شده حداقل 8 کیلو هرتز، 8 بیت برای هر نمونه (64 کیلو بیت بر ثانیه) نیاز به این دقت برای پخش صدا و بازسازی موج تغییر آهسته ویژگیهای صدا در طول زمان امکان نمایش و ذخیره یک پنجره (فریم) نسبتا طولانی (10 تا 25 میلی ثانیه) با تعداد کمی ویژگی نمایش یک پنجره با 14 ویژگی: کاهش ابعاد به نسبت 11.4 نیاز به تعریف و استخراج ویژگی

استخراج ویژگی برای تشخیص گوینده
اطلاعات گوینده در طول موج بازه های کوتاه short-term spectrum اطلاعات موجود در یک پنجره 20 میلی ثانیه ای یکی رایج ترین ویژگیها : Mel-warped Cepstra استفاده از فیلتر mel بر روی طیف به منظور تاکید کمتر بر روی فرکانس های بالا تبدیل غیر خطی الهام گرفته شده از روی سیستم شنوایی انسان استفاده از چند ضریب اول (معمولا 14 ضریب)

Mel-warped Cepstra

مسئله دسته‌بندی و جداسازی نمونه‌ها از روی ویژگی‌ها
یادگرفتن مفاهیم از روی نمونه‌های آموزشی ساده‌ترین حالت: حالت دو کلاسه نمونه‌های مثبت نمونه‌های منفی فضای چند بعدی نمونه‌ها: بردارهای عددی +1 -1

مقدمه (ادامه) یک جواب ممکن

مقدمه (ادامه) یک جواب ممکن دیگر

معیار مقایسه کدام جواب بهتر است؟ منظور از بهتر بودن جواب؟
نیاز به کمیت عددی یک معیار: خطای هر جواب

خطای روش خطای دسته‌بندی نمونه‌های آموزشی (Emperical Risk)
خطای دسته‌بندی کلیه داده‌ها مشکل اصلی عدم دانستن تابع توزیع احتمال عدم امکان محاسبه R نیاز به تخمین R

بعد VC VC: Vapnik Chervonenkis ویژگی یک خانواده از توابع
بیان کننده میزان انعطاف یک تابع در دسته‌بندی حالات مختلف برای حالت دو کلاسه: حداکثر تعداد نمونه‌های مختلف (h) که به ازای هر حالت از 2h برای نمونه‌ها، تابعی در خانواده باشد که تمامی نمونه‌ها را به درستی نشان دهد.

مثال بعد VC یک خط در فضای دو بعدی 3 نقطه: 4 نقطه: h=3

بعد VC توابع خطی یک تابع خطی در فضای d بعدی (Rd)
یک ابر صفحه است دارای بعدی VC برابر d+1 است.

تخمین میزان خطا ثابت شده است (Vapnic 1995) که رابطه زیر با احتمال برقرار است.

مثالی از رابطه قبل

دسته‌بندی کننده خطی دسته‌بندی کردن داده با استفاده از یک صفحه

دسته‌بندی خطی بهینه هدف: انتخاب تابع خطی (ابر صفحه) بهینه
نیاز به معیار بهینه بودن SVM : بیشتر کردن حداقل فاصله نمونه‌ها تا خط KFD: بیشتر کردن فاصله دسته‌ها و کمتر کردن پراکندگی دسته‌ها

KFD : Kernel Fisher Discriminant

SVM: Support Vector Machines
Class 2 m Class 1

پیدا کردن دسته‌بندی کننده خطی
تابع مورد نظر: تشخیص درست تمامی نمونه‌ها: در فضای بالاتر:

پیدا کردن دسته‌بندی کننده خطی (ادامه)
رابطه بین بعد VC و اندازه بردار w: از طرفی داریم: پس برای بیشینه کردن قدرت تعمیم باید:

ضرایب لاگرانژ هدف کمینه یا بیشینه کردن تابع با توجه به شرط است.
هدف کمینه یا بیشینه کردن تابع با توجه به شرط است. می‌توان تابع زیر را تعریف کرد: و قرار داد:

استفاده از ضرایب لاگرانژ
با استفاده از ضرایب لاگرانژ می‌توان نوشت: که در نقطه بهینه داریم: و یا معادلا داریم:

استفاده از فضاهای بالاتر
در فضاهای بالاتر، دسته‌بندی کننده خطی دارای بعد VC بیشتری است. بنابراین می‌تواند توابع پیچیده‌تر را تشخیص دهد.

استفاده از توابع هسته به تابع k یک تابع هسته می‌گوییم اگر: مثال:

چند تابع هسته معروف

استفاده از تابع هسته شرایط: را می‌توان به صورت زیر نوشت:

استفاده از تابع هسته (ادامه)
بنابراین داریم:

مثال Class 2 Class 1 a10=0 a8=0.6 a7=0 a2=0 a5=0 a1=0.8 a4=0 a6=1.4

خطای یادگیری غیر صفر Class 1 Class 2

خطای یادگیری غیر صفر (ادامه)
به جای شرط: داریم:

خطای یادگیری غیر صفر (ادامه)
تابع مورد نظر برای کمینه سازی: به طور معادل داریم:

رابطه تعداد بردار پشتیبان و خطای تست

حالت چند کلاسه روش SVM برای حالت دو کلاسه دو راه برای حالت چند کلاسه
استفاده از یک جداکننده برای هر کلاس از بقیه نیاز به n جداکننده سرعت بیشتر استفاده از یک جداکننده برای جدا کردن هر دو کلاس از هم نیاز به n(n-1)/2 جداکننده دقت بیشتر

مجموعه Switchboard تهیه شده توسط NIST
برای آزمایش تشخیص گفتار عادی (spontaneous) صدای ضبط شده از پشت خط تلفن 26 گوینده (15 مرد، 11 زن) برای هر گوینده 10 تا 15 ثانیه نمونه آموزشی و 18 نمونه آزمایشی به طول متوسط 5 ثانیه یک مجموعه دشوار: کیفیت پایین صدا به خاطر کیفیت پایین میکروفون و خط، عبور از خط تلفن و فیلتر شدن، نمونه آموزشی و آزمایشی کم

نمونه ای از نتایج استفاده از SVM
تست بر روی مجموعه Switchboard 10 ثانیه نمونه آموزشی: 1000 ضریب کپستروم استفاده از مدل GMM: 51% دقت استفاده از یک جداکننده برای هر گوینده در برابر بقیه: استفاده از یک جداکننده برای هر جفت گوینده :

استفاده از ماشین بردار پشتیبان (SVM) برای تشخیص گوینده

Similar presentations

Presentation on theme: "استفاده از ماشین بردار پشتیبان (SVM) برای تشخیص گوینده"— Presentation transcript:

Similar presentations

About project

Feedback

Log in

Auth with social network:

استفاده از ماشین بردار پشتیبان (SVM) برای تشخیص گوینده

Similar presentations

Presentation on theme: "استفاده از ماشین بردار پشتیبان (SVM) برای تشخیص گوینده"— Presentation transcript:

Similar presentations

About project

Feedback