Download presentation
Presentation is loading. Please wait.
Published byΕσδράς Ράγκος Modified over 6 years ago
1
استفاده از ماشین بردار پشتیبان (SVM) برای تشخیص گوینده
سمینار درس بازشناسی گفتار سجاد شیرعلی شهرضا
2
فهرست مطالب تشخیص گوینده استخراج ویژگی برای تشخیص گوینده
مسئله دستهبندی و جداسازی نمونهها از روی ویژگیها معیار مقایسه دستهبندی کنندهها دستهبندی کننده خطی پیدا کردن دستهبندی خطی بهینه استفاده از فضاهای بالاتر و توابع هسته حالت خطای یادگیری غیر صفر
3
تشخیص گوینده تفکیک گوینده های مختلف از یکدیگر
استفاده از ویژگیهای صوتی برای تشخیص دو روش کلی: ساخت مدل برای هر گوینده و تطبیق دادن نمونه جدید با مدلها سعی در تفکیک گوینده های مختلف از یکدیگر
4
استخراج ویژگی برای کاهش ابعاد
تعداد زیاد نمونه در صدای ذخیره شده حداقل 8 کیلو هرتز، 8 بیت برای هر نمونه (64 کیلو بیت بر ثانیه) نیاز به این دقت برای پخش صدا و بازسازی موج تغییر آهسته ویژگیهای صدا در طول زمان امکان نمایش و ذخیره یک پنجره (فریم) نسبتا طولانی (10 تا 25 میلی ثانیه) با تعداد کمی ویژگی نمایش یک پنجره با 14 ویژگی: کاهش ابعاد به نسبت 11.4 نیاز به تعریف و استخراج ویژگی
5
استخراج ویژگی برای تشخیص گوینده
اطلاعات گوینده در طول موج بازه های کوتاه short-term spectrum اطلاعات موجود در یک پنجره 20 میلی ثانیه ای یکی رایج ترین ویژگیها : Mel-warped Cepstra استفاده از فیلتر mel بر روی طیف به منظور تاکید کمتر بر روی فرکانس های بالا تبدیل غیر خطی الهام گرفته شده از روی سیستم شنوایی انسان استفاده از چند ضریب اول (معمولا 14 ضریب)
6
Mel-warped Cepstra
7
مسئله دستهبندی و جداسازی نمونهها از روی ویژگیها
یادگرفتن مفاهیم از روی نمونههای آموزشی سادهترین حالت: حالت دو کلاسه نمونههای مثبت نمونههای منفی فضای چند بعدی نمونهها: بردارهای عددی +1 -1
8
مقدمه (ادامه) یک جواب ممکن
9
مقدمه (ادامه) یک جواب ممکن دیگر
10
مقدمه (ادامه) یک جواب ممکن دیگر
11
معیار مقایسه کدام جواب بهتر است؟ منظور از بهتر بودن جواب؟
نیاز به کمیت عددی یک معیار: خطای هر جواب
12
خطای روش خطای دستهبندی نمونههای آموزشی (Emperical Risk)
خطای دستهبندی کلیه دادهها مشکل اصلی عدم دانستن تابع توزیع احتمال عدم امکان محاسبه R نیاز به تخمین R
13
بعد VC VC: Vapnik Chervonenkis ویژگی یک خانواده از توابع
بیان کننده میزان انعطاف یک تابع در دستهبندی حالات مختلف برای حالت دو کلاسه: حداکثر تعداد نمونههای مختلف (h) که به ازای هر حالت از 2h برای نمونهها، تابعی در خانواده باشد که تمامی نمونهها را به درستی نشان دهد.
14
مثال بعد VC یک خط در فضای دو بعدی 3 نقطه: 4 نقطه: h=3
15
بعد VC توابع خطی یک تابع خطی در فضای d بعدی (Rd)
یک ابر صفحه است دارای بعدی VC برابر d+1 است.
16
تخمین میزان خطا ثابت شده است (Vapnic 1995) که رابطه زیر با احتمال برقرار است.
17
مثالی از رابطه قبل
18
دستهبندی کننده خطی دستهبندی کردن داده با استفاده از یک صفحه
19
دستهبندی خطی بهینه هدف: انتخاب تابع خطی (ابر صفحه) بهینه
نیاز به معیار بهینه بودن SVM : بیشتر کردن حداقل فاصله نمونهها تا خط KFD: بیشتر کردن فاصله دستهها و کمتر کردن پراکندگی دستهها
20
KFD : Kernel Fisher Discriminant
21
SVM: Support Vector Machines
Class 2 m Class 1
22
پیدا کردن دستهبندی کننده خطی
تابع مورد نظر: تشخیص درست تمامی نمونهها: در فضای بالاتر:
23
پیدا کردن دستهبندی کننده خطی (ادامه)
رابطه بین بعد VC و اندازه بردار w: از طرفی داریم: پس برای بیشینه کردن قدرت تعمیم باید:
24
ضرایب لاگرانژ هدف کمینه یا بیشینه کردن تابع با توجه به شرط است.
هدف کمینه یا بیشینه کردن تابع با توجه به شرط است. میتوان تابع زیر را تعریف کرد: و قرار داد:
25
استفاده از ضرایب لاگرانژ
با استفاده از ضرایب لاگرانژ میتوان نوشت: که در نقطه بهینه داریم: و یا معادلا داریم:
26
استفاده از فضاهای بالاتر
در فضاهای بالاتر، دستهبندی کننده خطی دارای بعد VC بیشتری است. بنابراین میتواند توابع پیچیدهتر را تشخیص دهد.
27
استفاده از توابع هسته به تابع k یک تابع هسته میگوییم اگر: مثال:
28
چند تابع هسته معروف
29
استفاده از تابع هسته شرایط: را میتوان به صورت زیر نوشت:
30
استفاده از تابع هسته (ادامه)
بنابراین داریم:
31
مثال Class 2 Class 1 a10=0 a8=0.6 a7=0 a2=0 a5=0 a1=0.8 a4=0 a6=1.4
32
خطای یادگیری غیر صفر Class 1 Class 2
33
خطای یادگیری غیر صفر (ادامه)
به جای شرط: داریم:
34
خطای یادگیری غیر صفر (ادامه)
تابع مورد نظر برای کمینه سازی: به طور معادل داریم:
35
رابطه تعداد بردار پشتیبان و خطای تست
36
حالت چند کلاسه روش SVM برای حالت دو کلاسه دو راه برای حالت چند کلاسه
استفاده از یک جداکننده برای هر کلاس از بقیه نیاز به n جداکننده سرعت بیشتر استفاده از یک جداکننده برای جدا کردن هر دو کلاس از هم نیاز به n(n-1)/2 جداکننده دقت بیشتر
37
مجموعه Switchboard تهیه شده توسط NIST
برای آزمایش تشخیص گفتار عادی (spontaneous) صدای ضبط شده از پشت خط تلفن 26 گوینده (15 مرد، 11 زن) برای هر گوینده 10 تا 15 ثانیه نمونه آموزشی و 18 نمونه آزمایشی به طول متوسط 5 ثانیه یک مجموعه دشوار: کیفیت پایین صدا به خاطر کیفیت پایین میکروفون و خط، عبور از خط تلفن و فیلتر شدن، نمونه آموزشی و آزمایشی کم
38
نمونه ای از نتایج استفاده از SVM
تست بر روی مجموعه Switchboard 10 ثانیه نمونه آموزشی: 1000 ضریب کپستروم استفاده از مدل GMM: 51% دقت استفاده از یک جداکننده برای هر گوینده در برابر بقیه: استفاده از یک جداکننده برای هر جفت گوینده :
Similar presentations
© 2025 SlidePlayer.com. Inc.
All rights reserved.