بررسي روش انسان در تشخيص صحبت و شبيه‌سازي آن

بررسي روش انسان در تشخيص صحبت و شبيه‌سازي آن
به نام خدا بررسي روش انسان در تشخيص صحبت و شبيه‌سازي آن سيد کمال‌الدين غياثي شيرازي دانشکده مهندسي کامپيوتر دانشگاه صنعتي شريف 28/10/1383

مطالب شناخت انسان و سيگنال صحبت سيستم استخراج ويژگي سيستم بازشناسي
آزمايش‌ها

1- بررسي روش انسان در تشخيص صحبت

محدوديت‌هايي که روش‌هاي موجود ايجاد مي‌کنند
غير قابل تفسير مبتني بر مدل (معمولا HMM) وابسته به اطلاعات زباني بدون قابليت کشف صدا‌هاي جديد مبتني بر نظريه احتمال هستند که شواهد زيادي نشان مي‌دهند که انسان بر مبناي اين نظريه کار نمي‌کند پيوند غير طبيعي با سطوح بالاتر زباني مانند کلمه و گرامر و نيز مبتني بودن بر مدل زباني خلاصه: همه مشکلات از بالا به پايين حل مي‌شوند (ما راه حل را کشف مي‌کنيم و به کامپيوتر مي‌دهيم)

توليد ابزار دستکاري سيگنال در فرکانس pitch
دستکاري سيگنال در فضاي طيف‌نگار دستکاري سيگنال در فضاي بانک فيلتر

ويژگي‌هاي سيگنال صحبت؟
فازي غير دقيق اهميت ويژگي‌ها با انرژي آنها متناسب است مبتني بر نظريه امكان

سيگنال صحبت فازي است در مثال بعد مي‌بينيم که حرف «ي» مي‌تواند به‌جاي حرف «ن» به‌کار رود. به عبارت ديگر «ي» و «ن» بودن مفهومي فازي است که داراي اشتراک ذاتي است. نکته: ولي مي‌توان (امکان دارد) «ي» را به عنوان «ن» پذيرفت. س: احتمال اينکه کسي «ي» را مانند «ن» بگويد چقدر است؟

“i” + “N” + “A”

“i” + “A”

سيگنال صحبت غير دقيق است.
يعني ما نسبت به مقدار ويژگي‌ها خيلي حساس نيستيم.

كوانته شدن در فضاي بانك فيلتر

كوانته شدن در فضاي طيف‌نگار

ويژگي‌هاي پر انرژي مهم‌ترند (مثال 1)

“M” + “A” “N” + “A”

“N” + “A” “M” + “A”

ويژگي‌هاي پر انرژي مهم‌ترند (مثال 2)

Clean Speech

سيگنال نويزي

تشخيص مبتني بر نظريه امكان است
يعني در مواردي كه چيزي مبهم است (يعني چند تفسير ممكن وجود دارد) ، آن را آنطور كه مي‌خواهيم تفسير مي‌كنيم. ما آنچه را که دوست داريم مي‌شنويم نه آنچه را که هست.

به‌جاي t از نويز سفيد استفاده شده است.

تفاسير متداول از فازي که مد نظر ما نيست
افزايش سرعت سيستم‌هاي مبتني بر قانون عملگر‌هاي قابل تنظيم اينها درست هستند اما روح فازي نيستند.

مفاهيم اساسي فازي تنظيم رابطه بين درستي گزاره و دقت گزاره
کدام جمله درست‌تر است؟ کدام جمله دقيق‌تر است؟ قد من سانتيمتر است قد من بين 1.70 تا 2 متر است خلاصه: کاهش دقت و افزايش درستي، اطمينان، استحکام و قطعيت

مشکل مبهم بودن همه چيز اگر همه‌چيز داراي ابهام است پس ما چگونه مي‌توانيم صحبت بدون معني را 100٪ تشخيص دهيم؟ تشخيص صحبت بدون معني،با وجود نويز سفيد، به همراه صداهاي ناشناخته (مثل بوق ماشين)، با قطعيت؟ کدام‌يک را انتخاب مي‌کنيد؟ تاسي را بياندازيم و اگر 6 نيامد 60 ميليون تومان. اميد رياضي = 50 قطعا 40 ميليون تومان اميد رياضي = 40 انسان قطعيت را دوست دارد (+ مثالي از تفاوت احتمال با تفکر انسان).

تفسير ما از فازي بودن سيگنال صحبت
واج‌ها مجموعه‌هايي فازي هستند. اما در سيگنال صحبت بخش‌هايي هستند که آنها را شيء مي‌ناميم و اين اشياء با قطعيت قابل تميز هستند. (الزام) همچنين اشيائي هستند که تفاوت کمي با هم دارند مانند «م» و «ن» که در آنها دقيق نمي‌شويم. (امکان) «م» و «ن» مجموعه‌هايي فازي هستند (امکان) ولي گذر آنها به واج «آ» کاملا متمايز است (الزام).

نظريه امکان هدف: تشخيص صحبت ممکن. آنچه سيستم‌هاي کنوني (از جمله سيستم من) تشخيص مي‌دهند غير ممکن است چه برسد به محتمل. احتمال: محتمل‌ترين مدلي که اين سيگنال را توليد کرده است. امکان: اين مشاهده توسط کدام مدل‌ها قابل توليد است. خلاصه نظريه امکان: امکان A= ميزان شدني بودن A امکان Ac= ميزان شدني بودن Ac Poss(A) و Poss(Ac) مي‌توانند هر مقدار دلخواهي داشته باشند.

استفاده از نظريه امکان براي جهل وکشف
Poss(A)=1 Poss(Ac) =0 A Poss(A)=0 Poss(Ac) =1 Ac Poss(A)=1 Poss(Ac) = نمي‌دانم Poss(A)=0 Poss(Ac) =0 نويز=شيء جديد در نظريه احتمال که P(A)+P(Ac)=1 نمي‌دانم و کشف را نداريم. نکته: نمي‌دانم و کشف نويز همان چيز‌هايي هستند که به ما اجازه مي‌دهند با قطعيت حرف بزنيم. وقتي کسي فقط راجع به چيز‌هايي که مي‌داند حرف مي‌زند صحبتش قابل اعتماد‌تر است.

مطلوبات در مورد بخش استخراج ويژگي
استخراج ويژگي‌ها در 200ms تا چيزي که بتوان با قطعيت راجع به آن حرف زد وجود داشته باشد. مبتني بر ويژگي‌هاي شنيداري و بخش‌بندي بر اساس اشياء يک دليل براي اينکه توانايي صحبت کردن پس از توانايي شنيدن شکل مي‌گيرد اين است که کودکان به زبان خودشان حرف مي‌زنند ولي به زبان خودشان نمي‌شنوند. داراي دقتي مشابه انسان نسبت به مقدار ويژگي‌ها داراي استحکام بيشتر در مقابل نويز

مطلوبات در مورد سيستم بازشناسي
مبتني بر مدل نبودن مبتني بر نظريه امکان قابليت کشف اشياء جديد چون صحبت را خوب مي‌شناسيم اشياء جديد را نيز تشخيص مي‌دهيم. داراي پيچيدگي محاسباتي کمتر به علت استفاده از عملگر‌هاي Max و Min هدف: قطعيت در تشخيص صحبت.

س: چگونه با مدلي ساده مي‌خواهيد تنوع صحبت را پوشش دهيد؟
تطبيق در حين تشخيص. تغيير دادن پارامتر‌ها در جهت رسيدن به يک حالت ممکن و سپس افزايش مقدار امکان. چون حالات ممکن کم هستند، رسيدن به يکي از حالات ممکن خود گواه درستي راه است. (مشابه روش ML در نظريه احتمال) استفاده از چند مدل ساده. براي هر گونه از صحبت يک مدل ساده در نظر مي‌گيريم. خلاصه: نمونه را تغيير مي‌دهيم تا شبيه يکي از مدل‌ها شود.

روش پيشنهادي براي سيستم تشخيص صحبت
ايده اصلي: تغيير پارامتر‌ها در جهت شنيدن يک صداي ممکن

2- بخش‌بندي و استخراج ويژگي

اهداف سيستم بخش‌بندي مبتني بر مفهوم شيء که بدون اطلاعات زباني به دست مي‌آيد. در اين صورت مي‌توان توقع داشت که اشياء بزرگ‌تري مانند کلمه و جمله بر اساس اشياء کوچک‌تر شکل بگيرند. رابطه خوب با نوعي از نمايش دانش به نام گراف مفهومي که از انسان الهام گرفته است. در اين روش اشياء جديد با ارتباط برقرار کردن بين اشياء قبلي ساخته مي‌شوند. استخراج ويژگي‌ها در زمان و فرکانس (200ms) قابل تفسير بودن. در اينصورت مي‌توان از اطلاعات انسان در خواندن طيف‌نگار استفاده کرد.

روش بخش‌بندي و استخراج ويژگي OBSFE
محاسبه انرژي باند‌هاي فيلتر در قاب‌ها. تقريب زدن خط سير انرژي در هر باند فيلتر با خط. به دست آوردن اشياء. با استفاده از تقريب خطي سيگنال خط سير. بخش‌بندي سيگنال صحبت. استخراج ويژگي در هر بخش. ]در مرحله آموزش[ به دست آوردن صدك‌ها براي هر ويژگي. بيان مقدار هر ويژگي با عددي صحيح بين 0 تا 100.

خط سير انرژي در باند فيلتر 6‌ام

تقريب زدن خط سير با خط

پيدا کردن اشياء ممکن در هر بانک فيلتر

شيء شيئ بزرگ‌ترين شکل محدب در خط سير است.
ايده اصلي: شکل‌هاي محدب در سيگنال انرژي بيانگر اراده گوينده در توليد انرژي در زمان مشخصي هستند. توليد انرژي اطمينان از ظهور شيء عدم توليد انرژي

بخش‌بندي بر اساس کوچکترين اشياء

ويژگي‌هاي بخش‌بندي پس از بخش‌بندي يک مجموعه کاملا مرتب از بازه‌هاي زماني داريم که داراي همپوشاني هستند. اولين الگوريتم بخش‌بندي است که بخش‌ها داراي همپوشاني هستند (تا آنجا که ما ديده‌ايم). قابل تفسير است. کاهش شديد تعداد بردار‌هاي ويژگي نسبت به سيستم‌هاي مبتني بر قاب. در مثال قبل 104 قاب به 9 بخش ساده شده است. داراي تفکيک مناسب در زمان و فرکانس

استخراج ويژگي به هرحال يک بازه زماني به عنوان يک بخش داده مي‌شود.
خط سير‌هاي انرژي را با اين بازه زماني قطع مي‌دهيم و حاصل را با يک يا دو خط تقريب مي‌زنيم. ويژگي اول همان طول بخش است. براي هر باند فيلتر ويژگي‌هاي زير را حساب مي‌کنيم: بيشينه انرژي ميزان تقعر يا تحدب شيب خط مرکز ثقل

استخراج ويژگي بدين ترتيب 24×4+1=97 ويژگي استخراج مي‌شود.
اگر بخواهيم با HMM کار کنيم 24 ويژگي را با DCT به 12 عدد کاهش مي‌دهيم و به 49 ويژگي مي‌رسيم. در هنگام کار با پايگاه داده Aurora2 از 18 باند فيلتر استفاده مي‌کنيم. در نتيجه 9×4+1 = 37 ويژگي خواهيم داشت. اکنون ديگر ويژگي‌ها صرفا فرکانسي نيستند. ويژگي‌ها اکنون ماهيت زماني-فرکانسي دارند. با توجه به کار‌هاي ديگران توقع داريم که ويژگي‌هاي زماني-فرکانسي مقاوم‌تر باشند.

کوانته کردن ويژگي‌ها بر حسب صدک‌ها
با توجه به آماري که از روي داده آموزشي به دست مي‌آيد، هر مقدار ويژگي به عددي صحيح بين 0 تا 100 نگاشته مي‌شود. مزايا: سرعت بسيار بيشتر حافظه کمتر در ذخيره مقدار ويژگي. البته در مجموع حافظه بيشتري مصرف مي‌شود. عدم نياز به مدلي براي نشان دادن فضاي پيوسته. بدين ترتيب امکان توليد سيستم داده‌محور فراهم مي‌شود. رهايي از مفهوم مخلوط که در روش‌هاي مبتني بر مدل بايد براي رفع ضعف‌هاي مدل فرض شده (مانند تابع نرمال) استفاده شود.

مقايسه MFCC و OBSFE توسط سيستم HTK
MFCC% OBSFE% WER Improvement % 15dB 80.43 85.48 25.77 10dB 57.26 71.08 32.33 5dB 30.1 39.59 13.57 average 55.93 65.38 21.44

نويز‌هاي نوع 1 و 2 نتايج تنها بر روي نويز‌هايي که شيء جديد اضافه نمي‌کنند بالا رفت. مقصر؟ سيستم استخراج ويژگي يا سيستم بازشناسي نکته: به نظر مي‌رسد که بخش اعظم تفاوت 92٪ با 99٪ در بهينه نبودن سيستم در بخش پيش‌پردازش است. Subway, Exhibition, Street Babble, Car, restaurent, Airport, Station OBSFE MFCC Clean 91.34 99.04 91.45 99.01 20dB 89.2 96.39 89.87 92.58 15dB 81.65 91.33 85.48 80.14 10dB 64.1 73.83 71.08 57.07 5dB 32.94 45.15 39.59 30.03

مقايسه OBSFE با MFCC در تشخيص کلمه
مقاومت بيشتر در مقابل نويز قابل تفسير بودن ويژگي‌ها کاهش تعداد بر‌دار‌هاي ويژگي به حداقل يک پنجم تعداد قاب‌ها در MFCC سريع‌تر براي سيستم بازشناسي مزاياي MFCC پياده‌سازي ساده‌تر (بويژه از نظر سخت‌افزاري) 4٪ نتيجه بالاتر در محيط کاملا تميز

فرآيند بازشناسي

مساله بازشناسي از ديدگاه عملگر‌هاي فازي

P(M) کجاست؟ احتمال: امکان:

1- تهيه ليستي از واج‌هاي ممکن براي هر شيء
k k sh k k k s k k k k k k sh k ch k t e e e e ae e e r e y e e e e e e e e e e e e e e j j j j j j k j k j j b k Q k ch p d k d ch dj k t k k k k k k k A k k s k s s s 1- تهيه ليستي از واج‌هاي ممکن براي هر شيء

2- حذف نويز j j j j j k j k j j b k Q k ch p d k d ch dj k t k k k k
k A k s k s s s k sh k k k s k k k k k k sh k ch k t e e e ae e e r e y e e e e e e e e e e e e e e 2- حذف نويز

3- يافتن کوتاه‌ترين دنباله واجي
j j j j j k j k j j b k Q k ch p d k d ch dj k t k k k k k k k A k s k s s s k sh k k k s k k k k k k sh k ch k t e e e ae e e r e y e e e e e e e e e e e e e e 3- يافتن کوتاه‌ترين دنباله واجي

J k e 4- حذف واج‌هاي کوتاه j j j j j k j k j j b k Q k ch p d
k d ch dj k t k k k k k k k A k s k s s s k sh k k k s k k k k k k sh k ch k t e e e ae e e r e y e e e e e e e e e e e e e e 4- حذف واج‌هاي کوتاه J k e

توزيع امکان مثبت مخلوطي از ae

توزيع امکان منفي مخلوطي از ae

تفاضل دو توزيع

محاسبه شباهت اوليه (Non-discriminative)
در اين مرحله به دنبال تابعي هستيم که ميزان شباهت بردار ويژگي را با گروه بيان نمايد. در HMM نيز اين مرحله با شبکه عصبي کمي بهتر انجام مي‌شود. عملگر min براي اين کار مناسب نيست. اگر Π(O|A)<T آنگاه O شبيه به A نيست.

مقايسه عملگر‌هاي مختلف براي ترکيب ويژگي‌ها

محاسبه شباهت ثانويه (Discriminative)
اگر Π(O|A)>T خلاصه: به تفاوت‌هاي بين مدل مثبت و منفي اهميت بيشتري مي‌دهيم. 0.9 در مقابل 0.7 کم‌اهميت‌تر از 0.3 در مقابل 0.1 است.

محاسبه شباهت بردار ويژگي O به واج A
اگر Similarity+<Similarity- آنگاه O به A شبيه نيست. در غير اين صورت داريم: در نهايت تمام مقادير شباهت توسط اندازه‌گيري امکاني اصلاح ‌شده قابل تفسير مي‌شوند.

اشياء و نام گروه مربوط به آنها
اشياء با 4 نام ممکن اشياء و نام گروه مربوط به آنها فرآيند آموزش در اين مرحله مقدار عددي امکان نيز داراي معني مي‌شود.

تعيين امکان مثبت براي هر واحد آوايي-شنوايي
فرض کنيم نمونه‌هاي واحد آوايي-شنوايي A را مي‌شناسيم. i = يکي از ويژگي‌ها j = عددي بين 0 تا 100 NA(i,j) برابر تعداد دفعاتي است که ويژگي i مقدار j را گرفته است.

تعيين امکان منفي براي هر واحد آوايي-شنوايي
فرض کنيم ΠA(i,j) را داريم. از روي آن نمونه‌هاي واحد‌هاي آوايي-شنوايي ديگر را که شبيه A هستند را مي‌شناسيم. i = يکي از ويژگي‌ها j = عددي بين 0 تا 100 M~A(i,j) برابر تعداد دفعاتي است که در يکي از نمونه‌هايي که به اشتباه امکان A بودن آنها بالا است ويژگي i مقدار j را گرفته است.

4- آزمايش‌ها

4- آزمايش‌ها کلمه (تشخيص اعداد انگليسي بر روي دادگان Aurora2)
مقايسه MFCC و OBSFE با سيستم بازشناسي HTK واج (تشخيص واج‌هاي زبان فارسي بر روي دادگان فارس‌دات) مقايسه HMM با سيستم بازشناسي ما بر روي ويژگي‌هاي mfcc. مقايسه HMM با سيستم بازشناسي ما برروي ويژگي‌هاي OBSFE مقايسه HMM با سيستم بازشناسي ما در حضور اشياء ناشناخته.

مقايسه MFCC و OBSFE توسط سيستم HTK
MFCC% OBSFE% WER Improvement % 15dB 80.43 85.48 25.77 10dB 57.26 71.08 32.33 5dB 30.1 39.59 13.57 average 55.93 65.38 21.44

تشخيص واج بر روي لهجه تهراني فارس‌دات
سيستم بازشناسي امکاني مدل مخفي مارکوف MFCC 49.33% 66٪ OBSFE 36٪ 22٪ OBSFE به همراه 100% نويز ?

بررسي تاثير ساده‌سازي ها در تشخيص کلمه
تقريب زدن با خط 97.11٪ 95.76٪ کوانته کردن به 100 مقدار 98.93٪ 98.22٪

بررسي تاثير ساده‌سازي ها در تشخيص واج
تقريب زدن با خط 61٪ 60٪ کوانته کردن به 100 مقدار 67٪ 65٪

نتايج از ديدگاه فرار از محدوديت‌ها و شناخت بهتر
استخراج ويژگي‌ها در قاب فضاي ويژگي‌هاي پيوسته دقت بالا در مقدار ويژگي‌ها نظريه احتمال مبتني بر مدل بودن + قابل تفسير بودن نتايج نيز براي ادامه کار اميد‌بخش هستند.

نتايج از ديدگاه مشابهت به روش انسان
استخراج ويژگي در زمان-فرکانس که استحکام را بالا مي‌برد. کار با مفهوم شيء که از اطلاعات زباني مستقل است. مبتني بر مدل نبودن استفاده از نظريه امکان که با توجه به آزمايش‌هاي ما براي تشخيص صحبت طبيعي‌تر است. دقتي در حد 100 سطح. آزمايش‌هاي ما نشان مي‌دهد که انسان‌ها نيز به جزئياتي بيش از اين حساس نيستند.

با تشکر از ... دکتر باقري و دکتر رضوي‌زاده بخاطر تشويق‌ها، راهنمايي‌ها و انتقال تجربيات گرانقدرشان دکتر ثامتي بخاطر آشنا کردن من با روش‌هاي متداول تشخيص صحبت و در اختيار گذاشتن تمام امکاناتشان و صبر زيادشان دوستانم در شرکت عصر گويش و شما بخاطر حضورتان.

مراجع اصلي نظريه‌هاي عدم قطعيت
Zadeh L. A., Fuzzy sets as a basis for a theory of possibility. Fuzzy Sets and Systems, 1(1), Dubois D., Prade H., Possibility theory. New York, London Shafer G., A Mathematical Theory Of Evidence, Princeton University Press, Princeton, NJ, 1976. Zimmermann H.J., Fuzzy Set Theory And Its Applications, 3rd edition, Kluwer Academic Publishers, 1996.

مراجع اصلي تشخيص صحبت Schmid P., Explicit N-Best Formant Features for Segment-Based Speech Recognition. PhD Thesis. Oregon graduate Institute of Science and Technology YU H.J., OH Y.H., Fuzzy Expert System for Continuous Speech Recognition. Expert Systems With Applications, Vol. 9. No. 1, pp , 1995. Hermansky H. ,"Should recognizers have ears?". In Proc. ESCA Tutorial and Research Workshop on Robust Speech Recognition for Unknown Communication Channels, pp. 1-10, France 1997. Greenberg, S., "Understanding speech understanding - towards a unified theory of speech perception". Proceedings of the ESCA Tutorial and Advanced Research Workshop on the Auditory Basis of Speech Perception, Keele, England, p. 1-8, 1996.

بررسي روش انسان در تشخيص صحبت و شبيه‌سازي آن

Similar presentations

Presentation on theme: "بررسي روش انسان در تشخيص صحبت و شبيه‌سازي آن"— Presentation transcript:

Similar presentations

About project

Feedback

Log in

Auth with social network:

بررسي روش انسان در تشخيص صحبت و شبيه‌سازي آن

Similar presentations

Presentation on theme: "بررسي روش انسان در تشخيص صحبت و شبيه‌سازي آن"— Presentation transcript:

Similar presentations

About project

Feedback