Download presentation
Presentation is loading. Please wait.
Published byΔημοσθένης Θεοδωρίδης Modified over 5 years ago
1
بررسي روش انسان در تشخيص صحبت و شبيهسازي آن
به نام خدا بررسي روش انسان در تشخيص صحبت و شبيهسازي آن سيد کمالالدين غياثي شيرازي دانشکده مهندسي کامپيوتر دانشگاه صنعتي شريف 28/10/1383
2
مطالب شناخت انسان و سيگنال صحبت سيستم استخراج ويژگي سيستم بازشناسي
آزمايشها
3
1- بررسي روش انسان در تشخيص صحبت
4
محدوديتهايي که روشهاي موجود ايجاد ميکنند
غير قابل تفسير مبتني بر مدل (معمولا HMM) وابسته به اطلاعات زباني بدون قابليت کشف صداهاي جديد مبتني بر نظريه احتمال هستند که شواهد زيادي نشان ميدهند که انسان بر مبناي اين نظريه کار نميکند پيوند غير طبيعي با سطوح بالاتر زباني مانند کلمه و گرامر و نيز مبتني بودن بر مدل زباني خلاصه: همه مشکلات از بالا به پايين حل ميشوند (ما راه حل را کشف ميکنيم و به کامپيوتر ميدهيم)
5
توليد ابزار دستکاري سيگنال در فرکانس pitch
دستکاري سيگنال در فضاي طيفنگار دستکاري سيگنال در فضاي بانک فيلتر
6
ويژگيهاي سيگنال صحبت؟
فازي غير دقيق اهميت ويژگيها با انرژي آنها متناسب است مبتني بر نظريه امكان
7
سيگنال صحبت فازي است در مثال بعد ميبينيم که حرف «ي» ميتواند بهجاي حرف «ن» بهکار رود. به عبارت ديگر «ي» و «ن» بودن مفهومي فازي است که داراي اشتراک ذاتي است. نکته: ولي ميتوان (امکان دارد) «ي» را به عنوان «ن» پذيرفت. س: احتمال اينکه کسي «ي» را مانند «ن» بگويد چقدر است؟
8
“i” + “N” + “A”
9
“i” + “A”
10
“i” + “A”
11
سيگنال صحبت غير دقيق است.
يعني ما نسبت به مقدار ويژگيها خيلي حساس نيستيم.
13
كوانته شدن در فضاي بانك فيلتر
14
كوانته شدن در فضاي طيفنگار
15
ويژگيهاي پر انرژي مهمترند (مثال 1)
16
“M” + “A” “N” + “A”
17
“N” + “A” “M” + “A”
18
ويژگيهاي پر انرژي مهمترند (مثال 2)
19
Clean Speech
20
سيگنال نويزي
21
تشخيص مبتني بر نظريه امكان است
يعني در مواردي كه چيزي مبهم است (يعني چند تفسير ممكن وجود دارد) ، آن را آنطور كه ميخواهيم تفسير ميكنيم. ما آنچه را که دوست داريم ميشنويم نه آنچه را که هست.
22
بهجاي t از نويز سفيد استفاده شده است.
23
تفاسير متداول از فازي که مد نظر ما نيست
افزايش سرعت سيستمهاي مبتني بر قانون عملگرهاي قابل تنظيم اينها درست هستند اما روح فازي نيستند.
24
مفاهيم اساسي فازي تنظيم رابطه بين درستي گزاره و دقت گزاره
کدام جمله درستتر است؟ کدام جمله دقيقتر است؟ قد من سانتيمتر است قد من بين 1.70 تا 2 متر است خلاصه: کاهش دقت و افزايش درستي، اطمينان، استحکام و قطعيت
25
مشکل مبهم بودن همه چيز اگر همهچيز داراي ابهام است پس ما چگونه ميتوانيم صحبت بدون معني را 100٪ تشخيص دهيم؟ تشخيص صحبت بدون معني،با وجود نويز سفيد، به همراه صداهاي ناشناخته (مثل بوق ماشين)، با قطعيت؟ کداميک را انتخاب ميکنيد؟ تاسي را بياندازيم و اگر 6 نيامد 60 ميليون تومان. اميد رياضي = 50 قطعا 40 ميليون تومان اميد رياضي = 40 انسان قطعيت را دوست دارد (+ مثالي از تفاوت احتمال با تفکر انسان).
26
تفسير ما از فازي بودن سيگنال صحبت
واجها مجموعههايي فازي هستند. اما در سيگنال صحبت بخشهايي هستند که آنها را شيء ميناميم و اين اشياء با قطعيت قابل تميز هستند. (الزام) همچنين اشيائي هستند که تفاوت کمي با هم دارند مانند «م» و «ن» که در آنها دقيق نميشويم. (امکان) «م» و «ن» مجموعههايي فازي هستند (امکان) ولي گذر آنها به واج «آ» کاملا متمايز است (الزام).
27
نظريه امکان هدف: تشخيص صحبت ممکن. آنچه سيستمهاي کنوني (از جمله سيستم من) تشخيص ميدهند غير ممکن است چه برسد به محتمل. احتمال: محتملترين مدلي که اين سيگنال را توليد کرده است. امکان: اين مشاهده توسط کدام مدلها قابل توليد است. خلاصه نظريه امکان: امکان A= ميزان شدني بودن A امکان Ac= ميزان شدني بودن Ac Poss(A) و Poss(Ac) ميتوانند هر مقدار دلخواهي داشته باشند.
28
استفاده از نظريه امکان براي جهل وکشف
Poss(A)=1 Poss(Ac) =0 A Poss(A)=0 Poss(Ac) =1 Ac Poss(A)=1 Poss(Ac) = نميدانم Poss(A)=0 Poss(Ac) =0 نويز=شيء جديد در نظريه احتمال که P(A)+P(Ac)=1 نميدانم و کشف را نداريم. نکته: نميدانم و کشف نويز همان چيزهايي هستند که به ما اجازه ميدهند با قطعيت حرف بزنيم. وقتي کسي فقط راجع به چيزهايي که ميداند حرف ميزند صحبتش قابل اعتمادتر است.
29
مطلوبات در مورد بخش استخراج ويژگي
استخراج ويژگيها در 200ms تا چيزي که بتوان با قطعيت راجع به آن حرف زد وجود داشته باشد. مبتني بر ويژگيهاي شنيداري و بخشبندي بر اساس اشياء يک دليل براي اينکه توانايي صحبت کردن پس از توانايي شنيدن شکل ميگيرد اين است که کودکان به زبان خودشان حرف ميزنند ولي به زبان خودشان نميشنوند. داراي دقتي مشابه انسان نسبت به مقدار ويژگيها داراي استحکام بيشتر در مقابل نويز
30
مطلوبات در مورد سيستم بازشناسي
مبتني بر مدل نبودن مبتني بر نظريه امکان قابليت کشف اشياء جديد چون صحبت را خوب ميشناسيم اشياء جديد را نيز تشخيص ميدهيم. داراي پيچيدگي محاسباتي کمتر به علت استفاده از عملگرهاي Max و Min هدف: قطعيت در تشخيص صحبت.
31
س: چگونه با مدلي ساده ميخواهيد تنوع صحبت را پوشش دهيد؟
تطبيق در حين تشخيص. تغيير دادن پارامترها در جهت رسيدن به يک حالت ممکن و سپس افزايش مقدار امکان. چون حالات ممکن کم هستند، رسيدن به يکي از حالات ممکن خود گواه درستي راه است. (مشابه روش ML در نظريه احتمال) استفاده از چند مدل ساده. براي هر گونه از صحبت يک مدل ساده در نظر ميگيريم. خلاصه: نمونه را تغيير ميدهيم تا شبيه يکي از مدلها شود.
32
روش پيشنهادي براي سيستم تشخيص صحبت
ايده اصلي: تغيير پارامترها در جهت شنيدن يک صداي ممکن
33
2- بخشبندي و استخراج ويژگي
34
اهداف سيستم بخشبندي مبتني بر مفهوم شيء که بدون اطلاعات زباني به دست ميآيد. در اين صورت ميتوان توقع داشت که اشياء بزرگتري مانند کلمه و جمله بر اساس اشياء کوچکتر شکل بگيرند. رابطه خوب با نوعي از نمايش دانش به نام گراف مفهومي که از انسان الهام گرفته است. در اين روش اشياء جديد با ارتباط برقرار کردن بين اشياء قبلي ساخته ميشوند. استخراج ويژگيها در زمان و فرکانس (200ms) قابل تفسير بودن. در اينصورت ميتوان از اطلاعات انسان در خواندن طيفنگار استفاده کرد.
35
روش بخشبندي و استخراج ويژگي OBSFE
محاسبه انرژي باندهاي فيلتر در قابها. تقريب زدن خط سير انرژي در هر باند فيلتر با خط. به دست آوردن اشياء. با استفاده از تقريب خطي سيگنال خط سير. بخشبندي سيگنال صحبت. استخراج ويژگي در هر بخش. ]در مرحله آموزش[ به دست آوردن صدكها براي هر ويژگي. بيان مقدار هر ويژگي با عددي صحيح بين 0 تا 100.
36
خط سير انرژي در باند فيلتر 6ام
37
تقريب زدن خط سير با خط
38
پيدا کردن اشياء ممکن در هر بانک فيلتر
39
شيء شيئ بزرگترين شکل محدب در خط سير است.
ايده اصلي: شکلهاي محدب در سيگنال انرژي بيانگر اراده گوينده در توليد انرژي در زمان مشخصي هستند. توليد انرژي اطمينان از ظهور شيء عدم توليد انرژي
40
بخشبندي بر اساس کوچکترين اشياء
41
ويژگيهاي بخشبندي پس از بخشبندي يک مجموعه کاملا مرتب از بازههاي زماني داريم که داراي همپوشاني هستند. اولين الگوريتم بخشبندي است که بخشها داراي همپوشاني هستند (تا آنجا که ما ديدهايم). قابل تفسير است. کاهش شديد تعداد بردارهاي ويژگي نسبت به سيستمهاي مبتني بر قاب. در مثال قبل 104 قاب به 9 بخش ساده شده است. داراي تفکيک مناسب در زمان و فرکانس
42
استخراج ويژگي به هرحال يک بازه زماني به عنوان يک بخش داده ميشود.
خط سيرهاي انرژي را با اين بازه زماني قطع ميدهيم و حاصل را با يک يا دو خط تقريب ميزنيم. ويژگي اول همان طول بخش است. براي هر باند فيلتر ويژگيهاي زير را حساب ميکنيم: بيشينه انرژي ميزان تقعر يا تحدب شيب خط مرکز ثقل
43
استخراج ويژگي بدين ترتيب 24×4+1=97 ويژگي استخراج ميشود.
اگر بخواهيم با HMM کار کنيم 24 ويژگي را با DCT به 12 عدد کاهش ميدهيم و به 49 ويژگي ميرسيم. در هنگام کار با پايگاه داده Aurora2 از 18 باند فيلتر استفاده ميکنيم. در نتيجه 9×4+1 = 37 ويژگي خواهيم داشت. اکنون ديگر ويژگيها صرفا فرکانسي نيستند. ويژگيها اکنون ماهيت زماني-فرکانسي دارند. با توجه به کارهاي ديگران توقع داريم که ويژگيهاي زماني-فرکانسي مقاومتر باشند.
44
کوانته کردن ويژگيها بر حسب صدکها
با توجه به آماري که از روي داده آموزشي به دست ميآيد، هر مقدار ويژگي به عددي صحيح بين 0 تا 100 نگاشته ميشود. مزايا: سرعت بسيار بيشتر حافظه کمتر در ذخيره مقدار ويژگي. البته در مجموع حافظه بيشتري مصرف ميشود. عدم نياز به مدلي براي نشان دادن فضاي پيوسته. بدين ترتيب امکان توليد سيستم دادهمحور فراهم ميشود. رهايي از مفهوم مخلوط که در روشهاي مبتني بر مدل بايد براي رفع ضعفهاي مدل فرض شده (مانند تابع نرمال) استفاده شود.
45
مقايسه MFCC و OBSFE توسط سيستم HTK
MFCC% OBSFE% WER Improvement % 15dB 80.43 85.48 25.77 10dB 57.26 71.08 32.33 5dB 30.1 39.59 13.57 average 55.93 65.38 21.44
46
نويزهاي نوع 1 و 2 نتايج تنها بر روي نويزهايي که شيء جديد اضافه نميکنند بالا رفت. مقصر؟ سيستم استخراج ويژگي يا سيستم بازشناسي نکته: به نظر ميرسد که بخش اعظم تفاوت 92٪ با 99٪ در بهينه نبودن سيستم در بخش پيشپردازش است. Subway, Exhibition, Street Babble, Car, restaurent, Airport, Station OBSFE MFCC Clean 91.34 99.04 91.45 99.01 20dB 89.2 96.39 89.87 92.58 15dB 81.65 91.33 85.48 80.14 10dB 64.1 73.83 71.08 57.07 5dB 32.94 45.15 39.59 30.03
47
مقايسه OBSFE با MFCC در تشخيص کلمه
مقاومت بيشتر در مقابل نويز قابل تفسير بودن ويژگيها کاهش تعداد بردارهاي ويژگي به حداقل يک پنجم تعداد قابها در MFCC سريعتر براي سيستم بازشناسي مزاياي MFCC پيادهسازي سادهتر (بويژه از نظر سختافزاري) 4٪ نتيجه بالاتر در محيط کاملا تميز
48
فرآيند بازشناسي
49
مساله بازشناسي از ديدگاه عملگرهاي فازي
50
P(M) کجاست؟ احتمال: امکان:
51
1- تهيه ليستي از واجهاي ممکن براي هر شيء
k k sh k k k s k k k k k k sh k ch k t e e e e ae e e r e y e e e e e e e e e e e e e e j j j j j j k j k j j b k Q k ch p d k d ch dj k t k k k k k k k A k k s k s s s 1- تهيه ليستي از واجهاي ممکن براي هر شيء
52
2- حذف نويز j j j j j k j k j j b k Q k ch p d k d ch dj k t k k k k
k A k s k s s s k sh k k k s k k k k k k sh k ch k t e e e ae e e r e y e e e e e e e e e e e e e e 2- حذف نويز
53
3- يافتن کوتاهترين دنباله واجي
j j j j j k j k j j b k Q k ch p d k d ch dj k t k k k k k k k A k s k s s s k sh k k k s k k k k k k sh k ch k t e e e ae e e r e y e e e e e e e e e e e e e e 3- يافتن کوتاهترين دنباله واجي
54
J k e 4- حذف واجهاي کوتاه j j j j j k j k j j b k Q k ch p d
k d ch dj k t k k k k k k k A k s k s s s k sh k k k s k k k k k k sh k ch k t e e e ae e e r e y e e e e e e e e e e e e e e 4- حذف واجهاي کوتاه J k e
55
توزيع امکان مثبت مخلوطي از ae
56
توزيع امکان منفي مخلوطي از ae
57
تفاضل دو توزيع
58
محاسبه شباهت اوليه (Non-discriminative)
در اين مرحله به دنبال تابعي هستيم که ميزان شباهت بردار ويژگي را با گروه بيان نمايد. در HMM نيز اين مرحله با شبکه عصبي کمي بهتر انجام ميشود. عملگر min براي اين کار مناسب نيست. اگر Π(O|A)<T آنگاه O شبيه به A نيست.
59
مقايسه عملگرهاي مختلف براي ترکيب ويژگيها
60
محاسبه شباهت ثانويه (Discriminative)
اگر Π(O|A)>T خلاصه: به تفاوتهاي بين مدل مثبت و منفي اهميت بيشتري ميدهيم. 0.9 در مقابل 0.7 کماهميتتر از 0.3 در مقابل 0.1 است.
61
محاسبه شباهت بردار ويژگي O به واج A
اگر Similarity+<Similarity- آنگاه O به A شبيه نيست. در غير اين صورت داريم: در نهايت تمام مقادير شباهت توسط اندازهگيري امکاني اصلاح شده قابل تفسير ميشوند.
63
اشياء و نام گروه مربوط به آنها
اشياء با 4 نام ممکن اشياء و نام گروه مربوط به آنها فرآيند آموزش در اين مرحله مقدار عددي امکان نيز داراي معني ميشود.
64
تعيين امکان مثبت براي هر واحد آوايي-شنوايي
فرض کنيم نمونههاي واحد آوايي-شنوايي A را ميشناسيم. i = يکي از ويژگيها j = عددي بين 0 تا 100 NA(i,j) برابر تعداد دفعاتي است که ويژگي i مقدار j را گرفته است.
65
تعيين امکان منفي براي هر واحد آوايي-شنوايي
فرض کنيم ΠA(i,j) را داريم. از روي آن نمونههاي واحدهاي آوايي-شنوايي ديگر را که شبيه A هستند را ميشناسيم. i = يکي از ويژگيها j = عددي بين 0 تا 100 M~A(i,j) برابر تعداد دفعاتي است که در يکي از نمونههايي که به اشتباه امکان A بودن آنها بالا است ويژگي i مقدار j را گرفته است.
66
4- آزمايشها
67
4- آزمايشها کلمه (تشخيص اعداد انگليسي بر روي دادگان Aurora2)
مقايسه MFCC و OBSFE با سيستم بازشناسي HTK واج (تشخيص واجهاي زبان فارسي بر روي دادگان فارسدات) مقايسه HMM با سيستم بازشناسي ما بر روي ويژگيهاي mfcc. مقايسه HMM با سيستم بازشناسي ما برروي ويژگيهاي OBSFE مقايسه HMM با سيستم بازشناسي ما در حضور اشياء ناشناخته.
68
مقايسه MFCC و OBSFE توسط سيستم HTK
MFCC% OBSFE% WER Improvement % 15dB 80.43 85.48 25.77 10dB 57.26 71.08 32.33 5dB 30.1 39.59 13.57 average 55.93 65.38 21.44
69
تشخيص واج بر روي لهجه تهراني فارسدات
سيستم بازشناسي امکاني مدل مخفي مارکوف MFCC 49.33% 66٪ OBSFE 36٪ 22٪ OBSFE به همراه 100% نويز ?
70
بررسي تاثير سادهسازي ها در تشخيص کلمه
تقريب زدن با خط 97.11٪ 95.76٪ کوانته کردن به 100 مقدار 98.93٪ 98.22٪
71
بررسي تاثير سادهسازي ها در تشخيص واج
تقريب زدن با خط 61٪ 60٪ کوانته کردن به 100 مقدار 67٪ 65٪
72
نتايج از ديدگاه فرار از محدوديتها و شناخت بهتر
استخراج ويژگيها در قاب فضاي ويژگيهاي پيوسته دقت بالا در مقدار ويژگيها نظريه احتمال مبتني بر مدل بودن + قابل تفسير بودن نتايج نيز براي ادامه کار اميدبخش هستند.
73
نتايج از ديدگاه مشابهت به روش انسان
استخراج ويژگي در زمان-فرکانس که استحکام را بالا ميبرد. کار با مفهوم شيء که از اطلاعات زباني مستقل است. مبتني بر مدل نبودن استفاده از نظريه امکان که با توجه به آزمايشهاي ما براي تشخيص صحبت طبيعيتر است. دقتي در حد 100 سطح. آزمايشهاي ما نشان ميدهد که انسانها نيز به جزئياتي بيش از اين حساس نيستند.
74
با تشکر از ... دکتر باقري و دکتر رضويزاده بخاطر تشويقها، راهنماييها و انتقال تجربيات گرانقدرشان دکتر ثامتي بخاطر آشنا کردن من با روشهاي متداول تشخيص صحبت و در اختيار گذاشتن تمام امکاناتشان و صبر زيادشان دوستانم در شرکت عصر گويش و شما بخاطر حضورتان.
75
مراجع اصلي نظريههاي عدم قطعيت
Zadeh L. A., Fuzzy sets as a basis for a theory of possibility. Fuzzy Sets and Systems, 1(1), Dubois D., Prade H., Possibility theory. New York, London Shafer G., A Mathematical Theory Of Evidence, Princeton University Press, Princeton, NJ, 1976. Zimmermann H.J., Fuzzy Set Theory And Its Applications, 3rd edition, Kluwer Academic Publishers, 1996.
76
مراجع اصلي تشخيص صحبت Schmid P., Explicit N-Best Formant Features for Segment-Based Speech Recognition. PhD Thesis. Oregon graduate Institute of Science and Technology YU H.J., OH Y.H., Fuzzy Expert System for Continuous Speech Recognition. Expert Systems With Applications, Vol. 9. No. 1, pp , 1995. Hermansky H. ,"Should recognizers have ears?". In Proc. ESCA Tutorial and Research Workshop on Robust Speech Recognition for Unknown Communication Channels, pp. 1-10, France 1997. Greenberg, S., "Understanding speech understanding - towards a unified theory of speech perception". Proceedings of the ESCA Tutorial and Advanced Research Workshop on the Auditory Basis of Speech Perception, Keele, England, p. 1-8, 1996.
Similar presentations
© 2024 SlidePlayer.com. Inc.
All rights reserved.