Presentation is loading. Please wait.

Presentation is loading. Please wait.

Acmhainní Próiseála Urlabhra don Ghaeilge agus don Bhreatnais Welsh and Irish Speech Processing Resources (WISPR) Ailbhe Ní Chasaide Brian Ó Raghallaigh.

Similar presentations


Presentation on theme: "Acmhainní Próiseála Urlabhra don Ghaeilge agus don Bhreatnais Welsh and Irish Speech Processing Resources (WISPR) Ailbhe Ní Chasaide Brian Ó Raghallaigh."— Presentation transcript:

1 Acmhainní Próiseála Urlabhra don Ghaeilge agus don Bhreatnais Welsh and Irish Speech Processing Resources (WISPR) Ailbhe Ní Chasaide Brian Ó Raghallaigh John Wogan Áine Ní Bhriain Christer Gobl Coláiste na Tríonóide 9ú Comhdháil do Theangeolaíocta na Gaeilge Scoil an Léinn Cheiltigh Institiúid Ard-Léinn Bhaile Átha Cliath 9 Aibreán 2005

2 Cúlra an Tionscadail Interreg IIIA Aontas Eorpach –Comhoibriú leis an mBreatain Bheag i bhforbairt Shintéis na hUrlabhra (Téacs-go-hUrlabhra) don Ghaeilge agus don Bhreatnais –Comhoibriú leis an mBreatain Bheag i bhforbairt na n-acmhainní a úsáidfear i bhforbairt Shintéis na hUrlabhra Grúpa Urlabhra na Gaeilge & Prifysgol Cymru (The University of Wales Bangor)

3 Rannpháirtithe Prifysgol Cymru/The University of Wales, Bangor –Delyth Prys, Briony Williams, Dewi Jones, Bill Hicks, Ivan Uemlianin, Rhys Jones Coláiste na Tríonóide, Ollscoil BhÁC –Ailbhe Ní Chasaide, Áine Ní Bhriain, Brian Ó Raghallaigh, Christer Gobl, Irena Yanushevskaya, Martha Dalton, John Duggan, agus John Wogan Coláiste na hOllscoile, BÁC –Fred Cummins, Julie Berndsen, agus Máire Ní Chiosáin Ollscoil Chathair Bhaile Átha Cliath –John McKenna agus Rónán Scaife Institiúid Teangeolaíochta Éireann –Elaine Uí Dhonnchadha

4 Cuspóirí (i gcás na Gaeilge) Corpas Gaeilge labhartha a ullmhú Acmhainn taighde Dúshraith le haghaidh sintéis na Gaeilge Acmhainní teicneolaíochta a chur in úsáid go feidhmeach Nasc a chothú le daoine a bhainfeadh feidhm as a leithéid de theicneolaíocht Oideachas: Múinteoirí Gaeilge Daoine le Gaeilge atá faoi mhíchumas labhartha, cloisteála agus radhairc

5 Sintéis Téacs-go-hUrlabhra Formant Synthesis Concatenative Synthesis –Diphone Synthesis –Unit Selection

6 Unit Selection Ullmhú Corpais – Brian –Roghnú Cainteora –Taifeadadh (JSpeechRecorder) –Trascríobh Láimhe (Praat) Dáileadh Fóinéimeach - Áine Trascríobh Uathoibríoch (HTK) - Áine Sintéis (Festival) - Áine

7 Ullmhú Corpais Canúint agus cainteoir a roghnú Taifeadadh a dhéanamh Na sonraí taifeadtha (recorded data) a ullmhú le gur féidir iad a úsáid mar acmhainn taighde

8 Canúint agus Cainteoir Gaeilge Thír Chonaill? Cainteoir oiriúnach a roghnú –Cainteoir baineann as Gaeltacht Thír Chonaill –Léitheoir maith –Ar fáil do héasca –Gaeilge nádúrtha dúchasach

9 An Taifeadadh a Dhéanamh Is gá go mbeadh an taifeadadh ar ardchaighdeán –Coinníollacha foirfe taifeadta de dhíth: stiúdeo frith-mhacallach –Treallamh taifeadta den scoth riachtanach: Cárta fuaime Edirol; Ríomhaire le Diosca Crua mór Suas le 15 uair a chloig de shonraí labhartha ag teastáil don Ghaeilge –Bogearraí oiriúnach roghnaithe don taifeadadh

10 Bogearraí Taifeadta JSpeechRecorder: Bavarian Archive for Speech Signals Speech Recorder –Leideanna a chur ar an scáileán sa stiúdió –Stóráil uathoibríoch na gcomhad fuaime leis na leideanna cuí

11 Treallamh Taifeadta Ríomhaire lena dhóthain spáis ar an diosca crua le haghaidh comhad fuaime –~550 GB spáis againn faoi láthair ar an ríomhaire taifeadta DVD Burner le cóip de na sonraí a thabhairt ón láithreán Cárta fuaime proifisiúnta: Edirol UA1000 –Nasc High-Speed USB 2.0 –Taifeadadh digiteach: micreafón  diosca crua

12 Scripteanna Ullmhaithe Téacsanna roghnaithe atá bunaithe ar chaint na ndaoine i dTír Chonaill m.sh. Séamus Ó Grianna Téacsanna nua-aimseartha/cúrsaí reatha? XML –JSpeechRecorder

13 Sampla de théacs in XML Title Irish Language Recording Script - WISPR Project Dublin

14 Sampla de théacs in XML 1. JAMES GALLAGHER

15 Sampla de théacs in XML Ceithre bliana, gan la chuige nó uaidh, a bhí Séimí Phádraig Duibh nuair a cuireadh chun na scoile é.

16 Na Sonraí a Ullmhú Pacáiste oiriúnach bogearraí a roghnú leis an gcorpas a fhorbairt Trascríobh láimhe agus uathoibríoch a thosnú Rialacha trascríofa a fhorbairt

17 Pacáiste Bogearraí a Roghnú Riachtanais –Pacáiste Bogearraí le haghaidh anailís urlabhra lenar féidir an tonnchruth a theascánú (‘to segment’) agus trascríobh a chur leis Réiteach –Praat

18 Sampla ó Praat

19 Trascríobh le haghaidh Sintéis Is gá an trascríobh a dhéanamh ar leibhéil éagsúla Trascríobh prosóide (lipéid IViE) –Féach tionscadal Prosóid Chanúintí na Gaeilge Trascríobh fóinéimeach i dteannta le heolas alaphóineach breise más gá Trascríobh gramadaí (ranna cainte na bhfocal)

20 Modh Trascríofa Modh a shocrú le haghaidh trascríobh fóinéimeach na Gaeilge Rialacha a shocrú maidir le giorrúcháin (a réitíonn leis an bpacáiste bogearraí agus a chuireann le luas an trascríofa) agus míniú na ngiorrúchán a shonrú Próiseas an teascánaithe a chomhshocrú agus a chaighdeánú

21 Fóinéimeanna na Gaeilge

22 Dáileadh Fóinéimeach

23 Dáileadh Fóinéimeach: Cén fath? Cinntiú go bhfuil go leor samplaí do gach fóinéim sna gcomhthéacsanna cuí againn sa chorpas. Muna ndeántar staideár ar an dáileadh fónéimeach ní bheidh a fhios againn riamh an bhfuil an corpas ina iomlán nó nach bhfuil.

24 TÉACS Rialacha Litir  fuaim Áiritheoir In oirúint don ghléas sintéise focail Siombail fóinéimeacha Méid fóin Méid défóin Comhthéacs An proiséis leis na fóin agus na défóin a chomhaireamh Dáileadh Fóinéimeach

25 Dáileadh Fóinéimeach Dul Chun Cinn Foclóir Póca –“Lár Chanúint” –15000 Focail –76254 Fóin (51), 102493 Défóin (1300) Foclóir eile –Gaeilge Chonnamara –13 noimeád cainte –852 Focail –3111 Fóin(52), 3953 Défóin(704)

26 Dáileadh Fóinéimeach: Le deánamh Rialacha aistriúcháin: litir  fuaim Bunaithe ar Ghaeilge Uladh Na rialacha sin a chur i bhfeidhm ar na téacsanna atá roghnaithe Cinntiú go bhfuil dáileadh fóinéimeach ceart ann, muna bhfuil beidh gá leis na scripteanna a athrú beagáinín

27 Dáileadh Fóinéimeach: Torthaí 0 10 20 30 40 50 60 70 consonantvowel velarised palatalised monophthongs diphthong Figure 1: General Distribution Secondary %

28 Dáileadh Fóinéimeach: Torthaí

29 0 5 10 15 20 25 30 aa:a:ia:uee:ii: i:« oo:«uu: u«u« mid-low mid-high mid low high diphthong Figure 2: Dáileadh Gutaí Height %

30 Trascríobh Uathoibríoch

31 Trascríobh Uathoibríoch: Cén Fath? Níos Tapúla Is féidir cur leis Trascíobh Láimhe 15 uair dodhéanta Níos cruinne de bharr nach bhfuil ach líon teoranta comharthaí á úsáid ag an ríomhaire

32 Trascríobh Uathoibríoch: Conas? HTK (Hidden Markof Model Toolkit) Taifeadtaí atá trascríofa ag duine Fóclóir agus líosta focal Traenáil ar an sraith traenála Aithne agus ailíniú Ceartú más gá

33 Trascríobh Uathoibríoch Dul Chun Cinn Múineadh a chur ar na HMMaí 9 gcomhad – 19 nóimeád 3150 focail Foclóir tógtha ón trascríobh láimhe Tástáil le 6 abairtí nach raibh sa “sraith traenála” TORTHAÍ

34 Trascríobh Uathoibríoch Le Deánamh HMMaí a mhúineadh leis na taifeadtaí nua Foclóir nua a chur le chéile le focail an taifeadta go léir ann Trascríobh uathoibríoch

35 Sintéis Festival Speech Synthesis Engine (CSTR) An guth a aistriú go dtí an fhoirm cuí agus é a stóráil sa “Speech Engine” Rialacha a chumadh a chuirfeadh le caighdeán an ghutha, m.sh. Tokenisation, Epenthensis srl. Interface úsáideach, simplí a fhorbairt

36 Feidhmeanna an Chorpais Urlabhra Ullmhaithe Sintéis téacs-go-hurlabhra (TTS) –Úsáid oideachasúil –Úsáid do dhaoine atá faoi mhíchumas Acmhainn úsáideacha a thagann as forbairt na sintéise Acmhainn taighde

37 Múineadh na Gaeilge Foghlaim idirghníomhach don Ghaeilge Féinteagascóirí fuaimnithe (‘Artificial pronunciation tutors’) –An-úsáideach nuair nach bhfuil múinteoirí le Gaeilge ó dhúchas nó fiú Gaeilge líofa ar fáil go héasca Bheadh fáil ar áiseanna mar seo sa rang agus ar an idirlíon Bheadh éileamh ar áiseanna mar seo ag gach leibhéal (bunscoil – foghlaim aosach)

38 Feidhmchláir do Dhaoine Míchumasaithe Uirlisí sintéis urlabhra do Ghaeilgeoirí le - míchumas urlabhra: sintéiseoirí urlabhra - míchumas radhairc: ‘screen readers’ Uirlisí aithint urlabhra do Ghaeilgeoirí a bhfuil míchumas cloisteála orthu

39 Acmhainn úsáideacha Mar chuid d’fhorbairt na sintéise déantar forbairt ar acmhainn eile, m.sh. –Foclóir Fuaimnithe, a bheadh in oiriúint don chanúint –Rialacha aistriúcháin ó litreacha go fuaim (letter-to-sound) –Hidden Markof Models do fuaimeanna Gaeilge Uladh

40 Taighde na Gaeilge Beidh an corpas féin tábhachtach le haghaidh taighde ar Ghaeilge labhartha mar shampla: –Phonotactics –Rialacha fuaimnithe –Anailís foghraíochta agus fóineolaíochta

41 Réimse an Tionscadail Go bunúsach, acmhainní a fhorbairt a bhaineann le teicneolaíocht urlabhra na Gaeilge De bharr srianta ama, cuirfear an bhéim ar fhorbairt an chorpais Déanfar iniúchadh freisin ar an úsáid a bhainfidh daoine as acmhainn mar seo amach anseo

42 Amach Anseo An corpas a leathnú le freastal a dhéanamh ar na mórchanúintí ar fad An corpas a leathnú le freastal ar Ghàidhlig na hAlban, ar an mBriotáinis… Comhoibriú le Gnóthais Bheaga agus Meánacha

43 Amach Anseo Ag cur le réamhiarrachtaí an Ghaeilge a ghiniúint go sintéisiúil ó théacs Ag cur le cruinneas an chorpais agus na trascríbhinne le feabhas a chur ar chaighdeán na sintéise

44 Buíochas DCUUCDTCDBangor Le cabhair airgeadais ón: AE INTERREG IIIA Community Initiative Programme


Download ppt "Acmhainní Próiseála Urlabhra don Ghaeilge agus don Bhreatnais Welsh and Irish Speech Processing Resources (WISPR) Ailbhe Ní Chasaide Brian Ó Raghallaigh."

Similar presentations


Ads by Google