Interlingual Machine Translation دانشگاه صنعتي امير کبير دانشکده مهندسي کامپيوتر و فناوري اطلاعات Interlingual Machine Translation درس پردازش زبان طبيعی استاد درس: دکتر عبدالله زاده توسط: اسماعیل رضایی- 86131031
مروری کوتاه بر ترجمه ماشینی ترجمه ماشینی چیست ؟ Automated system Analyzes text from Source Language (SL) Produces “equivalent” text in Target Language (TL) Ideally without human intervention Source Language Target Language درس پردازش زبان طبیعی، استاد: دکتر احمد عبدالله زاده توسط: اسماعیل رضایی آزمایشگاه سیستم های هوشمند
آزمایشگاه سیستم های هوشمند مروری کوتاه بر ترجمه ماشینی روش های اصلی ترجمه ماشینی Direct Transfer Interlingual درس پردازش زبان طبیعی، استاد: دکتر احمد عبدالله زاده توسط: اسماعیل رضایی آزمایشگاه سیستم های هوشمند
روش های اصلی ترجمه ماشینی Direct این روش درواقع ترجمه لغت به لغت می باشد. Transfer زبان مبدا به یکی از بازنمایی های Syntax یا Semantic تحلیل شده و پس از این بازنمایی زبان مبدا به بازنمایی مناسب زبان مقصد تبدیل شده و در نهایت جملات زبان مقصد از این بازنمایی تولید می شوند. Interlingual جملات زبان مبدا به یک بازنمایی مفهومی سراسری که به آن IL گفته می شود ،تبدیل شده و جملات زبان مقصد ازتبدیل آن بدست می آید. درس پردازش زبان طبیعی، استاد: دکتر احمد عبدالله زاده توسط: اسماعیل رضایی آزمایشگاه سیستم های هوشمند
روش های اصلی ترجمه ماشینی Direct Transfer Interlingual درس پردازش زبان طبیعی، استاد: دکتر احمد عبدالله زاده توسط: اسماعیل رضایی آزمایشگاه سیستم های هوشمند
روش های اصلی ترجمه ماشینی Direct Transfer Interlingual
روش های اصلی ترجمه ماشینی Three main methodologies for Machine Translation Direct Transfer Interlingual
بخش دوم کتاب مسائل مطرح درساخت سیستم های Large Scale وGeneral Purpose پردازش زبان طبیعی Uniform ,Nonuniform knowledge represantation Automatic knowledge acquisition درس پردازش زبان طبیعی، استاد: دکتر احمد عبدالله زاده توسط: اسماعیل رضایی آزمایشگاه سیستم های هوشمند
آزمایشگاه سیستم های هوشمند Uniform and Nonuniform knowledge represantation Uniform در روش یکنواخت،برای تمام فعالیت ها (Task) و مولفه ها از یک زبان بازنمایی استفاده شده است. برای مثال : استفاده از منطق مرتبه اول برای تمام بخش ها. بزرگترین مشکل این روش : اینکه سیستم های بازنمایی دانش در دسترس قابلیت بازنمایی تمام خصوصیات زبان طبیعی را ندارند. درس پردازش زبان طبیعی، استاد: دکتر احمد عبدالله زاده توسط: اسماعیل رضایی آزمایشگاه سیستم های هوشمند
آزمایشگاه سیستم های هوشمند Uniform and Nonuniform knowledge represantation Nonuniform در روش غیریکنواخت، از زبان های بازنمایی مختلفی برای بازنمایی دانش برای فعالیت ها و مولفه های مختلف استفاده می کند. مهمترین مشکل این روش : لزوم ترجمه بین بازنمایی ها متفاوت برای تبدیل وترکیب دانش. این امر در سیستم های بزرگ و بویژه برای داده های واقعی بسیار پرهزینه و پیچیده می باشد. درس پردازش زبان طبیعی، استاد: دکتر احمد عبدالله زاده توسط: اسماعیل رضایی آزمایشگاه سیستم های هوشمند
A Multi-Level Approach to Interlingual MT Defining the Interface between Representational Languages Bonnie J. Dorr and Clare R. Voss Department of Computer science University of Maryland درس پردازش زبان طبیعی، استاد: دکتر احمد عبدالله زاده توسط: اسماعیل رضایی آزمایشگاه سیستم های هوشمند
آزمایشگاه سیستم های هوشمند کلیت موضوع مقاله یک طراحی چند لایه ای برای یک سیستم ترجمه ماشینی شرح داده می شود. یک سیستم غیر یکنواخت که برای توصیف دانش های متفاوت از زبان های بازنمایی مختلف استفاده شده است. درس پردازش زبان طبیعی، استاد: دکتر احمد عبدالله زاده توسط: اسماعیل رضایی آزمایشگاه سیستم های هوشمند
آزمایشگاه سیستم های هوشمند برای تولید یک ترجمه خوب ازیک جمله ،باید یک سیستم ترجمه ماشینی به چند روش بازنمایی دسترسی داشته باشد. Lexical for lexicon-based information Syntactic for defining phrase structure interlingual )or IL) for sentence interpretation knowledge representational (or KR) for filtering out interpretations that are incompatible with facts in the MT system's knowledge base. درس پردازش زبان طبیعی، استاد: دکتر احمد عبدالله زاده توسط: اسماعیل رضایی آزمایشگاه سیستم های هوشمند
آزمایشگاه سیستم های هوشمند This paper examines the interface between the interlingua and other representation types in an interlingual MT system. multi-level : syntactic, IL and KR And non-uniform approach : in which distinct representational languages are used for different types of knowledge. درس پردازش زبان طبیعی، استاد: دکتر احمد عبدالله زاده توسط: اسماعیل رضایی آزمایشگاه سیستم های هوشمند
شکل 1 ،کتاب ، فصل 6 (Interlingual Machine Translation)،صفحه 208 SL Input TL Output SL Syntactic Analysis TL Syntactic Analysis IL Composition and Decomposition SL Lexicon TL Lexicon KR Filtering and Inference شکل 1 ،کتاب ، فصل 6 (Interlingual Machine Translation)،صفحه 208 درس پردازش زبان طبیعی، استاد: دکتر احمد عبدالله زاده توسط: اسماعیل رضایی آزمایشگاه سیستم های هوشمند
آزمایشگاه سیستم های هوشمند فازهای پردازش همانطور که در شکل 1 مشاهده می شود، در این مدل پیشنهادی 3 فاز پردازش داریم. 1 _ Analysis/synthesis phase : in which a source-language (SL) sentence is parsed into a syntactic structure . 2 _A composition/decomposition phase : A SL syntactic structure is composed into an IL representation or an IL representation is decomposed into a TL syntactic structure and lexical items. درس پردازش زبان طبیعی، استاد: دکتر احمد عبدالله زاده توسط: اسماعیل رضایی آزمایشگاه سیستم های هوشمند
آزمایشگاه سیستم های هوشمند 3_ KR phase : checks the IL representations filtering out incompatible forms with known facts Coercing or augmenting IL forms with logically inferred knowledge in order to resolve an incomplete IL composition. درس پردازش زبان طبیعی، استاد: دکتر احمد عبدالله زاده توسط: اسماعیل رضایی آزمایشگاه سیستم های هوشمند
آزمایشگاه سیستم های هوشمند کارهای گذشته Voss و Dorr در سال 1993 می گوید : کمبودی که در زمینه تحقیقات و ساختIL وجود دارد،این است که: اتفاق نظری بر اینکه interlingua چیست و چگونه تعریف می شود ، وجود ندارد. برای مثال : (Rosetta, 1994) used an interlingua based on Montague-grammar. Mikrokosmos (1994) developed based on their own Text Meaning Representation (TMR) language. درس پردازش زبان طبیعی، استاد: دکتر احمد عبدالله زاده توسط: اسماعیل رضایی آزمایشگاه سیستم های هوشمند
آزمایشگاه سیستم های هوشمند کارهای گذشته Verkuyl (1994) :a "layered" interlingua in two layer Discourse Representation Structures one level a Lexical Conceptual Structures درس پردازش زبان طبیعی، استاد: دکتر احمد عبدالله زاده توسط: اسماعیل رضایی آزمایشگاه سیستم های هوشمند
آزمایشگاه سیستم های هوشمند در این مقاله PRINCIRAN : Interpretation and representation of natural language sentences. درواقع این سیستم برای ساخت یک سیستم بزرگ 3 سیستم را ترکیب می کند. syntactic processing design of PRINCIPAR (Dorr, Lin, Lee, and Suh (1995)) syntax-IL interface UNITRAN )Dorr, 1993) IL-KR interface from the LEXITRAN )Dorr and Voss, 1993( درس پردازش زبان طبیعی، استاد: دکتر احمد عبدالله زاده توسط: اسماعیل رضایی آزمایشگاه سیستم های هوشمند
مثالی برای بیان، چرایی انتخاب یک روش غیر یکنواخت German sentence: “ Die Kirche liegt im S"uden der Stadt “ این جمله می تواند هر یک از دو تفسیر زیر را داشته باشد. The church lies in the south of the city (southern part of the city ) The church lies to the south of the city (south of the city , outside the city) درس پردازش زبان طبیعی، استاد: دکتر احمد عبدالله زاده توسط: اسماعیل رضایی آزمایشگاه سیستم های هوشمند
آزمایشگاه سیستم های هوشمند مثالی برای بیان، چرایی انتخاب یک روش غیر یکنواخت این کاملا واضح است که جمله مزبور در زبان آلمانی هیچ ابهامی ندارد، اما یک سیستم ترجمه ماشینی باید بداند که جمله im S"uden der Stadt به دو شکل متمایز بازنمایی می شود. 1 - south-and-internal 2 - south-and-external در واقع این کاریک KR filtering function بوده و جدا از lexical knowledge و یا Interlingua می باشد . این مهمترین بخش کار این پروژه است .این کار یک شیوه خاص برای KR می باشد، نه IL . درس پردازش زبان طبیعی، استاد: دکتر احمد عبدالله زاده توسط: اسماعیل رضایی آزمایشگاه سیستم های هوشمند
مثالی برای بیان، چرایی انتخاب یک روش غیر یکنواخت Using Default knowledge in the KR Mountains are physical entities, typically distinct and external to cities System chooses second translation The mountain lies to the south of the city Using specific facts in the KR A particular mountain is in the city System overrides default knowledge and chooses first translation The mountain lies in the south of the city
آزمایشگاه سیستم های هوشمند فرضیات پروژه 1- پردازش ها تنها در sentence-level بوده و آنالیز( discourse) مورد نظر نمی باشد. 2- ورودی سیستم، خروجی سیستم PRINCIPAR است. PRINCIPAR پارسراستفاده ساخته شده توسط Dorr،Linو Lee در سال 1995 است. درس پردازش زبان طبیعی، استاد: دکتر احمد عبدالله زاده توسط: اسماعیل رضایی آزمایشگاه سیستم های هوشمند
آزمایشگاه سیستم های هوشمند فرضیات پروژه 3- زبان مبدا به صورت مجموعه ای ازParse Tree تبدیل شده، که در این مجموعه تمام بازنمایی های نحوی ممکن از جمله مبدا فراهم شده است. 4- آنالیزPhrase Structure و ایجاد بهترین تفسیر بین زبانی برای تولید زبان مقصد، وظیفه مولفه های IL و KR است. درس پردازش زبان طبیعی، استاد: دکتر احمد عبدالله زاده توسط: اسماعیل رضایی آزمایشگاه سیستم های هوشمند
آزمایشگاه سیستم های هوشمند Defined interfaces between three knowledge levels 1 -Relates IL representations to corresponding syntactic forms by means of lexical entries. 2 - Checks the IL representations in the KR, filtering out those forms incompatible with known facts. درس پردازش زبان طبیعی، استاد: دکتر احمد عبدالله زاده توسط: اسماعیل رضایی آزمایشگاه سیستم های هوشمند
آزمایشگاه سیستم های هوشمند Defining the Problem Space: Translation Mismatches در این بخش حل مسئله عدم تطابق در ترجمه ها مورد نظر است. در این زمینه به بیان دو گروه از اختلاف هایی که بین جملات مبدا و مقصد می تواند وجود داشته باشد، بیان می کنیم. translation divergences مفهوم جمله در زبان مبدا کاملا منتقل شده اما ساختار جملات در دو زبان متفاوت است. translation mismatches مفهوم منتقل شده در دو زبان با هم متفاوت است. درس پردازش زبان طبیعی، استاد: دکتر احمد عبدالله زاده توسط: اسماعیل رضایی آزمایشگاه سیستم های هوشمند
translation divergences Conflational Divergence Translation of two or more words in one language into one word in another language To kick Dar una patada (Give a kick)
translation divergences عدم تطابق به دلیل تفاوت های ساختاری زبان ها Realization of verb arguments in different syntactic configurations in different languages To enter the house Entrar en la casa (Enter in the house)
Lexical Mismach
آزمایشگاه سیستم های هوشمند تعیین محدوده در این پژوه بیشترین تاکید بر Spatial Expression و بویژه بر Spatial Verb است که به آنها Spatial Predicates گفته می شود. Spatial Predicate گزاره هایی که برای توصیف ازتباط بین اشیاء فیزیکی در فضای سه بعدی به کار می روند. درس پردازش زبان طبیعی، استاد: دکتر احمد عبدالله زاده توسط: اسماعیل رضایی آزمایشگاه سیستم های هوشمند
آزمایشگاه سیستم های هوشمند راه حل های دنبال شده در پژوهش های پیشین حل مشکل divergences : تغییر و بهبود بخشیدن مکانیزم های تبدیل، بازنمایی IL به ساختار زبان مقصد. حل مشکل mismatch : تاکید بیشتر برارایه جزئیات بازنمایی مفهومی در ساخت IL است. درس پردازش زبان طبیعی، استاد: دکتر احمد عبدالله زاده توسط: اسماعیل رضایی آزمایشگاه سیستم های هوشمند
آزمایشگاه سیستم های هوشمند راه حل بیان شده در این پژوهش حل هر دو مشکل مطرح شده در یک سیستم. حل مشکل mismatch : با دسترسی به KR واستفاده از دانشی که بطور منطقی قابل استنتاج است. حل مشکل divergences : ساخت تعداد کافی ساختار در IL و استفاده از آنها(از بین بردن تفاوت های ساختاری). درس پردازش زبان طبیعی، استاد: دکتر احمد عبدالله زاده توسط: اسماعیل رضایی آزمایشگاه سیستم های هوشمند
آزمایشگاه سیستم های هوشمند تعریف یک Interlingua برای تعریف Interlingua از سه منبع استفاده شده است. 1 - Lexical Conceptual Structure(LCS) 2 – Lexical Semantic Template(LST) 3 – Semantic Classification Scheme درس پردازش زبان طبیعی، استاد: دکتر احمد عبدالله زاده توسط: اسماعیل رضایی آزمایشگاه سیستم های هوشمند
آزمایشگاه سیستم های هوشمند Lexical Conceptual Structure(LCS) By Jackendoff (1983 , 1990) Three independent subsystem Fields Conceptual constituents Boundedness and aggregation property تنها از دو زیر سیستم ابتدا در این پروژه استفاده شده است. درس پردازش زبان طبیعی، استاد: دکتر احمد عبدالله زاده توسط: اسماعیل رضایی آزمایشگاه سیستم های هوشمند
Lexical Conceptual Structure(LCS) LCS Fields این فیلد ها توسط مشاهدات تخصصی در تقارن های لغوی ساخته شده اند، می توانند از قبیل Loc(ational), Temp(oral), Poss(essional), Ident(ificational), Perc(eptual) باشند. درس پردازش زبان طبیعی، استاد: دکتر احمد عبدالله زاده توسط: اسماعیل رضایی آزمایشگاه سیستم های هوشمند
Lexical Conceptual Structure(LCS) Conceptual constituents گزاره های اولیه GO, STAY, BE, GO-EXT, and ORIENT آرگومان ها و توصیف کننده های گزاره های اولیه Type یا Antological Type گزاره های اولیه Thing, State,Event, Place, Path, and Property درس پردازش زبان طبیعی، استاد: دکتر احمد عبدالله زاده توسط: اسماعیل رضایی آزمایشگاه سیستم های هوشمند
Lexical Conceptual Structure(LCS) یک مثال از اینکه ببینیم چگونه گزاره اولیه Go با نوع Event برای بازنمایی مفهوم یک جمله به کار می رود. این بازنمایی به این معنا است که "The ball went locationally toward Beth." درس پردازش زبان طبیعی، استاد: دکتر احمد عبدالله زاده توسط: اسماعیل رضایی آزمایشگاه سیستم های هوشمند
در اینجا یک شکل بازنمایی برای جمله زیر داریم. “John jogged to school” Lexical Conceptual Structure(LCS) در اینجا یک شکل بازنمایی برای جمله زیر داریم. “John jogged to school” درس پردازش زبان طبیعی، استاد: دکتر احمد عبدالله زاده توسط: اسماعیل رضایی آزمایشگاه سیستم های هوشمند
آزمایشگاه سیستم های هوشمند Lexical Conceptual Structure(LCS) بازنمایی بیان شده ، تنها مفهوم به مدرسه رفتن را می رساند و در این بازنمایی تفاوتی بین Run ، Walk و یا Jog بیان نشده است. بنابراین شکل کامل این بازنمایی به صورت زیر است. درس پردازش زبان طبیعی، استاد: دکتر احمد عبدالله زاده توسط: اسماعیل رضایی آزمایشگاه سیستم های هوشمند
آزمایشگاه سیستم های هوشمند Lexical Conceptual Structure(LCS) نتیجه گیری در بحث LCS The LCS approach views semantic representation as a subset of conceptual Structure This representation abstracts away from syntax just far enough to enable language-independent encoding. درس پردازش زبان طبیعی، استاد: دکتر احمد عبدالله زاده توسط: اسماعیل رضایی آزمایشگاه سیستم های هوشمند
آزمایشگاه سیستم های هوشمند Lexical Semantic Template(LST) این ابزار افعال را به دو بخش Predicate Structure و Nonpredicate constant تجزیه می کند.که بخش دوم را به شکل <شکل ثابت فعل> نمایش داده می شود. یک فعل با چند معنا دارای یک ثابت و چند ساختار گزاره ای متفاوت می باشد. و تشخیص معنا در هر یک از جملات بر عهده ساختار گزاره ای مربوطه است. درس پردازش زبان طبیعی، استاد: دکتر احمد عبدالله زاده توسط: اسماعیل رضایی آزمایشگاه سیستم های هوشمند
آزمایشگاه سیستم های هوشمند Lexical Semantic Template(LST) مثال : The soldiers marched. The soldiers marched to the barracks. The soldiers marched clear of the falling rocks. The soldiers marched the soles of their boots flat. The general marched the soldiers to the barracks. در این مثال تنها یک شکل ثابت برای فعل ، به شکل <march> داریم، اما مفهوم متفاوت درهر جمله بر عهده ساختار گزاره ای است. درس پردازش زبان طبیعی، استاد: دکتر احمد عبدالله زاده توسط: اسماعیل رضایی آزمایشگاه سیستم های هوشمند
آزمایشگاه سیستم های هوشمند Lexical Semantic Template(LST) امکان دیگر این ابزار داشتن چند Constant متفاوت با یک ساختار گزاره ای یکسان است. هر ترکیب از اینها بصورت یک فعل جدا در جمله اصلی شناخته می شود. مثال They funneled the mixture into the jar. They ladled the mixture into the jar. They spooned the mixture into the jar. تنها تفاوت در ابزار کار است.<FUNNEL> ، <LADLE> و<SPOON>. درس پردازش زبان طبیعی، استاد: دکتر احمد عبدالله زاده توسط: اسماعیل رضایی آزمایشگاه سیستم های هوشمند
References Journal of Language and Linguistics Large-Scale Dictionary Construction for Foreign Language Tutoring and Interlingual Machine Translation
برای مطالعه بیشتر [1] Chris Quirk,” Training a Sentence-Level Machine Translation Confidence Measure”, May 2004. [2] Einat Minkov,Kristina Toutanova, Hisami Suzuki Generating ,”Complex Morphology for Machine Translation”, June 2007 . [3] Kristina Toutanova , Hisami Suzuki,” Generating Case Markers in Machine Translation”, April 2007. [4] Robert C. Moore,Chris Quirk ,” Faster Beam-Search Decoding for Phrasal Statistical Machine Translation.” September 2007 .
با تشکر