1 Three-level approach for Passage Retrieval in Arabic Question/Answering Systems Lahsen Abouenour 1, Karim Bouzoubaa 1, Paolo Rosso 2 1 Mohammadia School of Engineers, Mohamed V th University-Agdal Rabat - Morocco 2 Natural Language Engineering Lab., Universidad Politécnica Valencia, Spain Mohammadia School of Engineers, Rabat, Morocco - May 2009 The 3rd International Conference on Arabic Natural Language Processing
2 Arabic Question/Answering Systems Classical IR User Query (keywords) List of documents/links User CheckingAnswer to User Query ??? ?
3 Arabic Question/Answering Systems Question/Answering User Query (question = keywords+structure) 1 3 List of documents/links User Checking 2 ??? ? Answer to User Query
4 Existing Arabic Q/A Systems - QARAB (based on Al-Raya corpus) - AQAS (extract answers from only structured texts) - ArabiQA (deal with factoid questions, embeds NER module ) - QASAL (semi-automatic Q/A system for factoid questions ) Arabic Question/Answering Systems Three Modules Question Analysis Passage Retrieval Answer Extraction Question type Keywords Named Entities … Candidate passage Passage ranking … Answer identification Answer construction …
5 Challenges of Arabic Q/A Systems - short vowels, - absence of capital letters, - complex morphology, -etc. Arabic Question/Answering Systems
6 Question/Answering User Query (question = keywords+structure) 1 ? Natural Language (أين توجد مدينة مراكش ؟ | Where is the city of Marrakech ?) -- Keywords : Where | is | the | city | of | Marrakech أين| توجد| مدينة | مراكش -- Structure : Where is the city of Marrakech ? Is Marrakech a city ? ≠ أين توجد مدينة مراكش ؟ ≠ هل مراكش مدينة ؟
7 Arabic Question/Answering Systems Question/Answering Passage Retrieval 2 (أين توجد مدينة مراكش ؟ | Where is the city of Marrakech ?) Xxxxx مراكش (Marrakech)xxxxxx xx xxx xxxx Xx xxx xxxxx xxx xxxx xxx xxxx Xxxxx مدينة (city) xxxxx xx xxx توجد (exist in) xxx المغرب (Morroco) xxx مراكش إقليم يوجد (the region of marrakech exists in) xxx Xx xxx xxxxx xxx xxxx xxx xxxx Xxxxx xx xxxxx xx xxx xx xxx Passage 1 Passage N The answer No answer
8 Arabic Question/Answering Systems Question/Answering Passage Retrieval 2 (أين توجد مدينة مراكش ؟ | Where is the city of Marrakech ?) Xxxxx مراكش (Marrakech) xxxxxx xx xxx xxxx Xx xxx xxxxx xxx xxxx xxx xxxx Xxxxx مدينة (city) xxxxx xx xxx توجد (exist in) xxx Passage 1 Passage N توجد | مراكش | مدينة (Is in | Marrakech | city) يوجد | مراكش | إقليم (Is in | Marrakech | city) hyponymy/semantic relation Morphological relation المغرب (Morroco) xxx مراكش إقليم يوجد (the region of marrakech exists in) xxx Xx xxx xxxxx xxx xxxx xxx xxxx Xxxxx xx xxxxx xx xxx xx xxx
9 Arabic Question/Answering Systems Question/Answering Passage Retrieval 2 (أين توجد مدينة مراكش ؟ | Where is the city of Marrakech ?) Xxxxx مراكش xxxxxx xx xxx xxxx Xx xxx xxxxx xxx xxxx xxx xxxx Xxxxx مدينة xxxxx xx xxx توجد xxx المغرب xxx مراكش إقليم يوجد xxx Xx xxx xxxxx xxx xxxx xxx xxxx Xxxxx xx xxxxx xx xxx xx xxx Passage 1 Passage N Vs ??? With respect to Morphological and Semantic Relation relevance(P1)=relevance(PN) What about the question structure ?
10 Arabic Question/Answering Systems Question/Answering Passage Retrieval 2 (أين توجد مدينة مراكش ؟ | Where is the city of Marrakech ?) مراكشمدينةتوجدأين Expected Answer: فيمراكشمدينةتوجد Question:أين توجد مدينة مراكش ؟ توجد مدينة مراكش في (The city of Marrakech is in …)(Where is the city of Marrakech ?) xxxxxمراكشxxxxxxxx Passage 1 structures xxxxxتوجدxxx xxxxxمدينةxxxxxx xxxxxمراكشإقليميوجد Passage N structures
11 Arabic Question/Answering Systems Our Passage Retrieval Approach : Presentation Semantic Query Expansion (extending the list of keywords related to the user question) Keyword-based level (candidate passages with related keywords) Structure-based level (candidate passages with related structure) Levels Semantic reasoning level (comparing CG representations)
12 Arabic Question/Answering Systems Our Passage Retrieval Approach : Presentation Semantic Query Expansion (Arabic WordNet, Amine Plateform) Keyword-based PR (Yahoo API) Structure-based PR (The Java Information Retrieval System - JIRS) Resources & Tools Semantic reasoning level (Amine Plateform)
13 Arabic Question/Answering Systems Our Passage Retrieval Approach : Presentation Semantic Query Expansion Ontology - AWN is a free Lexical resource - AWN contains Over than arabic words grouped into synsets - AWN is connected with the SUMO (Suggested Upper Merged Ontology) - SUMO has about 2000 general concept - SUMO Many relations between concepts (hyponymy, hypernymy,...)
14 Arabic Question/Answering Systems Our Passage Retrieval Approach : Presentation Semantic Query Expansion Amine Platform - Amine is a multi-layer platform dedicated to the development of Intelligent Systems and Multi-Agents Systems - Amine is an Open Source Platform - Amine is 100 % Java implementation - Amine provides a set of operations related to Ontologies
15 Arabic Question/Answering Systems Our Passage Retrieval Approach : Presentation Semantic Query Expansion Content Arabic WordNet Structure Link with SUMO Temporary DataBase (MySQL) JAVA Program Amine AWN ontology Amine Platform API
16 Arabic Question/Answering Systems Our Passage Retrieval Approach : Presentation Semantic Query Expansion
17 Arabic Question/Answering Systems Our Passage Retrieval Approach : Presentation Semantic Query Expansion Global Expansion Morphological Expansion AAWN Ontology Expansion 1 - By synonyms 2 – By supertypes 3 – By definition 4 – By subtypes Concept/Term
18 Arabic Question/Answering Systems Our Passage Retrieval Approach : Presentation Structure-based PR The Java Information Retrieval System (JIRS) - a language-independent PR system - adpated for many non-agglutinative European languages (English, French, Spanish, Italian,...) - adapted for the Arabic language - re-ranking of the retrieved passages is based on a distance density n- gram model URL :
19 Arabic Question/Answering Systems Our Passage Retrieval Approach : Evaluation Process CLEF Questions The accuracy We consider only the first five returned passages The Mean Reciprocal Rank (MRR) 2 - Automatic Process YahooSemantic QE Yahoo Semantic QE JIRS GoogleSemantic QE Google 1 - Manual Process Keyword-basedStructure-based TREC Questions
20 Arabic Question/Answering Systems Our Passage Retrieval Approach : Evaluation Process The Questions - a set of 82 of the CLEF and TREC questions - facoid questions seeking for NE - significant coverage : questions classified into different domains
21 Arabic Question/Answering Systems Our Passage Retrieval Approach : Evaluation Process Keyword-based evaluation Accuracy and MRR have been improved after using semantic QE Google (CLEF) Yahoo (CLEF) Yahoo (TREC) no QEQEno QEQEno QEQE Accuracy 29,26%32,92%1,22%7,32%5,02 %6,95 % MRR 10,1511,250,993,252,042,88
22 Arabic Question/Answering Systems Our Passage Retrieval Approach : Evaluation Process Structure-based evaluation Accuracy and MRR have been improved after using semantic QE Compared to the keyword-based PR, the structure-based PR gives The best Accuracy and MRR Yahoo (CLEF) Yahoo (TREC) no QEQEno QEQE Accuracy15,85%19,51%2,7 %10,81 % MRR5,467,850,674,53
23 Arabic Question/Answering Systems Semantic Query Expansion Keyword-based PR Structure-based PR Our Passage Retrieval Approach : Evaluation Process Summarize Acc. 7,32% MRR 3,25 YesNo Acc. 1,22% MRR 0,99 Acc. 15,85% MRR 5,46 Acc. 19,51% MRR 7,85
24 Arabic Question/Answering Systems Our Passage Retrieval Approach : The semantic reasoning level Presentation QuestionExpected AnswerCG-EA P1 Pi sub passage CG1 CGi Generalization (CG-Pi,CG-EA) Semantic score (p1) Generalization (CG-P1,CG-EA) Semantic score (pi)
25 Arabic Question/Answering Systems Our Passage Retrieval Approach : The semantic reasoning level Example TREC question: أين تقع أعلى نقطة على سطح الأرض؟ (Where is the highest point on the surface of the earth?" ) IDRankPassage P11 بالاضافة إلى أعلى وأخفض نقطتين في الأرض، حيث قمة افرست في جبال الهملايا ترتفع 8848 متر عن سطح البحر وبذلك تكون أعلى نقطة في سطح الأرض، بينما اخفض نقطة على سطح الأرض تكون قرب البحر...لا تقع جزر المحيط الهادي في أوقيانوسيا ضمن أيّ قارات P22 كل نقطة على الأرض عدا القطبين تقع على تقاطع خط طول ومواز، وهكذا يمكن أن ننسب إليها... المهم أن نتذكر أنه من أجل وصف نقطة على سطح الأرض نحتاج إلى عددين، ولهذا... على المستوي المماس للكرة في "أسفل" نقطة منها انطلاقا من "أعلى" نقطة فيها.... P33 ولتمثيل ابعاد سطح الأرض على الخريطة ، ترسم هذه الأبعاد بنسب خاصة تتناسب مع... خفيف ثم يزداد الإنحدار مع الإرتفاع حتى يصبح الإرتفاع حاد عند أعلى نقطة.... P44 هواء المريخ لا يتمتع بنفس كثافة هواء الأرض إذ يبلغ الضغط الجوي على سطح.... فهي تقع مقابل الشمس بالضبط في سمائنا؛ إذ تظهر في الغروب، وتصل إلى أعلى نقطة لها... P55 إذا مَثلّنا الأرض بصورة كرة صغيرة قطرها 457 ميلي متر فيكون ارتفاع أعلى... كان المفروض فيه أنّ الأرض تقع في مركز العالم والشمس (وغيرها) تدور حول الأرض.... حركة الأرض حول الشمس باختلاف مواضعها على مدارها فسرعتها في نقطة الأوج هي 29.3 كم... 5 ظهور الأنوار القطبية فيما يرتفع إلى ألف كيلومتر من سطح الأرض يدلّ على أنّ... P66 أعلى نقطة في اليابسة هي قمة جبل إفرست لأنها ترتفع 8846 مترا عن سطح البحر وتقع في جبال الهملايا ، والواقع أن أطول جبل على سطح الأرض هو موناكي في هاواي ، إذ... >> Using Google Search Engine
26 Arabic Question/Answering Systems Our Passage Retrieval Approach : The semantic reasoning level Example TREC question: أين تقع أعلى نقطة على سطح الأرض؟ (Where is the highest point on the surface of the earth?" ) IDStructure ScorePassage P10,67 بالاضافة إلى أعلى وأخفض نقطتين في الأرض، حيث قمة افرست في جبال الهملايا ترتفع 8848 متر عن سطح البحر وبذلك تكون أعلى نقطة في سطح الأرض، بينما اخفض نقطة على سطح الأرض تكون قرب البحر...لا تقع جزر المحيط الهادي في أوقيانوسيا ضمن أيّ قارات... P60,63 أعلى نقطة في اليابسة هي قمة جبل إفرست لأنها ترتفع 8846 مترا عن سطح البحر وتقع في جبال الهملايا ، والواقع أن أطول جبل على سطح الأرض هو موناكي في هاواي ، إذ... P20,54 كل نقطة على الأرض عدا القطبين تقع على تقاطع خط طول ومواز، وهكذا يمكن أن ننسب إليها...المهم أن نتذكر أنه من أجل وصف نقطة على سطح الأرض نحتاج إلى عددين، ولهذا... P40,49 هواء المريخ لا يتمتع بنفس كثافة هواء الأرض إذ يبلغ الضغط الجوي على سطح....فهي تقع مقابل الشمس بالضبط في سمائنا؛ إذ تظهر في الغروب، وتصل إلى أعلى نقطة لها... P30,39 ولتمثيل ابعاد سطح الأرض على الخريطة ، ترسم هذه الأبعاد بنسب خاصة تتناسب مع...خفيف ثم يزداد الإنحدار مع الإرتفاع حتى يصبح الإرتفاع حاد عند أعلى نقطة.... P50,29 إذا مَثلّنا الأرض بصورة كرة صغيرة قطرها 457 ميلي متر فيكون ارتفاع أعلى... كان المفروض فيه أنّ الأرض تقع في مركز العالم والشمس (وغيرها) تدور حول الأرض.... حركة الأرض حول الشمس باختلاف مواضعها على مدارها فسرعتها في نقطة الأوج هي 29.3 كم... 5 ظهور الأنوار القطبية فيما يرتفع إلى ألف كيلومتر من سطح الأرض يدلّ على أنّ... >> Passages Ranks after LEVEL 1 (Keyword-based) and LEVEL 2 (Structure-based)
27 Arabic Question/Answering Systems Our Passage Retrieval Approach : The semantic reasoning level Example TREC question: أين تقع أعلى نقطة على سطح الأرض؟ (Where is the highest point on the surface of the earth?" ) The expected answer is: تقع أعلى نقطة على سطح الأرض في... CG-EA : [نقطة]- -attr->[أعلى], -ala->[الأرض], [مفهوم عام] PassageGeneralization (CG-EA, CG-P) 1 [ صفة ] [ فعل ] 5 [ نقطة #0 ] - -attr->[ أعلى ], -ala->[ الأرض ] 6 [ نقطة ]<-agnt-[ حدث ]
28 Arabic Question/Answering Systems Our Passage Retrieval Approach : The semantic reasoning level Example TREC question: أين تقع أعلى نقطة على سطح الأرض؟ (Where is the highest point on the surface of the earth?" ) SemanticScore(P) = ∑(weight(ci)*β(ci,π(ci)))/ ∑(weight(ci) ci C Semantic Score Formula ID Semantic ScorePassage P60,66 أعلى نقطة في اليابسة هي قمة جبل إفرست لأنها ترتفع 8846 مترا عن سطح البحر وتقع في جبال الهملايا ، والواقع أن أطول جبل على سطح الأرض هو موناكي في هاواي ، إذ... P10,29 بالاضافة إلى أعلى وأخفض نقطتين في الأرض، حيث قمة افرست في جبال الهملايا ترتفع 8848 متر عن سطح البحر وبذلك تكون أعلى نقطة في سطح الأرض، بينما اخفض نقطة على سطح الأرض تكون قرب البحر...لا تقع جزر المحيط الهادي في أوقيانوسيا ضمن أيّ قارات... P50,26 إذا مَثلّنا الأرض بصورة كرة صغيرة قطرها 457 ميلي متر فيكون ارتفاع أعلى... كان المفروض فيه أنّ الأرض تقع في مركز العالم والشمس (وغيرها) تدور حول الأرض.... حركة الأرض حول الشمس باختلاف مواضعها على مدارها فسرعتها في نقطة الأوج هي 29.3 كم... 5 ظهور الأنوار القطبية فيما يرتفع إلى ألف كيلومتر من سطح الأرض يدلّ على أنّ... P30,20 ولتمثيل ابعاد سطح الأرض على الخريطة ، ترسم هذه الأبعاد بنسب خاصة تتناسب مع...خفيف ثم يزداد الإنحدار مع الإرتفاع حتى يصبح الإرتفاع حاد عند أعلى نقطة.... P40,19 هواء المريخ لا يتمتع بنفس كثافة هواء الأرض إذ يبلغ الضغط الجوي على سطح....فهي تقع مقابل الشمس بالضبط في سمائنا؛ إذ تظهر في الغروب، وتصل إلى أعلى نقطة لها... P20,04 كل نقطة على الأرض عدا القطبين تقع على تقاطع خط طول ومواز، وهكذا يمكن أن ننسب إليها...المهم أن نتذكر أنه من أجل وصف نقطة على سطح الأرض نحتاج إلى عددين، ولهذا...
29 Conclusion & Future Work Covering all CLEF and TREC questions Automating the semantic reasoning level module Conducting corresponding experiments Integrating more enriched releases of Arabic WordNet The keyword-based and structure-based levels of our Arabic PR approach have improved the Accuracy and the MRR in the context of Q/A systems A semantic reasoning level on top of the first and second levels could impove even more the reached performances
30 Thank you for your attention >> Questions