Information Retrieval In the name of God Information Retrieval Mohammad Bahrani May 2011
Information Retrieval Information Retrieval(IR): جستجوي اطلاعات در مستندات (documents) مختلف و بازيابي آنها از بين مجموعه اي از مستندات، سندهايي را پيدا كنيم كه با درخواست كاربر (query) منطبق باشند. انواع Information Retrieval Text Retrieval Audio Retrieval Spoken document Retrieval Music Retrieval … Image Retrieval در اين درس منظور از مستندات، مستندات متني (text documents) هستند، بنابراين با text retrieval سروكار داريم.
Information Retrieval document: قطعه اي از متن كه به منظور بازيابي مورد پردازش قرار مي گيرد. مانند: يك خبر روزنامه، يك پاراگراف در متن، يك صفحه وب، يك جمله و ... collection: مجموعه اي از documentها كه مورد بازيابي قرار مي گيرند. term: واحدهاي واژگاني كه در documentها رخ داده اند. query: درخواست مورد نياز كاربر كه به وسيلة مجموعه اي از termها بيان مي شود.
Information Retrieval فرض bag of words: ترتيب رخ داد كلمات در جمله يا متن تأثيري در معناي آن ندارد. اين فرض معمولاً در information retrieval به كار مي رود. vector space model: documentها و query به صورت يك بردار نمايش داده مي شوند. روش كلي information retrieval: بردار مربوط به query با بردارهاي مربوط به documentهاي موجود در collection انطباق داده مي شود و شبيه ترين documentها به آن برگردانده مي شود. .
نمايش برداري ساده ترين حالت نمايش برداري: به ازاي هر ترم موجود در collection يك مؤلفه درنظر گرفته مي شود. به ازاي هر document مشخص مي شود كه كدام ترم ها در آن حضور دارند. سنجش ميزان انطباق document و query
نمايش برداري روش فوق ميزان اهميت termها در document را در نظر نمي گيرد. روش كلي تر: در نمايش برداري به termها وزن داده شود. تعداد رخداد termها مي تواند به عنوان وزن به كار رود. term-document matrix: collection به صورت يك ماتريس نمايش داده مي شود كه ستون هاي آن نمايش برداري documentها و سطرهاي آن نمايش برداري termها مي باشد. documentها و query به صورت نقاطي در يك فضاي برداري N بعدي نمايش داده مي شوند. هر document كه در اين فضا نزديكتر به query واقع شده باشد، به query شبيه تر است.
نمايش برداري براي حذف اثر اندازه document برروي نمايش برداري، مولفه هاي بردار نسبت به طول بردار نرمال مي شوند. محاسبه ميزان انطباق بين بردارهاي مربوط به query و document (شباهت كسيسنوسي): بردارهاي نرمال شده: بردارهاي نرمال نشده:
وزن دهي به termها (term weighting) فركانس وقوع يك term در يك document نشانگر ميزان اهميت آن ترم مي باشد. يك term با رخداد بالا معناي يك document را بيشتر از يك term با فركانس پايين منتقل مي كند. ميزان پراكندگي يك term در documentهاي مختلف نشانگر كم اهميت بودن آن term از نظر معنايي است. termهايي كه در documentهاي اندكي به كار رفته اند مي توانند موجب تمايز آنها از ساير documentها شوند. term frequency (tf): تعداد رخداد term در document inverse document frequency (idf): معكوس درصدي از documentها كه در آن يك ترم خاص رخ داده است.
وزن دهي به termها idf به عنوان وزن براي فركانس termها (tf) به كار مي رود. N: تعداد كل documentهاي موجود در collection ni: تعدا documentهايي كه ترم i در آن رخ داده است. وزن دهي به روش tf-idf در اكثر سيستم هاي بازيابي اطلاعات به كار مي رود.
وزن دهي به termها ساير روش هاي وزن دهي: nj: تعداد كل termها در سند j ti: تعداد كل ترم i در collection
Stemming & Stop words مي توان ريشه (stem) مربوط به termها را استخراج كرد و شكل هاي مختلف صرفي يك term را با هم يكي درنظر گرفت. مزيت: documentهايي كه شامل صورت هاي مختلف صرفي يك term هستند بازيابي مي شوند. عيب: در نظر نگرفتن وجه تمايز صورت هاي مختلف صرفي يك term دقت بازيابي را پايين مي آورد. Stop wordها را مي توان از مجموعة termها حذف كرد. مزيت: stop wordها تعداد رخداد بالا و بار معنايي كمي دارند و حذف انها حجم محاسبات را كاهش مي دهد. عيب: جستجوي queryهايي كه شامل stop word هستند مشكل مي شود.
اصلاح queryها يكي از روش هاي افزايش كارايي سيستم هاي بازيابي اطلاعات، اصلاح query هاي كاربر مي باشد. روش relevance feedback يك query اوليه به سيستم داده مي شود و تعداد كمي document بازيابي مي شود. كاربر documentهاي مرتبط و نامرتبط را مشخص مي كند. با استفاده از documentهاي مرتبط و نامرتبط query اصلاح مي شود. روش query expansion: با استفاده از يك thesaurus ترم هاي مرتبط به ترم هاي موجود در query به query اضافه مي گردد.
Latent Semantic Indexing (LSI) بيان ماتريس term-document در يک زيرفضاي کاهش بعد يافته با استفاده از تکنيک SVD اگر تعداد documentها N و تعداد ترم ها M باشد: UR يک ماتريس M*R از R بردار ويژه مهمتر ماتريس AAT VR يک ماتريس N*R از R بردار ويژه مهمتر ماتريس ATA SR يک ماتريس قطري از R مقدار ويژه ماتريس AAT سطرهاي ماتريس URSR بيانگر بيان برداري کلمات و ستونهاي ماتريس SRVRT بيانگر بيان برداري سندها
Latent Semantic Indexing (LSI)
Latent Semantic Indexing (LSI) بيان برداري query نمايش برداري query را با dp نمايش مي دهيم (p>N) که مي توان آن را به عنوان يک ستون اضافه از ماتريس A (ماتريس term-document) در نظر گرفت. با فرض اينکه بسط SVD حاصل از آموزش صادق است داريم: هدف محاسبه بردار SvpT است: شباهت query با document ها با معيار كسينوسي به دست مي آيد:
Information Retrieval: ارزيابي در بازيابي دو نوع خطا رخ مي دهد: false positive: documentهاي بازيابي شده در اصل مرتبط با query نباشند. false negative: documentهاي مرتبط بازيابي نشده باشند.
Information Retrieval: ارزيابي معيار Recall: معيار Precision: F-measure:
Information Retrieval: ارزيابي معمولاً يك سيستم Information Retrieval تعداد زيادي document را به ترتيب ميزان شباهت برمي گرداند. براي تعيين تعداد documentهاي مرتبط و نامرتبط معمولاً برروي كل documentها يك cutoff اعمال مي شود و Precision و Recall براي آنها محاسبه مي گردد. روش ديگر اين است كه آن تعداد document انتخاب كنيم كه معيار recall را به حد از پيش تعيين شده اي برساند، سپس براي آنها Precision را حساب كنيم. با اين روش يك منحني precision-recall به دست مي آيد.
Polysemy & Synonymy وجود كلماتي كه داراي چندمعنا هستند (polysemy) در query باعث مي شود كه documentهاي مرتبط با معناهاي ديگر كلمه هم بازيابي شوند؛ بنابراين precision كاهش مي يابد. وجود كلمات مترادف با كلمات query در documentها باعث مي شود كه documentهاي مرتبط بازيابي نشوند؛ بنابراين recall پايين مي آيد.
ساير taskهاي مرتبط با بازيابي اطلاعات Document categorization: انتساب يك document به يكي از چند كلاس از پيش تعريف شده. Document clustering: دسته بندي مجوع اي از document ها به تعدادي كلاس Document clustering مي تواند كارايي سيستم هاي بازيابي اطلاعات را افزايش دهد. Text segmentation: قطعه بندي يك متن بزرگ به document كوچكتر طوري كه هر document از نظر معنايي يكدست باشد. Text summarization: توليد يك خلاصه از متن knowledge-based approach selection-based approach