Information Retrieval

Slides:



Advertisements
Similar presentations
Queue theory.
Advertisements

سازگاري فرايندهاي يادگيري Consistency of Learning Processes ارائه دهنده : الهام باوفای حقیقی استاد درس : آقای دکتر شيري دانشگاه امير كبير دانشكده ‌ مهندسي.
دستور العمل نحوه محاسبه امتیاز مقالات ISI اعضای هیأت علمی دانشگاه صنعتی اصفهان بر اساس تعداد استنادات در پايگاه اسكاپوس شهریور ماه 1388 نفیسه دهقان.
1 آزمايشگاه سيستم های هوشمند ( Domain-specific Architecture.
RoboCup Rescue Simulation قسمت سوم به نام خدا دانشکده مهندسی کامپيوتر و فن آوری اطلاعات ارائه درس رباتيکز ارائه دهندگان : اميرعلی صالحی ابری.
مهندسی نرم افزار مبتنی بر عامل
ارائه روشي براي شناسايي کاراکترهاي دستنويس، برپايه شبکه LVQ.
ارائه درس روباتيکز Extended Kalman Filter فريد ملازم استاد مربوطه دکتر شيري دانشگاه امير کبير – دانشکده کامپيوتر و فناوري اطلاعات.
مديريت پروژه‌هاي فناوري اطلاعات فرآيند مديريت پروژه-مرحله برنامه‌ريزي.
طراحي و ساخت سيستم‌هاي تجارت الکترونيک ساخت سيستم‌هاي تجارت الکترونيک ECSE.
نام و نام خانوادگي : فريد ملازم 1 آزمايشکاه سيستم هاي هوشمند ( موضوع ارائه Process and Deployment Design.
نمايش اعداد.
مديريت پروژه‌هاي فناوري اطلاعات فرآيند مديريت پروژه-مرحله برنامه‌ريزي تخصيص منابع.
تعميم در يادگيري مبتني بر نمونه ها
مراحل مختلف اجرای يک برنامه
نقشه‌برداري و مكان‌يابي همزمان به کمک الگوريتم ژنتيک
Artificial Intelligent Systems Laboratory 1 الگو‌هاي فرايند (Process Patterns) فصل 2 درس مهندسي نرم‌افزار 2 دكتر احمد عبداله زاده بارفروش تهيه كننده :
In the name of God Sharif University of Technology, International Branch, Kish Island Dr. Mohsen Sadighi Moshkenani Chapter 12.
نمايش اعداد علی عادلی.  مبنا ( base ): –مبناي r: ارقام محدود به [0, r-1]  دسيمال:(379) 10  باينري:( ) 2  اکتال:(372) 8  هگزادسيمال:(23D9F)
ساختارهاي تقسيم كار پروژه
 Hassan jamali In the name of God Grade: three CD شامل : مكالمه لغات جديد درس نقاط گرامري و تمرين است.
Solving problems by searching Chapter 3 Modified by Vali Derhami.
روابط مجموعه ها سلیمی. دکتر سلیمانی. نظریه فازی در سال 1965 بوسیله یک دانشمند ایرانی بنام پروفسور لطفی زاده معرفی گردید. گرچه این نظریه در ابتدا با.
به نام خدا دانشگاه علمي كاربردي واحد 11 تهران محيط‌هاي چند رسانه‌اي ) اسلايد سوم ) E.Javanmard Website:
1 فصل دوم تبديلات. 2 فصل دوم سرفصل مطالب مقدمه ضرب بردارها دستگاه ‌ هاي مختصات دوران ‌ ها مختصات همگن دوران ‌ ها و انتقال ‌ ها تبديلات تركيبي همگن تبديل.
1/19 Informed search algorithms Chapter 4 Modified by Vali Derhami.
Modeling in Rangeland Ecosystems By: Dr. Hossein Bashari 2010.
1 فصل سوم سينماتيك مستقيم. 2 محتواي فصل   تعريف مجموعه فازي   تابع عضويت   نمايش مجموعه هاي فازي   برش آلفا   متغيرهاي زباني   ساخت مجموعه.
اصول رنگ تجزيه نور سفيد توسط منشور.
Image Enhancement in the
تفاوت داده و اطلاعات در روزهاي آفتابي خورشيد پشت ابر نيست
اصول روان سنجی و روان آزمویی
نظریه رفتار برنامه ريزي شده Theory of Planned Behavior
به نام خدا POWER SYSTEM ANALYSIS Ali Karimpour Associate Professor
آرايه ها و ساختارها.
ANOVA: Analysis Of Variance
ANOVA: Analysis Of Variance
نمايش معادلات فضاي حالت توسط فرمهاي كانوليكال
Part-of-Speech tagging
آشنايي با برنامه نويسي به زبان C++
معرفي درس ساختمان داده ها و الگوريتمها
تلفيق اطلاعات سنسوري به منظور حرکت
دکتر حسين بلندي/ دکتر سید مجید اسماعیل زاده / دکتر بهمن قربانی واقعی
تبدیل فوریه (Fourier Transform)
نمايش اعداد در کامپيوتر چهار عمل اصلي
Similarity transformation
ادامه فصل سوم ....
ادامه فصل سوم ....
گزگز و خواب رفتگي انگشتان دست
سيستمهاي اطلاعات مديريت
مدلسازي تجربي – تخمين پارامتر
هیدرولیک جریان در کانالهای باز
فيلتر كالمن معرفي : فيلتر كالمن تخمين بهينه حالت‌ها است كه براي سيستم‌هاي ديناميكي با اختلال تصادفي در سال 1960 بزاي سيستم‌هاي گسسته و در سال 1961 براي.
MPC Review کنترل پيش بين-دکتر توحيدخواه.
1.
عمليات آهنگري.
نظریه رفتار برنامه ريزي شده Theory of Planned Behavior
Test آزمون نرم افزار Mansooreh Jalalyazdi.
تحليل عملكرد يك سيستم تصويربرداري ديجيتال
آمار توصيفي ارائه: سيد عماد احمدي.
روش های تحقیق در مدیریّت
مدلسازي تجربي – تخمين پارامتر
مثال : فلوچارتي رسم كنيد كه دو عدد از ورودي دريافت كرده بزرگترين عدد
توزیع میانگین نمونه سعید موسوی.
Petri Nets: Properties, Analysis and Application
Stem cell Transplantation
گزارش کار آزمايشگاه مکانيک خاک
گروه كارشناسي ارشد مديريت فنآوري اطلاعات(واحد الكترونيكي تهران)
Dislocation multiplication
تخمين پارامترها - ادامه
Presentation transcript:

Information Retrieval In the name of God Information Retrieval Mohammad Bahrani May 2011

Information Retrieval Information Retrieval(IR): جستجوي اطلاعات در مستندات (documents) مختلف و بازيابي آنها از بين مجموعه اي از مستندات، سندهايي را پيدا كنيم كه با درخواست كاربر (query) منطبق باشند. انواع Information Retrieval Text Retrieval Audio Retrieval Spoken document Retrieval Music Retrieval … Image Retrieval در اين درس منظور از مستندات، مستندات متني (text documents) هستند، بنابراين با text retrieval سروكار داريم.

Information Retrieval document: قطعه اي از متن كه به منظور بازيابي مورد پردازش قرار مي گيرد. مانند: يك خبر روزنامه، يك پاراگراف در متن، يك صفحه وب، يك جمله و ... collection: مجموعه اي از documentها كه مورد بازيابي قرار مي گيرند. term: واحدهاي واژگاني كه در documentها رخ داده اند. query: درخواست مورد نياز كاربر كه به وسيلة مجموعه اي از termها بيان مي شود.

Information Retrieval فرض bag of words: ترتيب رخ داد كلمات در جمله يا متن تأثيري در معناي آن ندارد. اين فرض معمولاً در information retrieval به كار مي رود. vector space model: documentها و query به صورت يك بردار نمايش داده مي شوند. روش كلي information retrieval: بردار مربوط به query با بردارهاي مربوط به documentهاي موجود در collection انطباق داده مي شود و شبيه ترين documentها به آن برگردانده مي شود. .

نمايش برداري ساده ترين حالت نمايش برداري: به ازاي هر ترم موجود در collection يك مؤلفه درنظر گرفته مي شود. به ازاي هر document مشخص مي شود كه كدام ترم ها در آن حضور دارند. سنجش ميزان انطباق document و query

نمايش برداري روش فوق ميزان اهميت termها در document را در نظر نمي گيرد. روش كلي تر: در نمايش برداري به termها وزن داده شود. تعداد رخداد termها مي تواند به عنوان وزن به كار رود. term-document matrix: collection به صورت يك ماتريس نمايش داده مي شود كه ستون هاي آن نمايش برداري documentها و سطرهاي آن نمايش برداري termها مي باشد. documentها و query به صورت نقاطي در يك فضاي برداري N بعدي نمايش داده مي شوند. هر document كه در اين فضا نزديكتر به query واقع شده باشد، به query شبيه تر است.

نمايش برداري براي حذف اثر اندازه document برروي نمايش برداري، مولفه هاي بردار نسبت به طول بردار نرمال مي شوند. محاسبه ميزان انطباق بين بردارهاي مربوط به query و document (شباهت كسيسنوسي): بردارهاي نرمال شده: بردارهاي نرمال نشده:

وزن دهي به termها (term weighting) فركانس وقوع يك term در يك document نشانگر ميزان اهميت آن ترم مي باشد. يك term با رخداد بالا معناي يك document را بيشتر از يك term با فركانس پايين منتقل مي كند. ميزان پراكندگي يك term در documentهاي مختلف نشانگر كم اهميت بودن آن term از نظر معنايي است. termهايي كه در documentهاي اندكي به كار رفته اند مي توانند موجب تمايز آنها از ساير documentها شوند. term frequency (tf): تعداد رخداد term در document inverse document frequency (idf): معكوس درصدي از documentها كه در آن يك ترم خاص رخ داده است.

وزن دهي به termها idf به عنوان وزن براي فركانس termها (tf) به كار مي رود. N: تعداد كل documentهاي موجود در collection ni: تعدا documentهايي كه ترم i در آن رخ داده است. وزن دهي به روش tf-idf در اكثر سيستم هاي بازيابي اطلاعات به كار مي رود.

وزن دهي به termها ساير روش هاي وزن دهي: nj: تعداد كل termها در سند j ti: تعداد كل ترم i در collection

Stemming & Stop words مي توان ريشه (stem) مربوط به termها را استخراج كرد و شكل هاي مختلف صرفي يك term را با هم يكي درنظر گرفت. مزيت: documentهايي كه شامل صورت هاي مختلف صرفي يك term هستند بازيابي مي شوند. عيب: در نظر نگرفتن وجه تمايز صورت هاي مختلف صرفي يك term دقت بازيابي را پايين مي آورد. Stop wordها را مي توان از مجموعة termها حذف كرد. مزيت: stop wordها تعداد رخداد بالا و بار معنايي كمي دارند و حذف انها حجم محاسبات را كاهش مي دهد. عيب: جستجوي queryهايي كه شامل stop word هستند مشكل مي شود.

اصلاح queryها يكي از روش هاي افزايش كارايي سيستم هاي بازيابي اطلاعات، اصلاح query هاي كاربر مي باشد. روش relevance feedback يك query اوليه به سيستم داده مي شود و تعداد كمي document بازيابي مي شود. كاربر documentهاي مرتبط و نامرتبط را مشخص مي كند. با استفاده از documentهاي مرتبط و نامرتبط query اصلاح مي شود. روش query expansion: با استفاده از يك thesaurus ترم هاي مرتبط به ترم هاي موجود در query به query اضافه مي گردد.

Latent Semantic Indexing (LSI) بيان ماتريس term-document در يک زيرفضاي کاهش بعد يافته با استفاده از تکنيک SVD اگر تعداد documentها N و تعداد ترم ها M باشد: UR يک ماتريس M*R از R بردار ويژه مهمتر ماتريس AAT VR يک ماتريس N*R از R بردار ويژه مهمتر ماتريس ATA SR يک ماتريس قطري از R مقدار ويژه ماتريس AAT سطرهاي ماتريس URSR بيانگر بيان برداري کلمات و ستون‌هاي ماتريس SRVRT بيانگر بيان برداري سندها

Latent Semantic Indexing (LSI)

Latent Semantic Indexing (LSI) بيان برداري query نمايش برداري query را با dp نمايش مي دهيم (p>N) که مي توان آن را به عنوان يک ستون اضافه از ماتريس A (ماتريس term-document) در نظر گرفت. با فرض اينکه بسط SVD حاصل از آموزش صادق است داريم: هدف محاسبه بردار SvpT است: شباهت query با document ها با معيار كسينوسي به دست مي آيد:

Information Retrieval: ارزيابي در بازيابي دو نوع خطا رخ مي دهد: false positive: documentهاي بازيابي شده در اصل مرتبط با query نباشند. false negative: documentهاي مرتبط بازيابي نشده باشند.

Information Retrieval: ارزيابي معيار Recall: معيار Precision: F-measure:

Information Retrieval: ارزيابي معمولاً يك سيستم Information Retrieval تعداد زيادي document را به ترتيب ميزان شباهت برمي گرداند. براي تعيين تعداد documentهاي مرتبط و نامرتبط معمولاً برروي كل documentها يك cutoff اعمال مي شود و Precision و Recall براي آنها محاسبه مي گردد. روش ديگر اين است كه آن تعداد document انتخاب كنيم كه معيار recall را به حد از پيش تعيين شده اي برساند، سپس براي آنها Precision را حساب كنيم. با اين روش يك منحني precision-recall به دست مي آيد.

Polysemy & Synonymy وجود كلماتي كه داراي چندمعنا هستند (polysemy) در query باعث مي شود كه documentهاي مرتبط با معناهاي ديگر كلمه هم بازيابي شوند؛ بنابراين precision كاهش مي يابد. وجود كلمات مترادف با كلمات query در documentها باعث مي شود كه documentهاي مرتبط بازيابي نشوند؛ بنابراين recall پايين مي آيد.

ساير taskهاي مرتبط با بازيابي اطلاعات Document categorization: انتساب يك document به يكي از چند كلاس از پيش تعريف شده. Document clustering: دسته بندي مجوع اي از document ها به تعدادي كلاس Document clustering مي تواند كارايي سيستم هاي بازيابي اطلاعات را افزايش دهد. Text segmentation: قطعه بندي يك متن بزرگ به document كوچكتر طوري كه هر document از نظر معنايي يكدست باشد. Text summarization: توليد يك خلاصه از متن knowledge-based approach selection-based approach