ارزيابی قابليت استفاده مجدد مجموعه تستها دارای قضاوتهای چندسطحی Reusability Assessment of Test Collections with Relevance Levels of Judgments مريم خدابخش
محتوای ارائه مقدمه پیشینه روش پیشنهادی نتایج، تحلیل و ارزیابی نتیجهگیری و کارهای آتی
سیستمهای بازیابی اطلاعات (Information Retrieval Systems) تعریف موتورهای جستجو ملموسترین نمونه از سیستمهای بازیابی اطلاعات است که برای بازیابی اسناد HTML در وب به کار می رود. شکل 1: نمایی از یک سیستم بازیابی اطلاعات [Web 2010]
مجموعه تست (Test Collection) تعریف کاربرد: کارایی سیستمهای بازیابی اطلاعات براساس میزان ارتباط نتایج جستجو با پرسش کاربر از طریق منبعی به نام مجموعه تست ارزیابی میشود. شکل 2: نمایی از مجموعه تست و سیستم بازیابی اطلاعات [Web 2010]
انواع مجموعههای تست مجموعه تست غیر دودویی دودویی قضاوتهای ترجیحی ارتباط جنبه چند سطحی در مجموعههای تست با قضاوتهای چند سطحی، قضاوت در مورد ارتباط هر سند به پرسش در قالب یک عدد بیان میشود که نمایانگر میزان ارتباط محتوای هر سند به پرسش میباشد. کاربرد مجموعههای تست با قضاوتهای چند سطحی: در محیطهایی (مثل وب) [Jär 2000] کاربر معمولا اسناد ابتدای لیست را نگاه میکند که بهتر است این اسناد خیلی مرتبط باشند.
ساخت مجموعههای تست بنابراین تهیه مجموعه اسناد کار دشواری نیست. ساخت مجموعه پرسشها کار دشواری نیست [Car 2008]. در مجموعه تستهای بزرگ امکان قضاوت درمورد ربط تمام سندها به تمام پرسشهای موجود در مجموعه ممکن نیست [San and Joh 2004]. ساخت مجموعه قضاوت زمانبر و هزینهبر است و مستلزم تلاش انسانی است [San and Joh 2004][Car and Ben 2008]. اگر مجموعه تست فاقد قضاوتها کافی باشد، در ارزیابی سیستمهای بازیابی اطلاعات خوب عمل نمیکند[Car 2008]. بنابراین توسعه دهندگان مجموعه تست باید بین تعداد قضاوتها و هزینه ساخت آن مصالحه انجام دهند. اطمینان از کافی بودن تعداد قضاوتهای مجموعه تست
تعریف مسئله مسئله: اطمینان از میزان کارآیی مجموعه تست در ارزیابی سیستمهای بازیابی اطلاعات (قابلیت استفاده مجدد). قابلیت استفاده مجدد یعنی اطمینان از کافی بودن مجموعه قضاوتهایِ موجود در مجموعه تست. هر چه به قضاوتهای بیشتری نیاز باشد قابلیت استفاده مجدد از مجموعه تست کاهش مییابد. قابلیت استفاده مجدد یک معیار کیفی است. اهمیت عملی مسئله: کمک به تولیدکنندگان مجموعه تست در تعیین این که آیا یک مجموعه موجود از قضاوتها برای ارزیابی سیستمهای بازیابی اطلاعات مناسب است یا به قضاوتهای بیشتری نیاز است. قابلیت استفاده مجدد از دیدگاه تولید کننده مجموعه تست قابلیت استفاده مجدد یک مجموعه تست با تعداد قضاوتهای موجود در مجموعه تست رابطه مستقیم دارد. هرچه مجموعه قضاوت به سمت کامل بودن پیش رود قابلیت استفاده مجدد مجموعه تست افزایش مییابد [Car 2008] . -کیفی یعنی آیا بقدر کافی است؟
هدف ارائه روشی برای ارزیابی قابلیت استفاده مجدد مجموعه تست با قضاوتهای چند سطحی بدین منظور باید از کافی بودن تعداد قضاوتهای موجود در مجموعه تست اطمینان حاصل کرد. برای نشان دادن این اطمینان از بازه اطمینان استفاده میشود که برای یک معیار ارزیابی محاسبه میشود. پهنای بازههای اطمینان، نمایندهای از قابلیت استفاده مجدد مجموعه تست میباشد.
محتوای ارائه مقدمه پیشینه روش پیشنهادی نتایج، تحلیل و ارزیابی نتیجهگیری و کارهای آتی
نمونههایی از مجموعههای تست آدرس تعداد قضاوتها تعداد پرسشها تعداد اسناد نوع توضیحات نام مجموعه تست http://trec.nist.gov/ 19381 50 1040809705 غیر دودویی میلیونها صفحات وب از ClueWeb09 Dataset TREC 2011 http://ir.dcs.gla.ac.uk/resources/test_collections/cran/ 1837 225 1400 دودویی مقالههای تکنیکی درمورد حرکت گاز و هوا Cranfield http://cacm.acm.org/ 796 64 3204 خلاصههای ACM CACM http://ce.sharif.edu/~shesmail/Mahak/ 1196 216 3006 شامل خبرهای ISNA Mahak http://ece.ut.ac.ir/dbrg/hamshahri/publications.html 21743 320000 خبرهای روزنامه همشهری Hamshahri 2
روشهای ساخت مجموعه قضاوت نمونهگیری تصادفی [Har 1992] جستجو و قضاوت تعاملی (Interactive Searching and Judging) [San and Joh 2004] [Cor 1998] بازخورد ارتباطی (Relevance Feedback) [Sob 2003] [San and Joh 2004] Pooling [Car and Gab et al. 2010] روش Pooling [Joh 2007] چندین ارزیاب انسان از یک سیستم بازیابی اطلاعات عادی استفاده میکنند. با کمک این سیستم هر ارزیاب تلاش میکند تا بهترین و کاملترین مجموعهی اسناد مرتبط با هر پرسش را به دست آورد. در همین راستا ارزیابها از مترادفهای واژگان پرسش، زیرمجموعههای واژگان پرسش برای ایجاد پرسش دیگر استفاده میکنند. شبیه به روش جستجو و قضاوت تعاملی میباشد با این تفاوت که از بازخوردهای ارتباطی برای تولید پرسش جدید استفاده میشود. روش کار در relevance feedback به صورت زیر است: کاربر یک پرسش را تولید می کند. سیستم بازیابی یک لیست از نتایج را ایجاد می کند. کاربر لیست اسناد مرتبط و نامربط با پرسش را مشخص می کند. سیستم با استفاده از اسناد مرتبط مشخص شده به عنوان feedback دوباره لیستی را ارائه می دهد. برای feedback می توان از الگوریتم های متفاوتی استفاده کرد: Rocchio feedback Rocchio with positive feedback only model-based feedback (lan- guage modeling paradigm) یکی از رایجترین و شناخته شده ترین روشهای است. اسنادی مورد قضاوت قرار میگیرد که توسط چندین سیستم بازیابی شده است و قضاوت محدود به اسنادی میشود که بی ربط بودن آنها بعید است.
معیارهای ارزیابی سیستمهای بازیابی اطلاعات فرمول نام نوع Precision دودویی Recall Average Precision Mean Average Precision General Precision [Kek 2002] غیر دودویی General Recall [Kek 2002] Graded Average Precision [Rob 2010] Normalized Discounted Cumulative Gain [Jär 2000] معیارهای متفاوتی برای ارزیابی کارایی سیستمهای بازیابی اطلاعات وجود دارد. قبل از استفاده از این معیارها به این نکته باید توجه کرد که چه تعریفی برای ارتباط در نظر گرفته شده است. Im سطح ارتباطی سند m است. Ri تعدا کل اسناد در سطح ارتباطی I Assume relevance grades {0... c} –0 for non-‐relevant, + c positive graded g i = P(user threshold is at i) for i ∈ {1... c} i.e. User regards grades { i...c} as relevant, grad {0... (i-‐1)} as not relevant g i s sum to one
روشهای بررسی اسناد قضاوت نشده نوع نام نادقیق اسناد قضاوت نشده، نامرتبط فرض شوند دودویی binary preference [Buc 2004] معرفی معیارهای جدید Inferred Average Precision [Yil 2006] کلیک [Rad 2006] رفتار کاربر تخمین ربط هر سند به پرسش SVM [ Büt 2007] دسته بندی غیر دودویی Multinomial Logistic Regression شرط استفاده از معیارها ارزیابی این است که مجموعه قضاوت کامل باشد یعنی هر سند بازیابی شده برای هر پرسش، قضاوت شده باشد. روش های گوناگونی برای بررسی اسناد قضاوت نشده معرفی شده است: یک مجموعه تست با مجموعه قضاوت کامل در دسترس است.نتیجه ارزیابی سیستم های بازیابی اطلاعات با کمک این مجموعه تست و معیار MAP و bref یکسان است. مثلا با کمک هر دو معیار به این نتیجه می رسیم که سیستم A بهتر از B است. حال اگر مجموعه تست دارای مجموعه قصاوت کامل نباشد و بخواهیم سیستم ها را با کمک این دو معیار مقایسه کنیم Bref نتیجه بهتری از MAP می دهد. یعنی ممکن است در ارزیابی سیستم ها با کمک MAP به این نتیجه برسیم که سیستم B بهتر از A است. Bpref=1/R ∑(1-(|n ranked higher than r|/R)) Retrieved result set with D2 and D5 being relevant: D1 D2 D3 not judged D4 -------- D5 D6 D7 D8 D9 D10 R=2; bpref = 1/2 [1- (1/2)] Rel: اسناد مرتبط بازیابی شده تا رنک k nonRel: اسناد نامرتبط بازیابی شده تا رنک k
روشهای ارزیابی قابلیت استفادهی مجدد مجموعههای تست مناسب نبودن روشهای تخمین کارایی: عدم اطمینان به تخمینها آیا دو سیستم بعد از پیشبینی ارتباط هر سند از روی یک مجموعهی کوچک از قضاوتها میتوانند نسبت به هم با اطمینان رتبهبندی شوند [Car and Kan 2010] . تخمین نقطهای [Car and Gab et al. 2010] با استفاده از معیارهای کلاسیک و معرفی معیار جدید قابلیت استفاده مجدد مجموعه تست به صورت نقطهای تخمین زده میشود. تخمین بازهای [Car and Gab et al. 2010] بازه اطمینان برای معیار MAP محاسبه میشود. روش تخمین بازهای دقیق تر از تخمین نقطهای است. این روشها محدود به ارزیابی مجموعه تستها با قضاوتهای دودویی هستند. تولیدگنندگان برای به دست آوردن مجموعه قضاوت ممکن است از روشهای گوناگونی استفاده کنند. با این وجود باید اطمینان حاصل کنند که مجموعه قضاوت به اندازه این پیشبینیها برای محاسبه احتمال تعویض دو سیستم پس از اضافه کردن قضاوتهای بیشتر استفاده میشود. قابلیت استفادهی مجدد باید تحت عنوان توانایی سیستم در تولید نتایج با قابلیت اطمینان بالا (High confidence) ارزیابی شود [Car 2007] . کافی کامل است و می تواند سیستم بازیابی اطلاعات جدید را با اعتماد ارزیابی کند
نوآوری ارزیابی قابلیت استفاده مجدد، مجموعه تستها با قضاوتهای چند سطحی گسترش روش تخمین بازه اطمینان با استفاده از: معیار NDCG در تخمین بازه های اطمینان مدل Multinomial Logistic Regression برای تخمین میزان ارتباط اسناد قضاوت نشده به پرسش
محتوای ارائه مقدمه پیشینه روش پیشنهادی نتایج، تحلیل و ارزیابی نتیجهگیری و کارهای آتی
ارزیابی قابلیت استفاده مجدد با کمک بازه اطمینان اگر یک مجموعه تست با مشخصات زیر وجود داشته باشد: J: مجموعه قضاوت Q: مجموعه پرسش قبل از محاسبه کارایی یک سیستم بازیابی اطلاعات با کمک این مجموعه تست و معیار ارزیابی m باید از کافی بودن تعداد قضاوتهای موجود در J اطمینان حاصل نماییم. برای نمایش این اطمینان از بازه اطمینان استفاده می شود. بازه اطمینان برای معیار m محاسبه میشود. بازه اطمینان ابزار قدرتمندی است که به کاربر اجازه میدهد عدم قطعیت را در محاسبه کارایی سیستم بازیابی اطلاعات تعیین کند. عدم قطعیت ناشی از اسناد قضاوت نشدهای است که توسط سیستم بازیابی شده است. هرچه عدم قطعیت بیشتر باشد پهنای بازههای اطمینان زیادتر است و قابلیت استفاده مجدد از مجموعه تست کمتر میباشد و باید قضاوت های بیشتری به J افزود.
ارزیابی قابلیت استفاده مجدد با کمک بازه اطمینان ... برای محاسبهی بازه اطمینان با معیار NDCG ابتدا باید امید ریاضی و واریانس معیار NDCG برای یک پرسش محاسبه شود. اما معمولاً یک مجموعه از پرسش ها وجود دارند. در بازیابی اطلاعات پرسش ها مستقلند. برای یک مجموعه پرسش حالت رایج آن است که میانه معیار در نظر گرفته شود. n تعداد پرسشهای داخل مجموعه است. مقدار z است به گونهای که p(Z ≤ z) = 1 – (α/2) برقرار باشد و z دارای توزیع نرمال است. % (α - 1) 100 = 95% α = 05/0 025/0 = 2 ÷ α Z025/0 = 96/1
Multinomial Logistic Regression این نوع رگراسیون زمانی بکار میرود که متغییر وابسته بیشتر از دو دسته را شامل شود و از نوع اسمی (Nominal) باشد. لذا استفاده از از مدل Multinomial Logistic Regression برای تخمین سطوح ارتباطی مناسب میباشد. β بردار پارامتر مدل میباشد که با استفاده ازMaximum likelihood تخمین زده میشود. Xi بردار متغییر مستقل (بردار ویژگی) میباشد. در این کار از ویژگی شباهت سند (Document Similarity) استفاده میشود [Car and All 2007] . در صورتی می توان در محاسبه امید، واریانس و بازه اطمینان از معیار NDCG استفاده کرد که مجموعه قضاوت کامل باشد. به دست آوردن مجموعه قضاوت کامل غیر عملی است. سیستم بازیابی اطلاعات ممکن است اسنادی را بازیابی کند که در مجموعه قضاوت موجود نیست.
شباهت بین اسناد کاربرد فرمول نام دادههای متراکم (فاصله بین دو نقطه) Euclidean Distance¹ Pearson Correlation Coefficient دادههای پراکنده (دادههای باینری) Jaccard Coefficient [Hua 2008] دادههای پراکنده (متن) Cosine similarity [Car and All 2007] ¹:http://www.stat.cmu.edu/~cshalizi/350/lectures/01/lecture-01.pdf
محتوای ارائه مقدمه پیشینه روش پیشنهادی نتایج، تحلیل و ارزیابی نتیجهگیری و کارهای آتی
پیادهسازی و آزمایشات آزمایشات در دو مرحله انجام گرفته است: داده: مرحله اول ساخت مجموعه قضاوت با استفاده از روش pooling است. با استفاده از مجموعه قضاوتی که در مرحلهی اول ساخته شده است، سیستمهای بازیابی اطلاعات دیگری ارزیابی میشوند. داده: سیتم بازیابی اطلاعات: 10 موتور جستجو متن باز مجموعه تست نتیجه اجراهای موتورهای جستجو بر روی مجموعه تست، runهای مورد نیاز را تولید میکند. runها بر اساس NDCG رتبه بندی میشوند (True NDCG). مجموعه اسناد، مجموعه پرسش و سیستم های بازیابی اطلاعات نیاز است. بدین منظور از یک مجموعه تست برای دسترسی به مجموعه اسناد و مجموعه پرسش استفاده میشود. بعد از اجرای روش Pooling از مجموعه قضاوت موجود در مجموعه تست برای ارزیابی Pool استفاده میشود. این سیستم ها متمایز از سیستم هایی هستند که در ساخت مجموعه قضاوت استفاده شدهاند. سپس با محاسبه بازه اطمینان برای این سیستمها، تعیین میشود که آیا مجموعه قضاوت به قضاوتهای بیشتری نیاز دارد یا نه.
پیادهسازی و آزمایشات... روش کار: ارزیابی روش: m، run به صورت تصادفی انتخاب میکنیم. که به آن run اولیه گفته میشود. (به باقیمانده runها، run تست گفته میشود.) برای تشکیل Pool از k سند اول که برای هر پرسش، به وسیلهی run اولیه بازیابی شده است، استفاده میکنیم. در run های اولیه و تست سطح ارتباطی اسناد قضاوت نشده از طریق Multinomial Logistic Regression بیشبینی میشود. برای هر run تست NDCG محاسبه میشود .(Expected NDCG) واریانس معیار NDCG برای runهای تست محاسبه میشود. بازه اطمینان محاسبه میشود. ارزیابی روش: برای ارزیابی باید runهای تست را بر اساس معیار NDCG رتبهبندی کرد. کیفیت رتبهبندی runهای تست )رتبه بندی بر اساس true NDCG وExpected NDCG ) با استفاده از Kendall’s τ rank correlation بررسی میشود. برای بازیابی اطلاعات τ ≥ 0.9 مناسب میباشد [Car and Gab et al. 2010].
نمونه اجرایی m = 1, k = 5, Kendall’s τ rank correlation = 0/6111 Run اولیه بر اساس True NDCG دارای رتبه 6 بوده است.
نمونه اجرایی... m = 1, k = 5, Kendall’s τ rank correlation = 0/7778 Run اولیه بر اساس True NDCG دارای رتبه 1 بوده است.
نتایج آزمایشات برای مجموعه تست غیر دودیی (MAHAK) τ بازه اطمینان تعداد اسناد قضاوت شده K m 0/29365 0/128020155 121 1 0/74605 0/0069893855 375 5 0/78575 0/0065785105 534 10 0/8889 0/0059941193 663 20 0/7857 0/007941276 170 2 0/85716 0/00572081 424 0/9286 0/005418785 616 0/005170732 731 0/7143 0/006889205 187 3 0/85715 0/005039548 470 0/9048 0/004924617 633 0/004829821 766
نتایج آزمایشات برای مجموعه تست دودیی (همشهری) τ بازه اطمینان تعداد اسناد قضاوت شده K m 0/82916 0/006918135 26 5 10 20 1 0/83335 0/006404359 36 0/006214945 49 0/85571 0/006210335 51 2 0/92164 0/006154632 70 0/006013515 96 0/87215 0/006210065 57 3 0/95148 0/005996154 83 0/97548 0/005986718 117
محتوای ارائه مقدمه پیشینه روش پیشنهادی نتایج، تحلیل و ارزیابی نتیجهگیری و کارهای آتی
نتیجه گیری هدف: ارائه یک روش برای ارزیابی قابلیت استفاده مجدد مجموعه تستها با قضاوتهای چند سطحی مناسب نبودن روشهای تخمین کارایی: عدم اطمینان به تخمینها تخمین قابلیت استفاده مجدد با کمک بازههای اطمینان اگر پهنای بازه اطمینان زیاد باشد قابلیت استفاده مجدد کمتر است و نیاز به قضاوتهای بیشتر است. NDCG Multinomial Logistic Regression کارهای آینده گسترش روش ارزیابی قابلیت استفاده مجدد به گونهای که برای سایر مجموعه تستها مانند مجموعههای تست با قضاوتهای ترجیحی و ارتباط جنبه نیز به کار برد. استفاده از روشهای دیگر برای پیش بینی سطح ارتباطی اسناد قضاوت نشده استخراج ویژگیهای دیگر
مقالات علمي استخراج شده از پایان نامه Accepted: Maryam. Khodabakhsh and Saeed. Araban, "Reusability Assessment of Test Collections with Multi-levels of Judgments," in 10nd International Conference on IEEE ICT and Knowledge Engineering, Bangkok. Thailand ,2012. Under Review: Maryam. Khodabakhsh and Saeed. Araban, "Interval Estimate of Reusability of Test Collections with NDCG," International Journal of Computer Engineering & Sciences, 2012.
مراجع [Web 2010] Webber, W. E. ( 2010). Measurement in Information Retrieval Evaluation. Department of Computer Science and Software Engineering The University of Melbourne. PhD thesis. [Jär 2000] Järvelin, K. and J. Kekäläinen (2000). IR evaluation methods for retrieving highly relevant documents. Proceedings of the 23rd annual international ACM SIGIR conference on Research and development in information retrieval. Athens, Greece, ACM. [San and Joh 2004] Sanderson, M. and H. Joho (2004). Forming test collections with no system pooling. Proceedings of the 27th annual international ACM SIGIR conference on Research and development in information retrieval. Sheffield, United Kingdom, ACM. [Car 2008] Carterette, B. A. (2008). Low-Cost and Robust Evaluation of Information Retrieval, University of Massachusetts Amherst: 255. [Car and Ben 2008] Carterette, B. and P. N. Bennett (2008). Evaluation measures for preference judgments. Proceedings of the 31st annual international ACM SIGIR conference on Research and development in information retrieval. Singapore, Singapore, ACM. [Sob 2003] Soboroff, I. and S. Robertson (2003). Building a filtering test collection for TREC 2002. Proceedings of the 26th annual international ACM SIGIR conference on Research and development in informaion retrieval. Toronto, Canada, ACM. [Car and Gab et al. 2010] Carterette, B., E. Gabrilovich, et al. (2010). Measuring the reusability of test collections. Proceedings of the third ACM international conference on Web search and data mining. New York, New York, USA, ACM: 231-240. [Har 1992]Harman, D. (1992). Overview of the first text retrieval conference (TREC-1). In Proceedings of the First Text Retrieval Conference (TREC-1). [Joh 2007] Joho, H., R. Villa, et al. (2007). Interaction Pool: Towards a User-centered Test Collection. In proceedings of the Workshop on Web Information Seeking and Interaction, SIGIR 2007. Amsterdam, The Netherlands, ACM: 17-20. [Cor 1998] Cormack, G. V., C. R. Palmer, et al. (1998). Efficient construction of large test collections. Proceedings of the 21st annual international ACM SIGIR conference on Research and development in information retrieval. Melbourne, Australia, ACM.
مراجع [Kek 2002] Kekäläinen, J. and K. Järvelin (2002). "Using graded relevance assessments in IR evaluation." J. Am. Soc. Inf. Sci. Technol. 53(13): 1120-1129. [Rob 2010] Robertson, S. E., E. Kanoulas, et al. (2010). Extending average precision to graded relevance judgments. Proceedings of the 33rd international ACM SIGIR conference on Research and development in information retrieval. Geneva, Switzerland, ACM. [Buc 2004] Buckley, C. and E. M. Voorhees (2004). Retrieval evaluation with incomplete information. Proceedings of the 27th annual international ACM SIGIR conference on Research and development in information retrieval. Sheffield, United Kingdom: 25-29. [Yil 2006] Yilmaz, E. and J. A. Aslam (2006). Estimating average precision with incomplete and imperfect judgments. Proceedings of the 15th ACM international conference on Information and knowledge management. Arlington, Virginia, USA. [Rad 2006] Radlinski, F. and T. Joachims (2006). Minimally invasive randomization for collecting unbiased preferences from clickthrough logs. In Conference of the Association for the Advancement of Artificial Intelligence (AAAI): 1406-1412. [ B¨ut 2007] B¨uttcher, S., C. L. A. Clarke, et al. (2007). Reliable information retrieval evaluation with incomplete and biased judgements. Proceedings of the 30th annual international ACM SIGIR conference on Research and development in information retrieval. Amsterdam, The Netherlands, ACM. [Car 2007] Carterette, B. (2007). Robust test collections for retrieval evaluation. Proceedings of the 30th annual international ACM SIGIR conference on Research and development in information retrieval. Amsterdam, The Netherlands, ACM. [Car and Kan 2010] Carterette, B., E. Kanoulas, et al. (2010). Reusable test collections through experimental design. Proceedings of the 33rd international ACM SIGIR conference on Research and development in information retrieval. Geneva, Switzerland, ACM: 547-554. [Car and All 2007] Carterette, B. and J. Allan (2007). Semiautomatic evaluation of retrieval systems using document similarities. Proceedings of the sixteenth ACM conference on Conference on information and knowledge management. Lisbon, Portugal, ACM. [Hua 2008] Huang, A. ( 2008). Similarity Measures for Text Document Clustering. in the proceedings of the New Zealand Computer Science Research Student Conference. Christchurch, New Zealand : 49-56. [San] Sandhya, N., Y. S. Lalitha, et al. "Analysis of Similarity Measures for Text Clustering." International Journal of Data Engineering.