ارزيابی قابليت استفاده مجدد مجموعه تست‌ها دارای قضاوت‌های چندسطحی Reusability Assessment of Test Collections with Relevance Levels of Judgments مريم.

Slides:



Advertisements
Similar presentations
Introduction to Information Retrieval
Advertisements

Chapter 5: Introduction to Information Retrieval
1 Evaluation Rong Jin. 2 Evaluation  Evaluation is key to building effective and efficient search engines usually carried out in controlled experiments.
Search Engines Information Retrieval in Practice All slides ©Addison Wesley, 2008.
Search Results Need to be Diverse Mark Sanderson University of Sheffield.
Introduction to Information Retrieval (Part 2) By Evren Ermis.
Evaluating Search Engine
Evaluation in Information Retrieval Speaker: Ruihua Song Web Data Management Group, MSR Asia.
A Markov Random Field Model for Term Dependencies Donald Metzler and W. Bruce Croft University of Massachusetts, Amherst Center for Intelligent Information.
Language Modeling Frameworks for Information Retrieval John Lafferty School of Computer Science Carnegie Mellon University.
Scalable Text Mining with Sparse Generative Models
Evaluating Retrieval Systems with Findability Measurement Shariq Bashir PhD-Student Technology University of Vienna.
Retrieval Evaluation Hongning Wang
Modern Retrieval Evaluations Hongning Wang
1 Information Filtering & Recommender Systems (Lecture for CS410 Text Info Systems) ChengXiang Zhai Department of Computer Science University of Illinois,
Minimal Test Collections for Retrieval Evaluation B. Carterette, J. Allan, R. Sitaraman University of Massachusetts Amherst SIGIR2006.
Personalized Information Retrieval in Context David Vallet Universidad Autónoma de Madrid, Escuela Politécnica Superior,Spain.
Philosophy of IR Evaluation Ellen Voorhees. NIST Evaluation: How well does system meet information need? System evaluation: how good are document rankings?
IR Evaluation Evaluate what? –user satisfaction on specific task –speed –presentation (interface) issue –etc. My focus today: –comparative performance.
Group Recommendations with Rank Aggregation and Collaborative Filtering Linas Baltrunas, Tadas Makcinskas, Francesco Ricci Free University of Bozen-Bolzano.
Improving Web Search Ranking by Incorporating User Behavior Information Eugene Agichtein Eric Brill Susan Dumais Microsoft Research.
Xiaoying Gao Computer Science Victoria University of Wellington Intelligent Agents COMP 423.
Evaluating Search Engines in chapter 8 of the book Search Engines Information Retrieval in Practice Hongfei Yan.
Question Answering From Zero to Hero Elena Eneva 11 Oct 2001 Advanced IR Seminar.
Modern Information Retrieval: A Brief Overview By Amit Singhal Ranjan Dash.
Giorgos Giannopoulos (IMIS/”Athena” R.C and NTU Athens, Greece) Theodore Dalamagas (IMIS/”Athena” R.C., Greece) Timos Sellis (IMIS/”Athena” R.C and NTU.
Implicit User Feedback Hongning Wang Explicit relevance feedback 2 Updated query Feedback Judgments: d 1 + d 2 - d 3 + … d k -... Query User judgment.
Relevance Feedback Hongning Wang What we have learned so far Information Retrieval User results Query Rep Doc Rep (Index) Ranker.
Evaluation INST 734 Module 5 Doug Oard. Agenda Evaluation fundamentals Test collections: evaluating sets  Test collections: evaluating rankings Interleaving.
Chapter 8 Evaluating Search Engine. Evaluation n Evaluation is key to building effective and efficient search engines  Measurement usually carried out.
© 2004 Chris Staff CSAW’04 University of Malta of 15 Expanding Query Terms in Context Chris Staff and Robert Muscat Department of.
Tie-Breaking Bias: Effect of an Uncontrolled Parameter on Information Retrieval Evaluation Guillaume Cabanac, Gilles Hubert, Mohand Boughanem, Claude Chrisment.
Measuring How Good Your Search Engine Is. *. Information System Evaluation l Before 1993 evaluations were done using a few small, well-known corpora of.
Lecture 3: Retrieval Evaluation Maya Ramanath. Benchmarking IR Systems Result Quality Data Collection – Ex: Archives of the NYTimes Query set – Provided.
Performance Measurement. 2 Testing Environment.
Performance Measures. Why to Conduct Performance Evaluation? 2 n Evaluation is the key to building effective & efficient IR (information retrieval) systems.
Comparing Document Segmentation for Passage Retrieval in Question Answering Jorg Tiedemann University of Groningen presented by: Moy’awiah Al-Shannaq
NTNU Speech Lab Dirichlet Mixtures for Query Estimation in Information Retrieval Mark D. Smucker, David Kulp, James Allan Center for Intelligent Information.
Carnegie Mellon School of Computer Science Language Technologies Institute CMU Team-1 in TDT 2004 Workshop 1 CMU TEAM-A in TDT 2004 Topic Tracking Yiming.
Evaluation of Information Retrieval Systems Xiangming Mu.
Evaluation. The major goal of IR is to search document relevant to a user query. The evaluation of the performance of IR systems relies on the notion.
Learning to Rank: From Pairwise Approach to Listwise Approach Authors: Zhe Cao, Tao Qin, Tie-Yan Liu, Ming-Feng Tsai, and Hang Li Presenter: Davidson Date:
Text Information Management ChengXiang Zhai, Tao Tao, Xuehua Shen, Hui Fang, Azadeh Shakery, Jing Jiang.
Information Retrieval Lecture 3 Introduction to Information Retrieval (Manning et al. 2007) Chapter 8 For the MSc Computer Science Programme Dell Zhang.
Introduction to Information Retrieval Introduction to Information Retrieval Lecture 10 Evaluation.
Search Engines Information Retrieval in Practice All slides ©Addison Wesley, 2008 Annotations by Michael L. Nelson.
Sampath Jayarathna Cal Poly Pomona
Developments in Evaluation of Search Engines
Evaluation Anisio Lacerda.
Walid Magdy Gareth Jones
Evaluation of IR Systems
An Empirical Study of Learning to Rank for Entity Search
Lecture 10 Evaluation.
Learning to Rank Shubhra kanti karmaker (Santu)
Relevance Feedback Hongning Wang
Applying Key Phrase Extraction to aid Invalidity Search
IR Theory: Evaluation Methods
Lecture 6 Evaluation.
CS 4501: Information Retrieval
Feature Selection for Ranking
Cumulated Gain-Based Evaluation of IR Techniques
1Micheal T. Adenibuyan, 2Oluwatoyin A. Enikuomehin and 2Benjamin S
Relevance and Reinforcement in Interactive Browsing
Retrieval Utilities Relevance feedback Clustering
Jonathan Elsas LTI Student Research Symposium Sept. 14, 2007
INF 141: Information Retrieval
Learning to Rank with Ties
Retrieval Evaluation - Reference Collections
Retrieval Evaluation - Reference Collections
Preference Based Evaluation Measures for Novelty and Diversity
Presentation transcript:

ارزيابی قابليت استفاده مجدد مجموعه تست‌ها دارای قضاوت‌های چندسطحی Reusability Assessment of Test Collections with Relevance Levels of Judgments مريم خدابخش

محتوای ارائه مقدمه پیشینه روش پیشنهادی نتایج، تحلیل و ارزیابی نتیجه‌گیری و کارهای آتی

سیستم‌های بازیابی اطلاعات (Information Retrieval Systems) تعریف موتورهای جستجو ملموس‌ترین نمونه از سیستم‌های بازیابی اطلاعات است که برای بازیابی اسناد HTML در وب به کار می رود. شکل 1: نمایی از یک سیستم بازیابی اطلاعات [Web 2010]

مجموعه تست (Test Collection) تعریف کاربرد: کارایی سیستم‌های بازیابی اطلاعات براساس میزان ارتباط نتایج جستجو با پرسش کاربر از طریق منبعی به نام مجموعه تست ارزیابی می‌شود. شکل 2: نمایی از مجموعه تست و سیستم بازیابی اطلاعات [Web 2010]

انواع مجموعه‌های تست مجموعه تست غیر دودویی دودویی قضاوت‌های ترجیحی ارتباط جنبه چند سطحی در مجموعه‌های تست با قضاوت‌های چند سطحی، قضاوت در مورد ارتباط هر سند به پرسش در قالب یک عدد بیان می‌شود که نمایان‌گر میزان ارتباط محتوای هر سند به پرسش می‌باشد. کاربرد مجموعه‌های تست با قضاوت‌های چند سطحی: در محیط‌هایی (مثل وب) [Jär 2000] کاربر معمولا اسناد ابتدای لیست را نگاه می‌کند که بهتر است این اسناد خیلی مرتبط باشند.

ساخت مجموعه‌های تست بنابراین تهیه مجموعه اسناد کار دشواری نیست. ساخت مجموعه‌ پرسش‌ها کار دشواری نیست [Car 2008]. در مجموعه تست‌های بزرگ امکان قضاوت درمورد ربط تمام سندها به تمام پرسش‌های موجود در مجموعه ممکن نیست [San and Joh 2004]. ساخت مجموعه قضاوت زمان‌بر و هزینه‌بر است و مستلزم تلاش انسانی است [San and Joh 2004][Car and Ben 2008]. اگر مجموعه تست فاقد قضاوت‌ها کافی باشد، در ارزیابی سیستم‌های بازیابی اطلاعات خوب عمل نمی‌کند[Car 2008]. بنابراین توسعه دهندگان مجموعه تست باید بین تعداد قضاوت‌ها و هزینه ساخت آن مصالحه انجام دهند. اطمینان از کافی بودن تعداد قضاوت‌های مجموعه تست

تعریف مسئله مسئله: اطمینان از میزان کارآیی مجموعه تست در ارزیابی سیستم‌های بازیابی اطلاعات (قابلیت استفاده مجدد). قابلیت استفاده مجدد یعنی اطمینان از کافی بودن مجموعه قضاوت‌هایِ موجود در مجموعه تست. هر چه به قضاوت‌های بیشتری نیاز باشد قابلیت استفاده مجدد از مجموعه تست کاهش می‌یابد. قابلیت استفاده مجدد یک معیار کیفی است. اهمیت عملی مسئله: کمک به تولیدکنندگان مجموعه تست در تعیین این که آیا یک مجموعه موجود از قضاوت‌ها برای ارزیابی سیستم‌های بازیابی اطلاعات مناسب است یا به قضاوت‌های بیشتری نیاز است. قابلیت استفاده مجدد از دیدگاه تولید کننده مجموعه تست قابلیت استفاده مجدد یک مجموعه تست با تعداد قضاوت‌های موجود در مجموعه تست رابطه مستقیم دارد. هرچه مجموعه قضاوت به سمت کامل بودن پیش رود قابلیت استفاده مجدد مجموعه تست افزایش می‌یابد [Car 2008] . -کیفی یعنی آیا بقدر کافی است؟

هدف ارائه روشی برای ارزیابی قابلیت استفاده مجدد مجموعه تست با قضاوت‌های چند سطحی بدین منظور باید از کافی بودن تعداد قضاوت‌های موجود در مجموعه تست اطمینان حاصل کرد. برای نشان دادن این اطمینان از بازه اطمینان استفاده می‌شود که برای یک معیار ارزیابی محاسبه می‌شود. پهنای بازه‌های اطمینان، نماینده‌ای از قابلیت استفاده مجدد مجموعه تست می‌باشد.

محتوای ارائه مقدمه پیشینه روش پیشنهادی نتایج، تحلیل و ارزیابی نتیجه‌گیری و کارهای آتی

نمونه‌هایی از مجموعه‌های تست آدرس تعداد قضاوت‌ها تعداد پرسش‌ها تعداد اسناد نوع توضیحات نام مجموعه تست http://trec.nist.gov/ 19381 50 1040809705 غیر دودویی میلیون‌ها صفحات وب از ClueWeb09 Dataset TREC 2011 http://ir.dcs.gla.ac.uk/resources/test_collections/cran/ 1837 225 1400 دودویی مقاله‌های تکنیکی درمورد حرکت گاز و هوا Cranfield http://cacm.acm.org/ 796 64 3204 خلاصه‌های ACM CACM http://ce.sharif.edu/~shesmail/Mahak/ 1196 216 3006 شامل خبرهای ISNA Mahak http://ece.ut.ac.ir/dbrg/hamshahri/publications.html 21743 320000 خبرهای روزنامه همشهری Hamshahri 2

روش‌های ساخت مجموعه قضاوت نمونه‌گیری تصادفی [Har 1992] جستجو و قضاوت تعاملی (Interactive Searching and Judging) [San and Joh 2004] [Cor 1998] بازخورد ارتباطی (Relevance Feedback) [Sob 2003] [San and Joh 2004] Pooling [Car and Gab et al. 2010] روش Pooling [Joh 2007] چندین ارزیاب انسان از یک سیستم بازیابی اطلاعات عادی استفاده می‌کنند. با کمک این سیستم هر ارزیاب تلاش می‌کند تا بهترین و کامل‌ترین مجموعه‌ی اسناد مرتبط با هر پرسش را به دست آورد. در همین راستا ارزیاب‌ها از مترادف‌های واژگان پرسش، زیرمجموعه‌های واژگان پرسش برای ایجاد پرسش دیگر استفاده می‌کنند. شبیه به روش جستجو و قضاوت تعاملی می‌باشد با این تفاوت که از بازخوردهای ارتباطی برای تولید پرسش جدید استفاده می‌شود. روش کار در relevance feedback به صورت زیر است: کاربر یک پرسش را تولید می کند. سیستم بازیابی یک لیست از نتایج را ایجاد می کند. کاربر لیست اسناد مرتبط و نامربط با پرسش را مشخص می کند. سیستم با استفاده از اسناد مرتبط مشخص شده به عنوان feedback دوباره لیستی را ارائه می دهد. برای feedback می توان از الگوریتم های متفاوتی استفاده کرد: Rocchio feedback Rocchio with positive feedback only model-based feedback (lan- guage modeling paradigm) یکی از رایج‌ترین و شناخته شده ترین روش‌های است. اسنادی مورد قضاوت قرار می‌گیرد که توسط چندین سیستم بازیابی شده است و قضاوت محدود به اسنادی می‌شود که بی ربط بودن آن‌ها بعید است.

معیارهای ارزیابی سیستم‌های بازیابی اطلاعات فرمول نام نوع Precision دودویی Recall Average Precision Mean Average Precision General Precision [Kek 2002] غیر دودویی General Recall [Kek 2002] Graded Average Precision [Rob 2010] Normalized Discounted Cumulative Gain [Jär 2000] معیارهای متفاوتی برای ارزیابی کارایی سیستم‌های بازیابی اطلاعات وجود دارد. قبل از استفاده از این معیارها به این نکته باید توجه کرد که چه تعریفی برای ارتباط در نظر گرفته شده است. Im سطح ارتباطی سند m است. Ri تعدا کل اسناد در سطح ارتباطی I Assume relevance grades {0... c} –0 for non-­‐relevant, + c positive graded g i  =  P(user threshold  is at i) for i ∈  {1... c} i.e.  User regards grades { i...c} as relevant,  grad {0... (i-­‐1)}  as  not relevant g i s sum to one

روشهای بررسی اسناد قضاوت نشده نوع نام نادقیق اسناد قضاوت نشده، نامرتبط فرض شوند دودویی binary preference [Buc 2004] معرفی معیارهای جدید Inferred Average Precision [Yil 2006] کلیک [Rad 2006] رفتار کاربر تخمین ربط هر سند به پرسش SVM [ Büt 2007] دسته بندی غیر دودویی Multinomial Logistic Regression شرط استفاده از معیارها ارزیابی این است که مجموعه‌ قضاوت کامل باشد یعنی هر سند بازیابی شده برای هر پرسش، قضاوت شده باشد. روش های گوناگونی برای بررسی اسناد قضاوت نشده معرفی شده است: یک مجموعه تست با مجموعه قضاوت کامل در دسترس است.نتیجه ارزیابی سیستم های بازیابی اطلاعات با کمک این مجموعه تست و معیار MAP و bref یکسان است. مثلا با کمک هر دو معیار به این نتیجه می رسیم که سیستم A بهتر از B است. حال اگر مجموعه تست دارای مجموعه قصاوت کامل نباشد و بخواهیم سیستم ها را با کمک این دو معیار مقایسه کنیم Bref نتیجه بهتری از MAP می دهد. یعنی ممکن است در ارزیابی سیستم ها با کمک MAP به این نتیجه برسیم که سیستم B بهتر از A است. Bpref=1/R ∑(1-(|n ranked higher than r|/R)) Retrieved result set with D2 and D5 being relevant: D1 D2 D3 not judged D4 -------- D5 D6 D7 D8 D9 D10 R=2; bpref = 1/2 [1- (1/2)] Rel: اسناد مرتبط بازیابی شده تا رنک k nonRel: اسناد نامرتبط بازیابی شده تا رنک k

روش‌های ارزیابی قابلیت استفاده‌ی مجدد مجموعه‌های تست مناسب نبودن روش‌های تخمین کارایی: عدم اطمینان به تخمین‌ها آیا دو سیستم بعد از پیش‌بینی ارتباط هر سند از روی یک مجموعه‌ی کوچک از قضاوت‌ها می‌توانند نسبت به هم با اطمینان رتبه‌بندی شوند [Car and Kan 2010] . تخمین نقطه‌ای [Car and Gab et al. 2010] با استفاده از معیارهای کلاسیک و معرفی معیار جدید قابلیت استفاده مجدد مجموعه تست به صورت نقطه‌ای تخمین زده می‌شود. تخمین بازه‌ای [Car and Gab et al. 2010] بازه اطمینان برای معیار MAP محاسبه می‌شود. روش تخمین بازه‌ای دقیق تر از تخمین نقطه‌ای است. این روش‌ها محدود به ارزیابی مجموعه تست‌ها با قضاوت‌های دودویی هستند. تولیدگنندگان برای به دست آوردن مجموعه قضاوت ممکن است از روش‌های گوناگونی استفاده کنند. با این وجود باید اطمینان حاصل کنند که مجموعه قضاوت به اندازه این پیش‌بینی‌ها برای محاسبه احتمال تعویض دو سیستم پس از اضافه کردن قضاوت‌های بیشتر استفاده می‌شود. قابلیت استفاده‌ی مجدد باید تحت عنوان توانایی سیستم در تولید نتایج با قابلیت اطمینان بالا (High confidence) ارزیابی شود [Car 2007] . کافی کامل است و می تواند سیستم بازیابی اطلاعات جدید را با اعتماد ارزیابی کند

نوآوری ارزیابی قابلیت استفاده مجدد، مجموعه تست‌ها با قضاوت‌های چند سطحی گسترش روش تخمین بازه اطمینان با استفاده از: معیار NDCG در تخمین بازه های اطمینان مدل Multinomial Logistic Regression برای تخمین میزان ارتباط اسناد قضاوت نشده به پرسش

محتوای ارائه مقدمه پیشینه روش پیشنهادی نتایج، تحلیل و ارزیابی نتیجه‌گیری و کارهای آتی

ارزیابی قابلیت استفاده مجدد با کمک بازه اطمینان اگر یک مجموعه تست با مشخصات زیر وجود داشته باشد: J: مجموعه قضاوت Q: مجموعه پرسش قبل از محاسبه کارایی یک سیستم بازیابی اطلاعات با کمک این مجموعه تست و معیار ارزیابی m باید از کافی بودن تعداد قضاوت‌‌های موجود در J اطمینان حاصل نماییم. برای نمایش این اطمینان از بازه اطمینان استفاده می شود. بازه اطمینان برای معیار m محاسبه می‌شود. بازه اطمینان ابزار قدرتمندی است که به کاربر اجازه می‌دهد عدم قطعیت را در محاسبه کارایی سیستم بازیابی اطلاعات تعیین کند. عدم قطعیت ناشی از اسناد قضاوت نشده‌ای است که توسط سیستم بازیابی شده است. هرچه عدم قطعیت بیشتر باشد پهنای بازه‌های اطمینان زیادتر است و قابلیت استفاده مجدد از مجموعه تست کمتر می‌باشد و باید قضاوت های بیشتری به J افزود.

ارزیابی قابلیت استفاده مجدد با کمک بازه اطمینان ... برای محاسبه‌ی بازه اطمینان با معیار NDCG ابتدا باید امید ریاضی و واریانس معیار NDCG برای یک پرسش محاسبه شود. اما معمولاً یک مجموعه از پرسش ها وجود دارند. در بازیابی اطلاعات پرسش ها مستقلند. برای یک مجموعه پرسش حالت رایج آن است که میانه معیار در نظر گرفته شود. n تعداد پرسش­های داخل مجموعه است. مقدار z است به­ گونه­ای که p(Z ≤ z) = 1 – (α/2) برقرار باشد و z دارای توزیع نرمال است. % (α - 1) 100 = 95% α = 05/0 025/0 = 2 ÷ α Z025/0 = 96/1

Multinomial Logistic Regression این نوع رگراسیون زمانی بکار می‌رود که متغییر وابسته بیشتر از دو دسته را شامل شود و از نوع اسمی (Nominal) باشد. لذا استفاده از از مدل Multinomial Logistic Regression برای تخمین سطوح ارتباطی مناسب می‌‌‌باشد. β بردار پارامتر مدل می‌باشد که با استفاده ازMaximum likelihood تخمین زده می‌شود. Xi‌ بردار متغییر مستقل (بردار ویژگی) می‌باشد. در این کار از ویژگی شباهت سند (Document Similarity) استفاده می‌شود [Car and All 2007] . در صورتی می توان در محاسبه امید، واریانس و بازه اطمینان از معیار NDCG استفاده کرد که مجموعه قضاوت کامل باشد. به دست آوردن مجموعه قضاوت کامل غیر عملی است. سیستم بازیابی اطلاعات ممکن است اسنادی را بازیابی کند که در مجموعه قضاوت‌ موجود نیست.

شباهت بین اسناد کاربرد فرمول نام داده‌های متراکم (فاصله بین دو نقطه) Euclidean Distance¹ Pearson Correlation Coefficient داده‌های پراکنده (داده‌های باینری) Jaccard Coefficient [Hua 2008] داده‌های پراکنده (متن) Cosine similarity [Car and All 2007] ¹:http://www.stat.cmu.edu/~cshalizi/350/lectures/01/lecture-01.pdf

محتوای ارائه مقدمه پیشینه روش پیشنهادی نتایج، تحلیل و ارزیابی نتیجه‌گیری و کارهای آتی

پیاده‌سازی و آزمایشات آزمایشات در دو مرحله انجام گرفته است: داده: مرحله اول ساخت مجموعه قضاوت با استفاده از روش pooling است. با استفاده از مجموعه قضاوتی که در مرحله‌‌ی اول ساخته شده است، سیستم‌های بازیابی اطلاعات دیگری ارزیابی می‌شوند. داده: سیتم بازیابی اطلاعات: 10 موتور جستجو متن باز مجموعه تست نتیجه اجراهای موتورهای جستجو بر روی مجموعه تست، runهای مورد نیاز را تولید می‌کند. runها بر اساس NDCG رتبه بندی می‌شوند (True NDCG). مجموعه اسناد، مجموعه پرسش و سیستم های بازیابی اطلاعات نیاز است. بدین منظور از یک مجموعه تست برای دسترسی به مجموعه اسناد و مجموعه پرسش استفاده می‌شود. بعد از اجرای روش Pooling از مجموعه قضاوت موجود در مجموعه تست برای ارزیابی Pool استفاده می‌شود. این سیستم ها متمایز از سیستم هایی هستند که در ساخت مجموعه قضاوت استفاده شده‌اند. سپس با محاسبه بازه اطمینان برای این سیستم‌ها، تعیین می‌شود که آیا مجموعه قضاوت به قضاوت‌های بیشتری نیاز دارد یا نه.

پیاده‌سازی و آزمایشات... روش کار: ارزیابی روش: m، run به صورت تصادفی انتخاب می‌کنیم. که به آن run اولیه گفته می‌شود. (به باقیمانده runها، run تست گفته می‌شود.) برای تشکیل Pool از k سند اول که برای هر پرسش، به وسیله‌ی run اولیه بازیابی شده است، استفاده می‌کنیم. در run های اولیه و تست سطح ارتباطی اسناد قضاوت نشده از طریق Multinomial Logistic Regression بیش‌بینی می‌شود. برای هر run تست NDCG محاسبه می‌شود .(Expected NDCG) واریانس معیار NDCG برای runهای تست محاسبه می‌شود. بازه اطمینان محاسبه می‌شود. ارزیابی روش: برای ارزیابی باید runهای تست را بر اساس معیار NDCG رتبه‌بندی کرد. کیفیت رتبه‌بندی runهای تست )رتبه بندی بر اساس true NDCG وExpected NDCG ) با استفاده از Kendall’s τ rank correlation بررسی می‌شود. برای بازیابی اطلاعات τ ≥ 0.9 مناسب می‌باشد [Car and Gab et al. 2010].

نمونه اجرایی m = 1, k = 5, Kendall’s τ rank correlation = 0/6111 Run اولیه بر اساس True NDCG دارای رتبه 6 بوده است.

نمونه اجرایی... m = 1, k = 5, Kendall’s τ rank correlation = 0/7778 Run اولیه بر اساس True NDCG دارای رتبه 1 بوده است.

نتایج آزمایشات برای مجموعه تست غیر دودیی (MAHAK) τ بازه اطمینان تعداد اسناد قضاوت شده K m 0/29365 0/128020155 121 1 0/74605 0/0069893855 375 5 0/78575 0/0065785105 534 10 0/8889 0/0059941193 663 20 0/7857 0/007941276 170 2 0/85716 0/00572081 424 0/9286 0/005418785 616 0/005170732 731 0/7143 0/006889205 187 3 0/85715 0/005039548 470 0/9048 0/004924617 633 0/004829821 766

نتایج آزمایشات برای مجموعه تست دودیی (همشهری) τ بازه اطمینان تعداد اسناد قضاوت شده K m 0/82916 0/006918135 26 5 10 20 1 0/83335 0/006404359 36 0/006214945 49 0/85571 0/006210335 51 2 0/92164 0/006154632 70 0/006013515 96 0/87215 0/006210065 57 3 0/95148 0/005996154 83 0/97548 0/005986718 117

محتوای ارائه مقدمه پیشینه روش پیشنهادی نتایج، تحلیل و ارزیابی نتیجه‌گیری و کارهای آتی

نتیجه گیری هدف: ارائه یک روش برای ارزیابی قابلیت استفاده مجدد مجموعه تست‌ها با قضاوت‌های چند سطحی مناسب نبودن روش‌های تخمین کارایی: عدم اطمینان به تخمین‌ها تخمین قابلیت استفاده مجدد با کمک بازه‌های اطمینان اگر پهنای بازه اطمینان زیاد باشد قابلیت استفاده مجدد کمتر است و نیاز به قضاوت‌های بیشتر است. NDCG Multinomial Logistic Regression کارهای آینده گسترش روش ارزیابی قابلیت استفاده مجدد به گونه‌ای که برای سایر مجموعه تست‌ها مانند مجموعه‌های تست با قضاوت‌های ترجیحی و ارتباط جنبه نیز به کار برد. استفاده از روش‌های دیگر برای پیش بینی سطح ارتباطی اسناد قضاوت نشده استخراج ویژگی‌های دیگر

مقالات علمي استخراج شده از پایان نامه Accepted: Maryam. Khodabakhsh and Saeed. Araban, "Reusability Assessment of Test Collections with Multi-levels of Judgments," in 10nd International Conference on IEEE ICT and Knowledge Engineering, Bangkok. Thailand ,2012. Under Review: Maryam. Khodabakhsh and Saeed. Araban, "Interval Estimate of Reusability of Test Collections with NDCG," International Journal of Computer Engineering & Sciences, 2012.

مراجع [Web 2010] Webber, W. E. ( 2010). Measurement in Information Retrieval Evaluation. Department of Computer Science and Software Engineering The University of Melbourne. PhD thesis. [Jär 2000] Järvelin, K. and J. Kekäläinen (2000). IR evaluation methods for retrieving highly relevant documents. Proceedings of the 23rd annual international ACM SIGIR conference on Research and development in information retrieval. Athens, Greece, ACM. [San and Joh 2004] Sanderson, M. and H. Joho (2004). Forming test collections with no system pooling. Proceedings of the 27th annual international ACM SIGIR conference on Research and development in information retrieval. Sheffield, United Kingdom, ACM. [Car 2008] Carterette, B. A. (2008). Low-Cost and Robust Evaluation of Information Retrieval, University of Massachusetts Amherst: 255. [Car and Ben 2008] Carterette, B. and P. N. Bennett (2008). Evaluation measures for preference judgments. Proceedings of the 31st annual international ACM SIGIR conference on Research and development in information retrieval. Singapore, Singapore, ACM. [Sob 2003] Soboroff, I. and S. Robertson (2003). Building a filtering test collection for TREC 2002. Proceedings of the 26th annual international ACM SIGIR conference on Research and development in informaion retrieval. Toronto, Canada, ACM. [Car and Gab et al. 2010] Carterette, B., E. Gabrilovich, et al. (2010). Measuring the reusability of test collections. Proceedings of the third ACM international conference on Web search and data mining. New York, New York, USA, ACM: 231-240. [Har 1992]Harman, D. (1992). Overview of the first text retrieval conference (TREC-1). In Proceedings of the First Text Retrieval Conference (TREC-1). [Joh 2007] Joho, H., R. Villa, et al. (2007). Interaction Pool: Towards a User-centered Test Collection. In proceedings of the Workshop on Web Information Seeking and Interaction, SIGIR 2007. Amsterdam, The Netherlands, ACM: 17-20. [Cor 1998] Cormack, G. V., C. R. Palmer, et al. (1998). Efficient construction of large test collections. Proceedings of the 21st annual international ACM SIGIR conference on Research and development in information retrieval. Melbourne, Australia, ACM.

مراجع [Kek 2002] Kekäläinen, J. and K. Järvelin (2002). "Using graded relevance assessments in IR evaluation." J. Am. Soc. Inf. Sci. Technol. 53(13): 1120-1129. [Rob 2010] Robertson, S. E., E. Kanoulas, et al. (2010). Extending average precision to graded relevance judgments. Proceedings of the 33rd international ACM SIGIR conference on Research and development in information retrieval. Geneva, Switzerland, ACM. [Buc 2004] Buckley, C. and E. M. Voorhees (2004). Retrieval evaluation with incomplete information. Proceedings of the 27th annual international ACM SIGIR conference on Research and development in information retrieval. Sheffield, United Kingdom: 25-29. [Yil 2006] Yilmaz, E. and J. A. Aslam (2006). Estimating average precision with incomplete and imperfect judgments. Proceedings of the 15th ACM international conference on Information and knowledge management. Arlington, Virginia, USA. [Rad 2006] Radlinski, F. and T. Joachims (2006). Minimally invasive randomization for collecting unbiased preferences from clickthrough logs. In Conference of the Association for the Advancement of Artificial Intelligence (AAAI): 1406-1412. [ B¨ut 2007] B¨uttcher, S., C. L. A. Clarke, et al. (2007). Reliable information retrieval evaluation with incomplete and biased judgements. Proceedings of the 30th annual international ACM SIGIR conference on Research and development in information retrieval. Amsterdam, The Netherlands, ACM. [Car 2007] Carterette, B. (2007). Robust test collections for retrieval evaluation. Proceedings of the 30th annual international ACM SIGIR conference on Research and development in information retrieval. Amsterdam, The Netherlands, ACM. [Car and Kan 2010] Carterette, B., E. Kanoulas, et al. (2010). Reusable test collections through experimental design. Proceedings of the 33rd international ACM SIGIR conference on Research and development in information retrieval. Geneva, Switzerland, ACM: 547-554. [Car and All 2007] Carterette, B. and J. Allan (2007). Semiautomatic evaluation of retrieval systems using document similarities. Proceedings of the sixteenth ACM conference on Conference on information and knowledge management. Lisbon, Portugal, ACM. [Hua 2008] Huang, A. ( 2008). Similarity Measures for Text Document Clustering. in the proceedings of the New Zealand Computer Science Research Student Conference. Christchurch, New Zealand : 49-56. [San] Sandhya, N., Y. S. Lalitha, et al. "Analysis of Similarity Measures for Text Clustering." International Journal of Data Engineering.