Presentation is loading. Please wait.

Presentation is loading. Please wait.

ارزيابی قابليت استفاده مجدد مجموعه تست‌ها دارای قضاوت‌های چندسطحی Reusability Assessment of Test Collections with Relevance Levels of Judgments مريم.

Similar presentations


Presentation on theme: "ارزيابی قابليت استفاده مجدد مجموعه تست‌ها دارای قضاوت‌های چندسطحی Reusability Assessment of Test Collections with Relevance Levels of Judgments مريم."— Presentation transcript:

1 ارزيابی قابليت استفاده مجدد مجموعه تست‌ها دارای قضاوت‌های چندسطحی Reusability Assessment of Test Collections with Relevance Levels of Judgments مريم خدابخش

2 محتوای ارائه مقدمه پیشینه روش پیشنهادی نتایج، تحلیل و ارزیابی
نتیجه‌گیری و کارهای آتی

3 سیستم‌های بازیابی اطلاعات (Information Retrieval Systems)
تعریف موتورهای جستجو ملموس‌ترین نمونه از سیستم‌های بازیابی اطلاعات است که برای بازیابی اسناد HTML در وب به کار می رود. شکل 1: نمایی از یک سیستم بازیابی اطلاعات [Web 2010]

4 مجموعه تست (Test Collection)
تعریف کاربرد: کارایی سیستم‌های بازیابی اطلاعات براساس میزان ارتباط نتایج جستجو با پرسش کاربر از طریق منبعی به نام مجموعه تست ارزیابی می‌شود. شکل 2: نمایی از مجموعه تست و سیستم بازیابی اطلاعات [Web 2010]

5 انواع مجموعه‌های تست مجموعه تست غیر دودویی دودویی قضاوت‌های ترجیحی ارتباط جنبه چند سطحی در مجموعه‌های تست با قضاوت‌های چند سطحی، قضاوت در مورد ارتباط هر سند به پرسش در قالب یک عدد بیان می‌شود که نمایان‌گر میزان ارتباط محتوای هر سند به پرسش می‌باشد. کاربرد مجموعه‌های تست با قضاوت‌های چند سطحی: در محیط‌هایی (مثل وب) [Jär 2000] کاربر معمولا اسناد ابتدای لیست را نگاه می‌کند که بهتر است این اسناد خیلی مرتبط باشند.

6 ساخت مجموعه‌های تست بنابراین تهیه مجموعه اسناد کار دشواری نیست.
ساخت مجموعه‌ پرسش‌ها کار دشواری نیست [Car 2008]. در مجموعه تست‌های بزرگ امکان قضاوت درمورد ربط تمام سندها به تمام پرسش‌های موجود در مجموعه ممکن نیست [San and Joh 2004]. ساخت مجموعه قضاوت زمان‌بر و هزینه‌بر است و مستلزم تلاش انسانی است [San and Joh 2004][Car and Ben 2008]. اگر مجموعه تست فاقد قضاوت‌ها کافی باشد، در ارزیابی سیستم‌های بازیابی اطلاعات خوب عمل نمی‌کند[Car 2008]. بنابراین توسعه دهندگان مجموعه تست باید بین تعداد قضاوت‌ها و هزینه ساخت آن مصالحه انجام دهند. اطمینان از کافی بودن تعداد قضاوت‌های مجموعه تست

7 تعریف مسئله مسئله: اطمینان از میزان کارآیی مجموعه تست در ارزیابی سیستم‌های بازیابی اطلاعات (قابلیت استفاده مجدد). قابلیت استفاده مجدد یعنی اطمینان از کافی بودن مجموعه قضاوت‌هایِ موجود در مجموعه تست. هر چه به قضاوت‌های بیشتری نیاز باشد قابلیت استفاده مجدد از مجموعه تست کاهش می‌یابد. قابلیت استفاده مجدد یک معیار کیفی است. اهمیت عملی مسئله: کمک به تولیدکنندگان مجموعه تست در تعیین این که آیا یک مجموعه موجود از قضاوت‌ها برای ارزیابی سیستم‌های بازیابی اطلاعات مناسب است یا به قضاوت‌های بیشتری نیاز است. قابلیت استفاده مجدد از دیدگاه تولید کننده مجموعه تست قابلیت استفاده مجدد یک مجموعه تست با تعداد قضاوت‌های موجود در مجموعه تست رابطه مستقیم دارد. هرچه مجموعه قضاوت به سمت کامل بودن پیش رود قابلیت استفاده مجدد مجموعه تست افزایش می‌یابد [Car 2008] . -کیفی یعنی آیا بقدر کافی است؟

8 هدف ارائه روشی برای ارزیابی قابلیت استفاده مجدد مجموعه تست با قضاوت‌های چند سطحی بدین منظور باید از کافی بودن تعداد قضاوت‌های موجود در مجموعه تست اطمینان حاصل کرد. برای نشان دادن این اطمینان از بازه اطمینان استفاده می‌شود که برای یک معیار ارزیابی محاسبه می‌شود. پهنای بازه‌های اطمینان، نماینده‌ای از قابلیت استفاده مجدد مجموعه تست می‌باشد.

9 محتوای ارائه مقدمه پیشینه روش پیشنهادی نتایج، تحلیل و ارزیابی
نتیجه‌گیری و کارهای آتی

10 نمونه‌هایی از مجموعه‌های تست
آدرس تعداد قضاوت‌ها تعداد پرسش‌ها تعداد اسناد نوع توضیحات نام مجموعه تست 19381 50 غیر دودویی میلیون‌ها صفحات وب از ClueWeb09 Dataset TREC 2011 1837 225 1400 دودویی مقاله‌های تکنیکی درمورد حرکت گاز و هوا Cranfield 796 64 3204 خلاصه‌های ACM CACM 1196 216 3006 شامل خبرهای ISNA Mahak 21743 320000 خبرهای روزنامه همشهری Hamshahri 2

11 روش‌های ساخت مجموعه قضاوت
نمونه‌گیری تصادفی [Har 1992] جستجو و قضاوت تعاملی (Interactive Searching and Judging) [San and Joh 2004] [Cor 1998] بازخورد ارتباطی (Relevance Feedback) [Sob 2003] [San and Joh 2004] Pooling [Car and Gab et al. 2010] روش Pooling [Joh 2007] چندین ارزیاب انسان از یک سیستم بازیابی اطلاعات عادی استفاده می‌کنند. با کمک این سیستم هر ارزیاب تلاش می‌کند تا بهترین و کامل‌ترین مجموعه‌ی اسناد مرتبط با هر پرسش را به دست آورد. در همین راستا ارزیاب‌ها از مترادف‌های واژگان پرسش، زیرمجموعه‌های واژگان پرسش برای ایجاد پرسش دیگر استفاده می‌کنند. شبیه به روش جستجو و قضاوت تعاملی می‌باشد با این تفاوت که از بازخوردهای ارتباطی برای تولید پرسش جدید استفاده می‌شود. روش کار در relevance feedback به صورت زیر است: کاربر یک پرسش را تولید می کند. سیستم بازیابی یک لیست از نتایج را ایجاد می کند. کاربر لیست اسناد مرتبط و نامربط با پرسش را مشخص می کند. سیستم با استفاده از اسناد مرتبط مشخص شده به عنوان feedback دوباره لیستی را ارائه می دهد. برای feedback می توان از الگوریتم های متفاوتی استفاده کرد: Rocchio feedback Rocchio with positive feedback only model-based feedback (lan- guage modeling paradigm) یکی از رایج‌ترین و شناخته شده ترین روش‌های است. اسنادی مورد قضاوت قرار می‌گیرد که توسط چندین سیستم بازیابی شده است و قضاوت محدود به اسنادی می‌شود که بی ربط بودن آن‌ها بعید است.

12 معیارهای ارزیابی سیستم‌های بازیابی اطلاعات
فرمول نام نوع Precision دودویی Recall Average Precision Mean Average Precision General Precision [Kek 2002] غیر دودویی General Recall [Kek 2002] Graded Average Precision [Rob 2010] Normalized Discounted Cumulative Gain [Jär 2000] معیارهای متفاوتی برای ارزیابی کارایی سیستم‌های بازیابی اطلاعات وجود دارد. قبل از استفاده از این معیارها به این نکته باید توجه کرد که چه تعریفی برای ارتباط در نظر گرفته شده است. Im سطح ارتباطی سند m است. Ri تعدا کل اسناد در سطح ارتباطی I Assume relevance grades {0... c} –0 for non-­‐relevant, + c positive graded g i  =  P(user threshold  is at i) for i ∈  {1... c} i.e.  User regards grades { i...c} as relevant,  grad {0... (i-­‐1)}  as  not relevant g i s sum to one

13 روشهای بررسی اسناد قضاوت نشده
نوع نام نادقیق اسناد قضاوت نشده، نامرتبط فرض شوند دودویی binary preference [Buc 2004] معرفی معیارهای جدید Inferred Average Precision [Yil 2006] کلیک [Rad 2006] رفتار کاربر تخمین ربط هر سند به پرسش SVM [ Büt 2007] دسته بندی غیر دودویی Multinomial Logistic Regression شرط استفاده از معیارها ارزیابی این است که مجموعه‌ قضاوت کامل باشد یعنی هر سند بازیابی شده برای هر پرسش، قضاوت شده باشد. روش های گوناگونی برای بررسی اسناد قضاوت نشده معرفی شده است: یک مجموعه تست با مجموعه قضاوت کامل در دسترس است.نتیجه ارزیابی سیستم های بازیابی اطلاعات با کمک این مجموعه تست و معیار MAP و bref یکسان است. مثلا با کمک هر دو معیار به این نتیجه می رسیم که سیستم A بهتر از B است. حال اگر مجموعه تست دارای مجموعه قصاوت کامل نباشد و بخواهیم سیستم ها را با کمک این دو معیار مقایسه کنیم Bref نتیجه بهتری از MAP می دهد. یعنی ممکن است در ارزیابی سیستم ها با کمک MAP به این نتیجه برسیم که سیستم B بهتر از A است. Bpref=1/R ∑(1-(|n ranked higher than r|/R)) Retrieved result set with D2 and D5 being relevant: D1 D2 D3 not judged D4 D5 D6 D7 D8 D9 D10 R=2; bpref = 1/2 [1- (1/2)] Rel: اسناد مرتبط بازیابی شده تا رنک k nonRel: اسناد نامرتبط بازیابی شده تا رنک k

14 روش‌های ارزیابی قابلیت استفاده‌ی مجدد مجموعه‌های تست
مناسب نبودن روش‌های تخمین کارایی: عدم اطمینان به تخمین‌ها آیا دو سیستم بعد از پیش‌بینی ارتباط هر سند از روی یک مجموعه‌ی کوچک از قضاوت‌ها می‌توانند نسبت به هم با اطمینان رتبه‌بندی شوند [Car and Kan 2010] . تخمین نقطه‌ای [Car and Gab et al. 2010] با استفاده از معیارهای کلاسیک و معرفی معیار جدید قابلیت استفاده مجدد مجموعه تست به صورت نقطه‌ای تخمین زده می‌شود. تخمین بازه‌ای [Car and Gab et al. 2010] بازه اطمینان برای معیار MAP محاسبه می‌شود. روش تخمین بازه‌ای دقیق تر از تخمین نقطه‌ای است. این روش‌ها محدود به ارزیابی مجموعه تست‌ها با قضاوت‌های دودویی هستند. تولیدگنندگان برای به دست آوردن مجموعه قضاوت ممکن است از روش‌های گوناگونی استفاده کنند. با این وجود باید اطمینان حاصل کنند که مجموعه قضاوت به اندازه این پیش‌بینی‌ها برای محاسبه احتمال تعویض دو سیستم پس از اضافه کردن قضاوت‌های بیشتر استفاده می‌شود. قابلیت استفاده‌ی مجدد باید تحت عنوان توانایی سیستم در تولید نتایج با قابلیت اطمینان بالا (High confidence) ارزیابی شود [Car 2007] . کافی کامل است و می تواند سیستم بازیابی اطلاعات جدید را با اعتماد ارزیابی کند

15 نوآوری ارزیابی قابلیت استفاده مجدد، مجموعه تست‌ها با قضاوت‌های چند سطحی گسترش روش تخمین بازه اطمینان با استفاده از: معیار NDCG در تخمین بازه های اطمینان مدل Multinomial Logistic Regression برای تخمین میزان ارتباط اسناد قضاوت نشده به پرسش

16 محتوای ارائه مقدمه پیشینه روش پیشنهادی نتایج، تحلیل و ارزیابی
نتیجه‌گیری و کارهای آتی

17 ارزیابی قابلیت استفاده مجدد با کمک بازه اطمینان
اگر یک مجموعه تست با مشخصات زیر وجود داشته باشد: J: مجموعه قضاوت Q: مجموعه پرسش قبل از محاسبه کارایی یک سیستم بازیابی اطلاعات با کمک این مجموعه تست و معیار ارزیابی m باید از کافی بودن تعداد قضاوت‌‌های موجود در J اطمینان حاصل نماییم. برای نمایش این اطمینان از بازه اطمینان استفاده می شود. بازه اطمینان برای معیار m محاسبه می‌شود. بازه اطمینان ابزار قدرتمندی است که به کاربر اجازه می‌دهد عدم قطعیت را در محاسبه کارایی سیستم بازیابی اطلاعات تعیین کند. عدم قطعیت ناشی از اسناد قضاوت نشده‌ای است که توسط سیستم بازیابی شده است. هرچه عدم قطعیت بیشتر باشد پهنای بازه‌های اطمینان زیادتر است و قابلیت استفاده مجدد از مجموعه تست کمتر می‌باشد و باید قضاوت های بیشتری به J افزود.

18 ارزیابی قابلیت استفاده مجدد با کمک بازه اطمینان ...
برای محاسبه‌ی بازه اطمینان با معیار NDCG ابتدا باید امید ریاضی و واریانس معیار NDCG برای یک پرسش محاسبه شود. اما معمولاً یک مجموعه از پرسش ها وجود دارند. در بازیابی اطلاعات پرسش ها مستقلند. برای یک مجموعه پرسش حالت رایج آن است که میانه معیار در نظر گرفته شود. n تعداد پرسش­های داخل مجموعه است. مقدار z است به­ گونه­ای که p(Z ≤ z) = 1 – (α/2) برقرار باشد و z دارای توزیع نرمال است. % (α - 1) 100 = 95% α = 05/0 025/0 = 2 ÷ α Z025/0 = 96/1

19 Multinomial Logistic Regression
این نوع رگراسیون زمانی بکار می‌رود که متغییر وابسته بیشتر از دو دسته را شامل شود و از نوع اسمی (Nominal) باشد. لذا استفاده از از مدل Multinomial Logistic Regression برای تخمین سطوح ارتباطی مناسب می‌‌‌باشد. β بردار پارامتر مدل می‌باشد که با استفاده ازMaximum likelihood تخمین زده می‌شود. Xi‌ بردار متغییر مستقل (بردار ویژگی) می‌باشد. در این کار از ویژگی شباهت سند (Document Similarity) استفاده می‌شود [Car and All 2007] . در صورتی می توان در محاسبه امید، واریانس و بازه اطمینان از معیار NDCG استفاده کرد که مجموعه قضاوت کامل باشد. به دست آوردن مجموعه قضاوت کامل غیر عملی است. سیستم بازیابی اطلاعات ممکن است اسنادی را بازیابی کند که در مجموعه قضاوت‌ موجود نیست.

20 شباهت بین اسناد کاربرد فرمول نام داده‌های متراکم (فاصله بین دو نقطه)
Euclidean Distance¹ Pearson Correlation Coefficient داده‌های پراکنده (داده‌های باینری) Jaccard Coefficient [Hua 2008] داده‌های پراکنده (متن) Cosine similarity [Car and All 2007] ¹:

21 محتوای ارائه مقدمه پیشینه روش پیشنهادی نتایج، تحلیل و ارزیابی
نتیجه‌گیری و کارهای آتی

22 پیاده‌سازی و آزمایشات آزمایشات در دو مرحله انجام گرفته است: داده:
مرحله اول ساخت مجموعه قضاوت با استفاده از روش pooling است. با استفاده از مجموعه قضاوتی که در مرحله‌‌ی اول ساخته شده است، سیستم‌های بازیابی اطلاعات دیگری ارزیابی می‌شوند. داده: سیتم بازیابی اطلاعات: 10 موتور جستجو متن باز مجموعه تست نتیجه اجراهای موتورهای جستجو بر روی مجموعه تست، runهای مورد نیاز را تولید می‌کند. runها بر اساس NDCG رتبه بندی می‌شوند (True NDCG). مجموعه اسناد، مجموعه پرسش و سیستم های بازیابی اطلاعات نیاز است. بدین منظور از یک مجموعه تست برای دسترسی به مجموعه اسناد و مجموعه پرسش استفاده می‌شود. بعد از اجرای روش Pooling از مجموعه قضاوت موجود در مجموعه تست برای ارزیابی Pool استفاده می‌شود. این سیستم ها متمایز از سیستم هایی هستند که در ساخت مجموعه قضاوت استفاده شده‌اند. سپس با محاسبه بازه اطمینان برای این سیستم‌ها، تعیین می‌شود که آیا مجموعه قضاوت به قضاوت‌های بیشتری نیاز دارد یا نه.

23 پیاده‌سازی و آزمایشات... روش کار: ارزیابی روش:
m، run به صورت تصادفی انتخاب می‌کنیم. که به آن run اولیه گفته می‌شود. (به باقیمانده runها، run تست گفته می‌شود.) برای تشکیل Pool از k سند اول که برای هر پرسش، به وسیله‌ی run اولیه بازیابی شده است، استفاده می‌کنیم. در run های اولیه و تست سطح ارتباطی اسناد قضاوت نشده از طریق Multinomial Logistic Regression بیش‌بینی می‌شود. برای هر run تست NDCG محاسبه می‌شود .(Expected NDCG) واریانس معیار NDCG برای runهای تست محاسبه می‌شود. بازه اطمینان محاسبه می‌شود. ارزیابی روش: برای ارزیابی باید runهای تست را بر اساس معیار NDCG رتبه‌بندی کرد. کیفیت رتبه‌بندی runهای تست )رتبه بندی بر اساس true NDCG وExpected NDCG ) با استفاده از Kendall’s τ rank correlation بررسی می‌شود. برای بازیابی اطلاعات τ ≥ 0.9 مناسب می‌باشد [Car and Gab et al. 2010].

24 نمونه اجرایی m = 1, k = 5, Kendall’s τ rank correlation = 0/6111
Run اولیه بر اساس True NDCG دارای رتبه 6 بوده است.

25 نمونه اجرایی... m = 1, k = 5, Kendall’s τ rank correlation = 0/7778
Run اولیه بر اساس True NDCG دارای رتبه 1 بوده است.

26 نتایج آزمایشات برای مجموعه تست غیر دودیی (MAHAK)
τ بازه اطمینان تعداد اسناد قضاوت شده K m 0/29365 0/ 121 1 0/74605 0/ 375 5 0/78575 0/ 534 10 0/8889 0/ 663 20 0/7857 0/ 170 2 0/85716 0/ 424 0/9286 0/ 616 0/ 731 0/7143 0/ 187 3 0/85715 0/ 470 0/9048 0/ 633 0/ 766

27 نتایج آزمایشات برای مجموعه تست دودیی (همشهری)
τ بازه اطمینان تعداد اسناد قضاوت شده K m 0/82916 0/ 26 5 10 20 1 0/83335 0/ 36 0/ 49 0/85571 0/ 51 2 0/92164 0/ 70 0/ 96 0/87215 0/ 57 3 0/95148 0/ 83 0/97548 0/ 117

28 محتوای ارائه مقدمه پیشینه روش پیشنهادی نتایج، تحلیل و ارزیابی
نتیجه‌گیری و کارهای آتی

29 نتیجه گیری هدف: ارائه یک روش برای ارزیابی قابلیت استفاده مجدد مجموعه تست‌ها با قضاوت‌های چند سطحی مناسب نبودن روش‌های تخمین کارایی: عدم اطمینان به تخمین‌ها تخمین قابلیت استفاده مجدد با کمک بازه‌های اطمینان اگر پهنای بازه اطمینان زیاد باشد قابلیت استفاده مجدد کمتر است و نیاز به قضاوت‌های بیشتر است. NDCG Multinomial Logistic Regression کارهای آینده گسترش روش ارزیابی قابلیت استفاده مجدد به گونه‌ای که برای سایر مجموعه تست‌ها مانند مجموعه‌های تست با قضاوت‌های ترجیحی و ارتباط جنبه نیز به کار برد. استفاده از روش‌های دیگر برای پیش بینی سطح ارتباطی اسناد قضاوت نشده استخراج ویژگی‌های دیگر

30 مقالات علمي استخراج شده از پایان نامه
Accepted: Maryam. Khodabakhsh and Saeed. Araban, "Reusability Assessment of Test Collections with Multi-levels of Judgments," in 10nd International Conference on IEEE ICT and Knowledge Engineering, Bangkok. Thailand ,2012. Under Review: Maryam. Khodabakhsh and Saeed. Araban, "Interval Estimate of Reusability of Test Collections with NDCG," International Journal of Computer Engineering & Sciences, 2012.

31 مراجع [Web 2010] Webber, W. E. ( 2010). Measurement in Information Retrieval Evaluation. Department of Computer Science and Software Engineering The University of Melbourne. PhD thesis. [Jär 2000] Järvelin, K. and J. Kekäläinen (2000). IR evaluation methods for retrieving highly relevant documents. Proceedings of the 23rd annual international ACM SIGIR conference on Research and development in information retrieval. Athens, Greece, ACM. [San and Joh 2004] Sanderson, M. and H. Joho (2004). Forming test collections with no system pooling. Proceedings of the 27th annual international ACM SIGIR conference on Research and development in information retrieval. Sheffield, United Kingdom, ACM. [Car 2008] Carterette, B. A. (2008). Low-Cost and Robust Evaluation of Information Retrieval, University of Massachusetts Amherst: 255. [Car and Ben 2008] Carterette, B. and P. N. Bennett (2008). Evaluation measures for preference judgments. Proceedings of the 31st annual international ACM SIGIR conference on Research and development in information retrieval. Singapore, Singapore, ACM. [Sob 2003] Soboroff, I. and S. Robertson (2003). Building a filtering test collection for TREC Proceedings of the 26th annual international ACM SIGIR conference on Research and development in informaion retrieval. Toronto, Canada, ACM. [Car and Gab et al. 2010] Carterette, B., E. Gabrilovich, et al. (2010). Measuring the reusability of test collections. Proceedings of the third ACM international conference on Web search and data mining. New York, New York, USA, ACM: [Har 1992]Harman, D. (1992). Overview of the first text retrieval conference (TREC-1). In Proceedings of the First Text Retrieval Conference (TREC-1). [Joh 2007] Joho, H., R. Villa, et al. (2007). Interaction Pool: Towards a User-centered Test Collection. In proceedings of the Workshop on Web Information Seeking and Interaction, SIGIR Amsterdam, The Netherlands, ACM: [Cor 1998] Cormack, G. V., C. R. Palmer, et al. (1998). Efficient construction of large test collections. Proceedings of the 21st annual international ACM SIGIR conference on Research and development in information retrieval. Melbourne, Australia, ACM.

32 مراجع [Kek 2002] Kekäläinen, J. and K. Järvelin (2002). "Using graded relevance assessments in IR evaluation." J. Am. Soc. Inf. Sci. Technol. 53(13): [Rob 2010] Robertson, S. E., E. Kanoulas, et al. (2010). Extending average precision to graded relevance judgments. Proceedings of the 33rd international ACM SIGIR conference on Research and development in information retrieval. Geneva, Switzerland, ACM. [Buc 2004] Buckley, C. and E. M. Voorhees (2004). Retrieval evaluation with incomplete information. Proceedings of the 27th annual international ACM SIGIR conference on Research and development in information retrieval. Sheffield, United Kingdom: [Yil 2006] Yilmaz, E. and J. A. Aslam (2006). Estimating average precision with incomplete and imperfect judgments. Proceedings of the 15th ACM international conference on Information and knowledge management. Arlington, Virginia, USA. [Rad 2006] Radlinski, F. and T. Joachims (2006). Minimally invasive randomization for collecting unbiased preferences from clickthrough logs. In Conference of the Association for the Advancement of Artificial Intelligence (AAAI): [ B¨ut 2007] B¨uttcher, S., C. L. A. Clarke, et al. (2007). Reliable information retrieval evaluation with incomplete and biased judgements. Proceedings of the 30th annual international ACM SIGIR conference on Research and development in information retrieval. Amsterdam, The Netherlands, ACM. [Car 2007] Carterette, B. (2007). Robust test collections for retrieval evaluation. Proceedings of the 30th annual international ACM SIGIR conference on Research and development in information retrieval. Amsterdam, The Netherlands, ACM. [Car and Kan 2010] Carterette, B., E. Kanoulas, et al. (2010). Reusable test collections through experimental design. Proceedings of the 33rd international ACM SIGIR conference on Research and development in information retrieval. Geneva, Switzerland, ACM: [Car and All 2007] Carterette, B. and J. Allan (2007). Semiautomatic evaluation of retrieval systems using document similarities. Proceedings of the sixteenth ACM conference on Conference on information and knowledge management. Lisbon, Portugal, ACM. [Hua 2008] Huang, A. ( 2008). Similarity Measures for Text Document Clustering. in the proceedings of the New Zealand Computer Science Research Student Conference. Christchurch, New Zealand : [San] Sandhya, N., Y. S. Lalitha, et al. "Analysis of Similarity Measures for Text Clustering." International Journal of Data Engineering.


Download ppt "ارزيابی قابليت استفاده مجدد مجموعه تست‌ها دارای قضاوت‌های چندسطحی Reusability Assessment of Test Collections with Relevance Levels of Judgments مريم."

Similar presentations


Ads by Google