Presentation is loading. Please wait.

Presentation is loading. Please wait.

موضوع پروژه : بازیابی اطلاعات Information Retrieval

Similar presentations


Presentation on theme: "موضوع پروژه : بازیابی اطلاعات Information Retrieval"— Presentation transcript:

1

2 موضوع پروژه : بازیابی اطلاعات Information Retrieval
حق تعالی دانشگاه جامع علمی کاربردی – بنیاد مهندسی فنآوری اطلاعات موضوع پروژه : بازیابی اطلاعات Information Retrieval استاد : سرکار خانم مهندس خلیل نژاد تهیه و تظیم : سید فرید مصباحی پاییز1389

3 فهرست مطالب تعریف بازیابی اطلاعات( Information Retrieval )
مدل‌سازی اطلاعات تعیین میزان ربط هر سند به نیاز اطلاعاتی کاربر انواع مدل (مدل دودویی- مدل بُرداری - مدل احتمالاتی) تفاوت بازیابی داده و بازیابی اطلاعات معیارهای ارزیابی چالش ها و تنگنا های مدیریت و بازیابی اطلاعات بررسي مؤلفه هاي مؤثر بر ميزان بازيابي اطلاعات (جامعیت) و دقت بازيابي اطلاعات (مانعیت) در نظام هاي بازيابي اطلاعات وب مدار هوشمند سازی بازیابی اطلاعات

4 بازیابی اطلاعات (Information Retrieval) چيست؟
با افزایش روز افزون حجم اطلاعات ذخیره شده در منابع قابل دسترس و گوناگون، فرایند بازیابی و استخراج اطلاعات اهمیت ویژه‌ای یافته است. شاید شما هم به این موضوع فکر کرده باشید که موتورهای جستجو چگونه کار میکنند؟ توسط چه الگوریتم هایی با سرعتی بسیار بالا، نتایج موردنظر شما را درباره یک درخواست از بین میلیون ها صفحه یافته و استخراج میکنند؟ چگونه لینک هایی که ارتباط بیشتری به موضوع مورد نظر شما دارند را تشخیص داده و آنها را در صفحات اول جستجو قرار میدهند؟

5 تعريف بازیابی اطلاعات(Retrieval Information ) علمی است که سرمنشاء کارکرد موتورهای جستجو است. اعمال ، شيوه­ها و رويه هايي براي بازيابي اطلاعات ذخيره شده در جهت تهيه اطلاعات حول موضوعي معين. به فن‌آوری و دانش پیچیده جستجو و استخراج اطلاعات، داده ها ، فراداده ها در انواع گوناگون منابع اطلاعاتی مثل بانک اسناد ، مجموعه‌ای ازتصاویر، و وب گفته می‌شود. اطلاعات مورد نظر ممکن است شامل هر نوع منبعی مانند متن، تصویر، صوت و ویدئو باشد.

6 بر خلاف پایگاه داده‌ها، اطلاعات ذخیره شده در منابع اطلاعاتی بزرگ مانند وب و زیرمجموعه‌های آن مانند شبکه‌های اجتماعی از ساختار مشخصی پیروی نمی‌کنند و عموما دارای معانی تعریف شده و مشخصی نیستند. هدف بازیابی اطلاعات : کمک به کاربر برای یافتن اطلاعات مورد نظر در انبوهی از اطلاعات ساختارنایافته است. جستجوگرهای گوگل، یاهو و بینگ سه نمونه از پراستفاده‌ترین سیستم‌های بازیابی اطلاعات هستند که به کاربران برای بازیابی اطلاعات متنی، تصویری، ویدئویی و غیره کمک می‌کنند. «بازیابی اطلاعات» در برخی منابع فارسی به اشتباه به جای ذخیره و بازیابی داده‌ها که به معنای دانش شناخت رسانه‌های ذخیره‌سازی فیزیکی است، به کار رفته است.

7 مدل‌سازی اطلاعات نخستین گام در بازیابی اطلاعات، مدل‌سازی اطلاعات و توصیف و تعریف ارتباط موجود میان اجزاء منبع اطلاعاتی با نیازهای اطلاعاتی کاربر است. سه مدل مهم در حوزه بازیابی اطلاعات عبارتند از: مدل دودویی (یا دوگانی): در مدل دودویی (یا دوگانی) هر سند (document) به صورت کیفی پر از کلمات (bag of words) در نظر گرفته می‌شود. مدل بُرداری: در مدل بُرداری، هر سند به صورت برداری از کلمات در یک فضای برداری چند بُعدی در نظر گرفته می‌شود که ابعاد آنرا کلمات تشکیل می‌دهند. مولفه‌های این بردار سند، در واقع وزن هایی هستند که نشان می‌دهند هر یک از کلمات چقدر در متمایز کردن آن سند دخیل هستند. مدل احتمالاتی: در مدل احتمالاتی، به هر سند احتمالی اختصاص داده می‌شود که مربوط بودن آن مستند را به نیاز کاربر به صورت احتمال بین صفر و یک بیان می‌کند.

8 تعیین میزان ربط هر سند به نیاز اطلاعاتی کاربر
بعد از تعریف مدل، سیستم آماده دریافت نیاز اطلاعاتی کاربر است. معمولاً کاربران نیاز اطلاعاتی خود را در قالب یک «پُرسه» برای سیستم بیان می‌کند که معمولاً شامل چندین کلمات یا عبارات است. سیستم سپس بر اساس مدلی که اطلاعات بر اساس آن تعریف شده‌اند، میزان ربط هر سند را با پُرسه کاربر محاسبه می‌کند، و سندهایی را که از همه باربط تر تشخیص داده شده اند به عنوان نتیجه بازیابی باز می‌گرداند.

9 چگونه اسناد مرتبط با درخواست کاربر یافت میشوند؟
آنچه بین موتورهای جستجوگر باعث نمایش نتایج جستجوی متفاوت میشود، استفاده از مدل های مختلف IR در مدلسازی خروجی است. هم اکنون سه مدل کلاسیک با نام های Boolean و Vector و Probabilistic وجود دارند که سرمنشاء کلیه مدلهای جاری برای مدلسازی داده های خروجی در موتورهای جستجوگر هستند. موتورهای جستجوی امروزی مانند گوگل گرچه از هیچ یک از این سه مدل استفاده نمی کنند ، اما مدلهای آنها نیز برداشتی جدید از همین مدل ها محسوب میشود.

10 مدل دودویی Boolean در مدل دودویی، نیاز اطلاعاتی کاربر به صورت عبارتی منطقی با عملگرهای AND و OR و NOT بیان می‌شود و هر سندی که این عبارت در مورد آن صحیح باشد بازیابی می‌شود. مثلاً اگر نیاز اطلاعاتی به صورت Iran AND Oil بیان شود، تمامی اسنادی که هردو کلمه Iran و Oil را دربردارند به کاربر نمایش داده می‌شوند. در مدل دودویی سند یا باربط است یا نیست، و هیچ معیاری برای سنجش میزان درجه ربط وجود ندارد. مثلاً دو سند را در نظر بگیرید که یکی تماما درباره ایران و نفت بحث می‌کند، و دیگری در مورد اقتصاد جهانی صحبت می‌کند و فقط از نام ایران و نفت به عنوان مثالی در یک جمله استفاده کرده است. سیستمی که از مدل دودویی استفاده کرده تفاوتی بین این دو سند قائل نخواهد شد. در صورتیکه در واقع سند اول بیشتر به نیاز کاربر مربوط است.

11 مدل برداری Vector در مدل برداری، برای سنجش میزان ربط اسناد و نیاز اطلاعاتی کاربر، سیستم اسناد موجود و پُرسه کاربر را در فضای چند بعدی مدل‌سازی می‌کند. در نتیجه برای سنجش میزان شباهت میان بُردار پُرسه و بردار هر سند می‌توان از زاویه‌ای که این دو بردارها با هم می‌سازند استفاده کرد. اسنادی که بردارشان با بردار پرسه کاربر زاویه کوچکتری می‌سازد بیشتر با نیاز اطلاعاتی کاربر هم جهت هستند و در نتیجه مرتبط‌تر خواهند بود. برتری این مدل این است که به سیستم امکان درجه‌بندی میزان ارتباط اسناد با پرسه را می‌دهد.

12

13 مدل احتمالاتی Probabilistic
در مدل احتمالاتی هم به ازای هر نیاز اطلاعاتی، تمامی اسناد بر اساس احتمال این که با نیاز اطلاعاتی مرتبط باشد مرتب می‌شوند و لیست اسناد در نهایت به صورت درجه‌بندی شده (مانند مدل برداری) به کاربر نمایش داده می‌شود، به نحوی که اولین سندی که کاربر می بیند از همه بیشتر احتمال دارد که به نیاز او ربط داشته باشد.

14 تفاوت بازیابی داده و بازیابی اطلاعات
بین بازیابی اطلاعات و بازیابی داده تفاوت‌های زیادی وجود دارد. داده‌ها ابهام ندارند، اما اطلاعات نیاز به تفسیر دارد و در نتیجه مبهم می‌شوند. سیستمی که برای بازیابی داده طراحی شده نیازی به رفع این ابهام‌ها ندارد، اما در سیستم بازیابی اطلاعات باید هر چه بهتر اطلاعات را مدل کرد تا ابهام در درک اطلاعات توسط سیستم کمتر شوند. به همین علت بر خلاف سیستم‌های بازیابی داده که در آن کارایی سیستم از نظر سرعت و فضا به عنوان معیار ارزیابی در نظر گرفته می‌شود، در سیستم‌های بازیابی اطلاعات، معیار دقت (precision) و بازخوانی (recall) و معیارهایی شبیه به آنها به عنوان معیارهای اصلی ارزیابی به کار می‌روند.

15 معیارهای ارزیابی معیار دقت: به حاصل تقسیم «تعداد مستندات بازیابی شده واقعاً باربط» بر «تعداد کل مستندات بازیابی شده» گفته می‌شود. معیار بازخوانی: به حاصل تقسیم «تعداد مستندات بازیابی به تعداد مستندات بازیابی شده باربط» بر «تعداد کل مستندات باربطی که در مجموعه اطلاعاتی موجود بوده است» گفته می‌شود.

16 تفاوت Retrieval Information با کارکرد سیستم های Retrieval Data :
احتمالا قبلا با Data Base ها کار کرده اید. شما یک Query مشخص می نویسید و درخواست خود را کاملا واضح و دقیق به بانک اطلاعاتی اعلام می کنید. DBMS ( Data Base Management System - سيستم مديريت پايگاه داده ) نیز رکوردهایی از جداول موردنظر شما را که با درخواست شما تطابق دارند برای شما می آورد. مثلا شما نمرات دانشجویانی را که تجدید شده اند میخواهید و نتایج جستجو کلیه نمرات زیر 10 را برای شما نمایش میدهد. آنچه در Data Base های کنونی اتفاق می افتد Exact matching تطبیق عینی است. و به این فرایند Data Retrieval می گویند که یکی از حالات خاص برای Information retrieval محسوب میشود.

17 یعنی دقیقا همان چیزی را که اعلام کرده اید ، برای شما می آورد
یعنی دقیقا همان چیزی را که اعلام کرده اید ، برای شما می آورد. در این جستجو قطعیت وجود دارد. مثلا در مورد این درخواست، اینگونه نیست که دانشجویان نمایش داده شده در نتایج Query احتمالا مردود باشند. بلکه 100% تجدید هستند. اما آنچه که بعنوان نتایج سیستم های بازیابی اطلاعات (IR: Retrieval Information) در خروجی ظاهر می شود تا جای ممکن شبیــه به درخواست شماست. در واقع نتایج خروجی این سیستم ها دارای همسانی ( Similarity ) با درخواست واردشده هستند. همچنین در این سیستم ها درصدی از خطا در نتایج همواره قابل پذیرش است. بطور مثال بارها برای شما پیش آمده است که در گوگل چیزی را جستجو کرده باشید و به نتایج نسبی - و نه کاملا آنچه مدنظرتان بوده رسید اید

18 گوگل چگونه کار میکند؟ کارکرد IR
برای امتحان کردن کارکرد IR کافیست در گوگل مثلا عبارت "مقالات آموزش فتوشاپ" را جستجو کنید. خواهید دید که در نتایج ظاهر شده عباراتی با عنوان "مقالات آموزشی فتوشاپ" نیز پررنگ شده اند. مسلما از دید گوگل کلمات آموزش و آموزشی متفاوت هستند و درکی که شما بعنوان یک فارسی زبان از این دو کلمه دارید با درک یک موتور جستجوگر کاملا متفاوت است. اما چه چیزی باعث میشود تا گوگل این دو کلمه را شبیه هم ارزیابی کند؟ گوگل با جستجو در میان میلیون ها صفحه و یافتن ارتباط بین آنها فهمیده است که این دو کلمه هم ارز یکدیگرند. در واقع اصلی ترین کارکرد سیستم های IR  نیز همین است.

19 هر موتور جستجو تعداد مشخصی صفحه را در بانک اسناد خود نگه داری میکند که به این بانک Text DB میگوییم .
و index گذاری میشود تا کلمات مرتبط با هر سند استخراج گردد و در جستجوها مورد بررسی قرار گیرد. روش های index گذاری شامل دو نوع FullText و Some Key words است. برخی الگوریتم ها تمام کلمات موجود در یک سند را بعنوان کلمات کلیدی آن سند بررسی میکنند و برخی الگوریتم ها فقط به بعضی لغات اهمیت میدهند و آنها را بعنوان کلمات کلیدی سند مورد نظر درنظر میگیرند. لغات درنظرگرفته شده، دید کلی از سند موردنظر را برای موتور جستجوگر فراهم میکند. به همین دلیل این لغات را Logical View of the document میگویند.

20 در فرایند اجرای یک Query چه اتفاقی میافتد؟
در ابتدا کاربر درخواست خود را از طریق User interface وارد میکند. الگوریتم های Text Operation درخواست کاربر را به Logical View هایی که موتورجستجوگر میفهمد ترجمه میکنند (بطور مثال کلماتی مانند and/or از داخل کلماتی که وارد کرده اید حذف میشوند و کلمات بر اساس اهمیتشان مرتب میشوند). بخش Query operation یک Query از روی کلمات داده شده میسازد و به موتور سرچ میدهد. موتور سرچ از داخل index هایی که قبلا در بانک index ها ثبت شده اند، نتایج را استخراج میکند. نتایج حاصل در بخش Ranking بر اساس میزان مرتبط بودنشان با درخواست کاربر طبقه بندی میشوند و نتایج به کاربر نمایش داده میشود.

21 دریافت Feedback از کاربر:

22 جستجوی تصاویر: در بخش جستجوی تصاویر گوگل وقتی شما یک عبارت را جستجو میکنید و نتایجی را به شما نمایش میدهد، شما فقط بر روی چند عکس خاص کلیک میکنید. گوگل از این طریق میفهمد که عکس موردنظر با جستجوی شما رابطه ی نزدیک تری دارد تا عکس هایی که رویشان کلیک نکردید.

23 چالش ها و تنگنا های مدیریت و بازیابی اطلاعات
چالش ها و تنگنا های مدیریت و بازیابی اطلاعات سرعت سرسام آور تولید اطلاعات از یک سو و ضرورت سامان دهی این حجم روز افزون از سویی ، بشر را با چالش های جدیدی روبرو ساخته است.پیشرفت های حاصل در فناوری های اطلاعاتی و ارتباطی با همه مزایایی که داشته اند برخی تنگناهای جدید برای جامعه کاربران به وجودآورده اند هر چه حجم اطلاعات بیشتر  و مجراهای دسترسی به آنها متنوع تر می شود امکان بازیابی کارآمد و به موقع اطلاعات دشوارتر شده و اطمینان از صحت و اعتبار آنها  نیز کمتر می شود.  در این میان اتخاذ یک استراتژی سودمند مستلزم  شناخت جامعه کاربران و نیازهای اطلاعاتی آنان، ارائه آموزش های لازم، ریشه یابی مشکلات موجود و ایجاد ابزار های جدید برای مقابله با این مشکلات می باشد.

24 مدیریت اطلاعات امروزه به مفهومی پیچیده تبدیل شده است ، زیرا اطلاعات موجود حجمی ناباورانه به خود گرفته و روزبه روز بر این حجم افزوده می شود. همه ما با اصطلاحاتی چون « انفجار دانش » یا « انفجار اطلاعات» کم و بیش آشنا هستیم. این پدیده ، واقعیت بزرگی است که منشاء تحولات و حتی انقلابی عظیم در عرصه حیات بشری گردیده است. حجم وسیع تر اطلاعات باید منجر به عملکرد بهینه تر، هوشمندانه تر و با سرعت بیشتر گردد.

25 تعریف مدیریت اطلاعات واژه مدیریت اطلاعات در رشته ها و زمینه های مختلف علمی به کار برده شده است. از جمله در علوم کامپیوتر، بازرگانی، مدیریت و کتابداری و اطلاع رسانی. در کتابداری و اطلاع رسانی، مدیریت اطلاعات به معنی : توانایی در جمع آوری، نگهداری، بازیابی، اشاعه و در دسترس ساختن اطلاعات درست، در مکان و زمان مناسب، برای افراد شایسته با کمترین هزینه، در بهترین محمل اطلاعاتی برای به کار گیری در تصمیم گیری، می باشد. ظهور اینترنت و مجراهای اطلاعاتی آنلاین، مدیریت اطلاعات را با چالش ها و تنگناهایی مواجه ساخته است.

26 مهم ترین تنگنا : اضافه بار اطلاعات
"اضافه بار اطلاعات" یکی از مهم ترین موضوعات در زمینه مدیریت اطلاعات است. اضافه باراطلاعات که با ظهور اینترنت اهمیت آن دو چندان شد به بازیابی بیش از اندازه اطلاعات یا بازیابی اطلاعات ناخواسته مربوط می شود. تعریف اضافه بار اطلاعات: شرایطی که اطلاعات بیش از اندازه برای موضوعی در اختیار باشد که عموما درجستجوی آنلاین اتفاق می افتد، مخصوصا اگر پرسش در غالب واژه هایی کلی بیان شود.  آیا مشکل اصلی مدیریت ، اضافه بار اطلاعات است ؟ یا کثرت کانال های اطلاعاتی وارتباطی . بر خلاف دوران گذشته تکنولوژی های جدید «جایگزین» نمی شوند بلکه به گروه رسانه های موجود «اضافه» می شوند.

27 داده، اطلاعات و دانش شاید مشکل عمده نه اطلاعات بیش از اندازه ، بلکه اطلاعاتی باشد که غیر مفید یا بی معنی هستند. برای تسلط بر اطلاعات باید ابتدا رابطه بین داده، اطلاع و دانش را درک نماییم . داده به واقعیت های خام اطلاق می شود. اطلاع ، داده هایی است که در یک زمینه و مفهوم معنی دار سازمان یافته باشد. دانش، داده های سازمان یافته ای است که درک شده و به کار گرفته شود .

28 نقش کاربران باید شناخت کافی از کاربران اطلاعات نیز داشته باشیم. منبعی مانند اینترنت به کاربر نیاز دارد تا از منابع وسیع خود مضمونی به دست دهد . اما کاربران ممکن است  به این دلیل که اطلاعات به دست آمده با پیش زمینه ذهنی آنها سازگار نیست تصور کنند که با اضافه بار اطلاعات مواجه شده اند حال آنکه چنین تصوری غلط است. یک روش برای حل این مسئله آن است که کاربران اطلاعات جدید به دست آمده را در ساختار دانش موجود تفسیر کنند و مدل آنالوگ ذهنی خود را  با جهان دیجیتال هماهنگ کنند.

29 شناخت نیازهای اطلاعاتی
دو عامل سرعت و کیفیت ، یک شتاب مصنوعی در بازیابی اطلاعات ایجاد کرده است. به وسیله پست الکترونیکی، پست صوتی، دورنما، و وب، جریان مداوم داده ها در طول 24 ساعت شبانه روز در محل کار و خانه و حتی در طول سفر امکان پذیر شده است. رضایت از بسیاری از این منابع باعث شده است تا توجه به نیازها و الویت ها فراموش شود. توجه به اطلاعات پراکنده به جای چیزی که واقعا نیاز داریم و به خاطر آن دست به جستجو زده ایم. ایده آل ترین اطلاعات آن است : که به روز باشد، به موقع باشد و برای کاری که در دست داریم کافی باشد نه اینکه لزوما کامل باشد. هدف از جستجوی اطلاعات باید پیدا کردن پاسخ  سوالاتی باشد که اصالتا معنی دار باشند.

30 ظهور اینترنت : چالش های جدید
وب به سادگی موانع طبیعی بین مردم و اطلاعاتی را که در هیچ جای دیگر نمی توانستند بیابند از بین برده است.ما امروزه قادر هستیم اطلاعات را از مجراهای گوناگون مستقیما به دست آوریم. وقتی که به یکباره با حجم وسیعی از اطلاعات بر روی وب بر می خوریم شاید گمان کنیم که وب یک منبع فوری و آماده برای پاسخ به تمام نیازهای اطلاعاتی ما است ، حال آنکه باید ابتدا بدانیم چگونه این دریای وسیع را برای رسیدن به هدف خاص خود در نوردیم و این همان چیزی است که مدیریت اطلاعات به ما می آموزد. سرعت و کیفیت بالا و سهولت دستیابی ، وب را به یک منبع اطلاعاتی جذاب تبدیل کرده است. واقعیت اینست که نمایش گرافیکی باعث جذابیت اطلاعات اینترنت شده است. اما در هر صورت اطلاعات بازیابی شده زمانی معنی دار است که با ایده ای مرتبط باشد ، نه وقتی که بدون هدف و با حالتی خوشایند ارائه گردد. فراموش نکنیم که امروزه شرایطی فراهم شده است که هر کس ، هر اطلاعاتی را که بخواهد می تواند به آسانی در وب قرار دهد .

31 این در حالی است که متاسفانه اکثر افراد تصور می کنند اطلاعاتی که از طریق کامپیوترشان دریافت می کنند بسیار قابل اطمینان تر از سایر منابع است. از طرفی آزادی عمل موجود در فضای اطلاعاتی وب عاملی برای جذابیت آن به شمار می رود . نبود کنترل کیفی مرکزی و گسترش دسترسی همگان به اینترنت می تواند مزیتی برا ی آن محسوب شود اما به هر حال باید در نظر گرفت که همواره طراحان وب می توانند آنچه را که شما می بینید یا بازیابی می کنید دستکاری نمایند بنا براین کاربران نباید به راحتی هر آن چه می بینند را  بپذیرند بلکه  باید ایده های مختلف را به چالش بکشند ، آنان باید توان قضاوت در مورد کیفیت و صحت منابع را داشته باشند . به علاوه گسترش وب بیشتر از پهنا است و نه عمق . خوشبختانه بسیاری از منابع اطلاعاتی مورد انتقاد و ارزیابی قرار گرفته اند که این امربرای تشخیص کاربران بسیارمفید است. هرچند وجود واسطه میان منابع و کاربران در محیط وب حذف شده است ولی نیاز به آن احساس می شود.

32 ضرورت توصیف اطلاعات : ابر اطلاعات
آنچه که نیاز داریم داشتن اطلاعاتی در باره اطلاعات است که آن را ابر داده یا ابر اطلاعات می نامیم . در واقع ابرداده بر چسب های الکترونیکی است که در ورای ظاهر صفحات قرار داده می شود و به توصیف ساختاری و محتوای منبع اطلاعاتی می پردازد . شایان ذکر است که ابرداده تنها برای توصیف اطلاعات متنی نیست بلکه شامل اطلاعاتی در باره سایر فرمت ها ، مانند صوتی - تصویری، گرافیکی و .. می باشد.

33  نقش موتور های جستجو با آنکه موتور های جستجو و نمایه ها ، برخی ابزارهای ساخت یافته برای بازیابی اطلاعات خاص را در اختیار ما گذاشته اند اما از بسیاری جهات دارای نواقصی هستندآنها ممکن است در برخی موارد بیشتر از اندازه ای که واقعا نیاز است به نمایه سازی اطلاعات بپردازند و به دلیل عدم تشخیص نوع و ارزش اطلاعات دسترسی همسان به هر نوع اطلاعاتی فراهم سازند. با آنکه گوگل در بازیابی به میزان استنادات توجه دارد اما واقعیت اینست که موتور های جستجو توانایی استخراج اطلاعات تماما درست را ندارند. البته این امر می تواند به دلیل عدم رعایت استانداردها توسط وب سایت ها نیز باشد. اشکال دیگری که بر کار موتورهای جستجو وارد است آنستکه توانایی عمده آنها در نمایه سازی اطلاعات متنی است

34 بسیاری از آنها به انباشتن و انتقال اطلاعات می پردازند اما نمی توانند در درک اطلاعات نیز نقش داشته باشند. آنچه نیاز داریم علاوه بر دسترس پذیر کردن اطلاعات ، قابل درک کردن آنهاست. مشکل مدیریت اطلاعات هم جنبه فنی دارد و هم جنبه انسانی. دو راه حل وجود دارد: از نظر فنی، ایجاد ابزار های بهتر و استفاده بهتر از آنها از نظر انسانی، اصلاح مدل های ذهنی و تقویت ظرفیت برای تجزیه تحلیل ها و بازتاب های انتقادی. صلاحیت اصلی برای سواد اطلاعاتی اینست که عادت کنیم تفکر انتقادی داشته باشیم و از ابزار های شبکه ای برا ی تقویت آن بهره بجوییم.

35 بررسي مؤلفه هاي مؤثر بر ميزان بازيابي اطلاعات (جامعیت) و دقت بازيابي اطلاعات (مانعیت) در نظام هاي بازيابي اطلاعات وب مدار وب، همچون مغز بيکران همگاني است. مغزي که بسيار بيشتر از آنچه مغز يک انسان مي­تواند در خود جاي دهد در خاطر دارد. خرد انباشته شده در وب ما را قادر مي­سازد تا ابعاد تازه­اي را تجربه کنيم. وب به عنوان بزرگترين بستر ضبط خلاقيت بشر مطرح است. ورود اينترنت به زندگي انسان و استفاده از آن به عنوان بستري براي تبادل، ذخيره و بازيابي اطلاعات، فرصت­هاي بسياري از جمله ذخيره اطلاعات در محيطي نامحدود و بازيابي آن در اين محيط را در اختيار انسان قرار داده است. امّا سيل روز افزون توليد اطلاعات و گوناگوني محتواي موجود در وب به عنوان عمده­ترين خدمت موجود بر روي آن، بازيابي اطلاعات را با مشکل مواجه ساخته است. انسان با تلاش براي کنترل

36 اطلاعات موجود در اين اقيانوس بيکران اطلاعات و اين مغز همگاني، سعي در بدست آوردن مربوط ترين اطلاعات موجود در اين محيط دارد و اين خود بزرگترين چالش عصر حاضر است. رشد مجموعه­هاي متن الكترونيك (براي مثال كتابخانه­هاي ديجيتال، وب و اينترانت) شديداً دشواري يافتن اسناد مربوط را افزايش داده است. مشكل سخت تعيين محل كردن بهترين اسناد مرتبط با نياز اطلاعاتي كاربر است. در عمل اين تعريف ارائه شده از ايزو، شامل نمايه­سازي متن، تحليل پرسش، و تحليل ربط است؛ اين استاندارد، متن، جداول، نمودارها، گفتار، تصوير و ... را به عنوان داده مشخص مي­كند. همچنين ابررسانه را به منظور تمايز بين متون ساخت­يافته به صورت غير خطي و متون (اسناد) خطي تعيين مي­كند. اين استاندارد، اطلاعات را دانش مربوطي مي­داند كه براي پيشرفت حل

37 مشكل و دانشيابي و ... است. همچنين موضوع را پيوند دهنده يك مفهوم در مقابل يك رشته كاراكتري(واژه) مي­داند. مفاهيم بازيابي داده­ها، بازيابي سند، بازيابي اطلاعات، و بازيابي متن اغلب با هم اشتباه گرفته مي­شوند. هر كدام از اين مفاهيم پيكره از متون، نظريه­ها، كنش­ها و فناوري­هاي مربوط به خود را دارد. نظام­هاي بازيابي اطلاعات خودكار براي كاهش سرريز اطلاعاتي به كار مي­روند. بسياري از دانشگاه­ها و كتابخانه­هاي عمومي نظام­هاي بازيابي اطلاعاتي را براي دسترسي به كتب، مجلات، و ديگر اسناد به كار مي­برند. نظام­هاي بازيابي اطلاعات اغلب با سؤال و موضوع مرتبط­اند. پرسش­ها عبارات رسمي از نيازهاي اطلاعاتي هستند كه به وسيله كاربر در يك نظام بازيابي اطلاعات خودكار قرار مي­گيرند. موضوعات ماهيّت­هايي هستند كه اطلاعات را در يك پايگاه­ اطلاعاتي نگه داشته و يا ذخيره مي­ كنند. سؤالات كاربران با موضوعات ذخيره شده در پايگاه­هاي اطلاعاتي منطبق مي­شوند.

38 يك سند بنابراين يك شيء داده­اي است
يك سند بنابراين يك شيء داده­اي است. اغلب خود اسناد مستقيماً در نظام­ هاي بازيابي نگه داشته يا ذخيره نمي­شوند، امّا در عوض در نظام به وسيله بدل اسناد نمايش داده مي­شوند. از نگاه دايره­المعارف بريتانيکا، بازيابي اطلاعات، استحصال اطلاعات، بخصوص در يك پايگاه اطلاعاتي ذخيره شده در رايانه است. در اين فرآيند، دو رويكرد اصلي عبارتند از انطباق واژگان در پرسش با نمايه موجود در پايگاه اطلاعاتي(جستجوي كليدواژه­اي) و عبور كردن از پايگاه اطلاعاتي با بكارگيري پيوندهاي فرارسانه­اي يا فرامتني.  از قبلِ سالِ 1960، جستجوي كليدواژه­اي رويكرد غالب در بازيابي يك متن بوده است. توسعة فنون بازيابي اطلاعاتي با ظهور موتورهاي كاوش، تركيب زبان طبيعي، فراپيوندها، و جستجوي كليدواژه­اي نمود يافت. در اين پژوهش، مقصود از نظام­هاي بازيابي وب مدار عبارتست از نظام­ هاي بازيابي اطلاعات موجود در وب که استحصال اطلاعات را موجب مي­شوند.

39 مفهوم ميزان بازيابي اطلاعات يا جامعيت
ميزان جامعيت عبارتست از نسبت تعداد اسناد بازيابي شدة مربوط به تعداد كل اسناد مربوط موجود در مجموعه. به عبارتي ديگر، جامعيت نسبت اسناد مربوطي كه واقعاً بازيابي شده­اند، يا به عبارتي ديگر: جامعيت= نرخ موفقيت. مفهوم ميزان دقت بازيابي اطلاعات يا مانعيت ميزان مانعيت عبارتست از نسبت تعداد اسناد بازيابي شدة مربوط به تعداد اسناد بازيابي شده. مانعيت توانايي يافتن اسناد مربوط است. به عبارتي ديگر، مانعيت نسبت اسناد بازيابي شده­اي است كه واقعاً مربوط هستند. يا به عبارتي ديگر: مانعيت= نرخ پذيرش.                                             

40 براي سنجش كارآمدي بازيابي اطلاعات، برخي از معيارهاي عملكرد وجود دارد
براي سنجش كارآمدي بازيابي اطلاعات، برخي از معيارهاي عملكرد وجود دارد. ميزان جامعيت، مانعيت و ريزش معيارهای عملکرد کارآمدی نظام­های بازیابی اطلاعات به شمار می­روند.  مؤلفه­های مؤثر بر جامعیت و مانعیت در نظامهای بازیابی وب مدار از نگاه نگارنده سه مؤلفه کلی در برگیرنده جمیع عواملی است که  بر میزان جامعیت و مانعیت در وب تأثیر می­گذارد. این سه مؤلفه عبارتند از:

41 مؤلفه اوّل: نحوه بيان درخواست
بيان درخواست دقيق يا درخواست نامعلوم و فازي بر جامعيت و مانعيت تأثير مي­گذارد. كليدواژه­ها را بايستي با شكل صحيح و در قالبي مناسب وارد كرد و در انتظار پاسخ از سوي نظام بود. امّا آيا هميشه كاربر مي­تواند آنچه را در تفكر خود دارد در قالب كليدواژه­هاي مناسب به نظام عرضه كند؟ آنچه مسلم است اين است که کاربران تجارب، دانش، و مهارت­هاي متفاوتي با يکديگر دارند. يک نظام بازيابي آرماني بايد قادر باشد کمال مطلوب کاربراني با شرايط مختلف را مهيا کند. براي اينكه كاربر بتواند نياز خود را با زباني قابل فهم براي نظام تبيين كند بايد مهارت­ها و دانش خاصي را نيز به كار بگيرد.

42 نياز به سه دانش ذهني و فني و معنايي را براي رسيدن به مقصود براي کاربر ضروري است .
·    دانش ذهني: دانش مورد نياز براي تبديل يک نياز اطلاعاتي به يک درخواست قابل جستجو است، براي مثال" در مورد مجموعه گستري منابع اطلاعاتي الکترونيک چه اصطلاحاتي براي پيدا کردن اقلام اطلاعاتي بايد به کار گرفت؟" ·    دانش معنايي: چگونه و کي قابليت­هاي موجود در نظام را بايد بکار برد؟ براي نمونه کي و چگونه دستور Browse  يا Find  را بايد به کار برد؟ ·    دانش فني: مهارتهاي اساسي بکارگيري رايانه و ترکيب درخواست­هاي وارد شده به­عنوان عبارت­هاي جستجوي خاص، براي نمونه بايد Smith John F. تايپ شود يا John F. Smith. هر يک از سه دانش فوق تأثير شاياني بر ميزان جامعيت نتايج بازيابي شده مي­ گذارد چرا که بکارگيري اين سه نوع دانش، افزايش ميزان اسناد بازيابي شده را سبب مي­شود.

43 نكته قابل توجه اينكه نياز كاربر هميشه همان چيزي نيست كه در قالب سؤال آن را مطرح مي­كند. همه كاربران قادر نيستند تا فضاهاي خالي ذهن خود را از يك مسأله به خوبي توصيف كنند. جهل كاربر نسبت به يك مسأله عمدتاً مرزي مشخص ندارد و به همين دليل است كه رفتار كاربران در حين جستجو تا حدي غير قابل پيش­بيني می­شود و ما از برخي از ابزارها براي مطالعه رفتار آنها استفاده مي­كنيم. در مصاحبه مرجع به كاربر فرصت داده مي­شود تا سؤال خود را دقيقاً بيان كند و طي اين فرآيند نياز او با فنون پرسش كاوي و مصاحبه توسط كتابدار مرجع روشن، بدون ابهام و قابل درك مي­شود. در محيط وب، كاربر اين فرصت را ندارد تا نياز خود را به اين گونه بيان كند و رابطه فكري حاكم بر روابط كاربر و كتابدار در مصاحبه مرجع، ميان كاربر و نظام وجود ندارد، چرا كه نظام توان تفكر ندارد تا ببيند كاربر واقعاً به چه چيز نياز دارد. مسأله ديگر اينكه در مصاحبه مرجع، كتابدار نقش اساسي را در راهبري استراتژي جستجو دارد، امّا در وب اين امكان نيز در اختيار كاربر قرار

44 ندارد و او خود بايد استراتژي مناسب را بر اساس دانش و تجربه خود تدوين نمايد. نقش کتابدار در انتخاب توصيفگر يا كليدواژه­ تفاوت ديگري از اين دو روند است. در مصاحبه مرجع توصيفگرها و كليدواژه­ها با همياري كاربر و كتابدار صورت مي­گيرد، امّا در وب اين كار بر عهده كاربر است و كاربر بايد خود به توصيف آنچه مي­خواهد در قالب كليدواژه يا توصيفگر بپردازد. رویکردهای وب برای ایجاد بیان دقیق کدامند؟ موتورهاي كاوش فناوري­هايي را دنبال مي­كنند كه رفتار اطلاع يابي كاربر را در محيط وب به مصاحبه مرجع شبيه كنند تا كاربر جامعيت و مانعيت نياز خود را به خوبي مديريت كند. شاهد صادق اين شبيه­سازي، تلاش براي بكارگيري هوش مصنوعي در نظام­هاي بازيابي است. حتي برخي از کتابخانه­هاي الکترونيک با ايجاد خدمت "از کتابدار بپرس" سعي در آگاهي کامل از نياز کاربر دارند و بدين ترتيب کتابدار تلاش مي­کند تا با بکارگيري مهارت­ها و دانش خود، به نياز کاربران پاسخ دهد. اما خدماتي مانند "از کتابدار بپرس" نيز به دليل اينکه خالي از جنبه بصري است،

45 فرآيند ارتباطي کاربر و کتابدار بدون زبان بدن صورت گيرد و اين نقص در ارتباط باعث نقص در فهم دقيق کتابدار از نياز کاربر مي­شود. گاه در موارد خاص كاربر حرفه­اي در صورت عدم بازيابي هيچ نتيجه­اي بايد به بيان درخواست به صورت فازي مانند يك مبتدي بپردازد تا به كسب نتيجه منجر شود. به طور كلي هر چه فضاي تعامل بيشتر با كاربر ايجاد شود، از نياز او به صورت دقيق­تري فرصت آگاهي يافتن مي­يابيم و به اين وسيله مرز نياز كاربر، مشخص­تر مي­شود. چنانچه مي­توانستيم رفتار كاربران را پيش­بيني كنيم، به راحتي با تعريف چند متغير، تابعي از رفتار او را ترسيم كرده و سپس مطابق آن تابع به رفع نيازهاي او مي­پرداختيم. در اينكه رياضيات زبان توصيف هستي است شكي وجود ندارد، امّا رفتار انسان، زباني نيست كه به راحتي توصيف شود و تحت سيطره رياضيات، توابع و الگوريتم­هايش قرار گيرد.

46 ايجاد قالب مناسب براي واژه­ها به شيوه­هاي متفاوتي در وب صورت مي­ گيرد
ايجاد قالب مناسب براي واژه­ها به شيوه­هاي متفاوتي در وب صورت مي­ گيرد. در ادامه به برخي از رويکردهاي نظام­هاي بازيابي در ابزار کاربردي متفاوت در وب براي کمک به بيان دقيق نياز اطلاعاتي کاربر به طور مختصر اشاره مي­شود. اطلاعات درخواست شده (به وسيله كاربر) يا ارائه شده به وسيله متون ذخيره شده در پايگاه اطلاعاتي بايد بدون محدويت قابل بيان باشند. امكان تشخيص هر موضوع و هر جزء يا ريزه­ كاري از اطلاعات درخواستي نظام بايد مورد جستجو قرار گيرد. در اپك­هاي وب بنياد، از سرعنوان­هاي موضوعي و تكنيك مرور موضوعي براي قالب صحيح بخشيدن به شكل كليدواژه­هاي موجود در سؤال استفاده مي­شود. در اپك كتابخانه­ها مانند اپک کتابخانه كنگره از سرعنوان­هاي موضوعي كنگره استفاده مي­شود که شامل شناسه­هاي موضوعي انتخاب شده و انتخاب نشده به صورت الفبايي است. كاربر با مرور اين شناسه­ها، شناسه مناسب نياز خود را انتخاب كرده و با كليك بر روي آن، به تمامي پيشينه­هايي كه در آنها اين شناسه وجود

47 دارد دست مي­يابد. نظام ارتباط موضوعي پيشينه­ها در اپک­هاي وب بنياد باعث مي­شود تا کاربر بتواند تمام پيشينه­هاي مربوط با نياز خود را به راحتي دنبال کند. در برخي از پايگاه­هاي اطلاعات تخصصي از اصطلاحنامه­هاي تخصصي براي اين امر استفاده مي­شود. توسل به اين ابزار، مفهومي مشترك از ربط بين كاربر و نظام ايجاد مي­كند و به كاربر اختيارات مناسبي در جامعيت و مانعيت بخشيدن نياز اطلاعاتي مي­دهد. به واسطه توسّل به يك نظام سلسله مراتب موضوعي در پايگاه­هاي اطلاعاتي تخصصي و قرار دادن زيرتقسيمات موضوعاتِ رده­بندي­هايِ موضوعي در منوهاي جستجو، مي­توانيم به كاربر نشان دهيم، نياز اطلاعاتي او در كجاي دانش تخصصي جاي دارد تا بدين وسيله به او کمک کنيم تا با اعم و اخص كردن نياز خود به نتايج بازيابي شده از سوي نظام جامعيت و مانعيت بخشد. راهنمای موضوعی موجود در وب نیز تقریباً همان وظیفه سرعنوانهای موضوعی در اپک­های وب بنیاد و اصطلاحنامه­ها در پایگاه­های اطلاعاتی تخصصی ایفا می­کنند.

48 براي پاسخگويي به نياز اطلاعاتي هر انساني شايد بهترين رويكرد، اين باشد كه طرح جامع دانش بشري (همان نظام­هاي رده­بندي موضوعي) را به او نشان دهيم و از او بخواهيم تا فضاي مناسب نياز خود را براي نظام بازيابي با اين نظام­ها تشريح كند و سپس مدارك موجود در اين فضا را به او عرضه كنيم. اما اين امر نيز با مشکلاتي روبروست. پويايي دانش و روند رو به رشد علوم مختلف و پديد آمدن علوم بين رشته­اي مانع از آن مي­شود تا بتوانيم در طرحي جامع دانش بشري را به طور ثابت نشان دهيم. شايد بزرگترين نقصي كه متوجه کليه اين روش­ها است، نياز كاربر به دانش فني و معنايي است و به دليل نياز به اين دو نوع دانش، بكارگيري اين ابزارها را با سختي مواجه كند، امّا در عوض به نيازهاي اطلاعاتي به صورت دقيق­تري پاسخ داده مي­شود. در اين كه كاربران سهل­ترين روش­ها را براي برآورده كردن نيازهاي اطلاعاتی خويش پي مي­گيرند شكي وجود ندارد، اصل زيف يا اصل

49 کمترين تلاش، تصديقي بر اين سخن است
کمترين تلاش، تصديقي بر اين سخن است. ساده سازي روش­هايي كه شروع و ادامه جستجو در آنها سخت است با محيط بسيار انعطاف پذير وب غير ممكن نيست. در اپک­ها و پايگاه­هاي اطلاعاتي تخصصي که از سرعنوان موضوعي يا اصطلاحنامه استفاده مي­کنيم، چون براي كاربر فرصت ديدن ساير فضاهاي مربوط را مي­دهيم، كاربر خود نياز را از غير نياز مشخص كرده و زبان تبيين نياز را به راحتي در اختيار مي­گيرد. مانعيت، مزيت نظام­هاي سلسله مراتب موضوعي است. از اين رو به كارگيري نظام­هاي رده­بندي در بازيابي اطلاعات در پايگاه­هاي اطلاعات تخصصي كمك شاياني به كاربران مي­نمايد. در پايگاه­ هاي اطلاعات تخصصي، عمدتاً محدود كردن دايره جستجو با استفاده از علمگرهاي وابسته به موقعيت صورت مي­گيرد و مانعيت در اين پايگاه­ها عمدتاً از اين طريق محقق مي­شود. اما مسأله اصلي در بکارگیری سلسله مراتب موضوعی این است که به رده­بندي هر مدرك و به نيروي انساني متخصص در زمينه موضوعي براي اختيار كردن شناسه­هاي موضوعي صحيح نياز

50 است. امّا اين نيازها به تدريج با پيشرفت تكنولوژي از بين خواهد رفت و با حذف عامل انساني، به نحوي مطلوب فرآيندهاي لازم به وسيله طراحي نظام­هاي خودكار قابل انجام است. مسأله دیگر ساختار پویای دانش بشری است. هر روزه علوم زیادی در قالب رشته­های بین رشته­ای ظهور می­یابند و لازمه پاسخگویی به نیازهای جدید کاربران، بازنگری لحظه به لحظه در ساختار این گونه سلسله مراتب­هاست. مؤلفه دوّم: فناوري­هاي موجود در نظام نظام وقتي با نيازهاي كاربر روبرو مي­شود مسلّح به چه فناوري­هايي است؟ اين فناوري­ها چقدر و چگونه به كاربر در پاسخدهي نياز اطلاعاتي او مؤثرند؟ اين سؤالات، سؤالاتي هستند که با پاسخ به آنها، نظام مي­تواند در جامعيت و مانعيت بخشيدن به پاسخ کاربر به او کمک کند. فناوریها چگونه در میزان جامعیت و مانعیت دخالت می­کنند؟

51 در موتورهاي کاوش، شايستگي روبات­ها براي كشف و نمايه­سازي اسناد به طور خودكار، بهبود جامعيت را ممكن مي­سازد. روبات­ها توانايي­هاي متفاوتي در نمايه سازي اسناد موجود در وب دارند. طبق اطلاعات، تا ژانويه 2005،  بيش از 5/11 ميليارد صفحه در وب وجود داشته است. اما ميزان صفحات نمايه­سازي شده توسط موتورهاي کاوش از اين مقدار کمتر است و اين مقدار در حدود 4/9 ميليارد صفحه يا حدود 82 درصد از صفحات موجود در وب است. گوگل با بيشترين تعداد صفحات نمايه سازي شده در بالاترين مکان قرار گرفته است. اين مسأله حاکي از اين است که ميزان جامعيت در اين موتور کاوش از همه موتورهاي کاوش بيشتر و روبات نمايه ساز آن شايستگي بيشتري از روبات­هاي موتورهاي کاوش ديگر دارد.

52 برخي محققان اينگونه بحث مي­كنند كه تقريباً ارزيابي جامعيت در موتورهاي کاوش غير ممكن است چرا که پوشش وب به وسيله موتورهاي جستجو ناقص است و وب بسيار بزرگ و بدون ساخت است. از طرفي ديگر تعداد كل اسناد مربوط موجود در وب با تخمين دقيقي قابل بيان نيست و اين امر باعث مي­شود تا جامعيت موتورهاي کاوش غير قابل سنجش شود. اكثر مطالعات اختصاص يافته به ارزيابي عملكرد موتورهاي كاوش متفاوت معيارهاي ذيل را مورد توجه قرار مي­دهند: مانعيت، سطح پوشش وب، و همپوشاني دربين اسناد بازيابي شده. اما برخي مطالعات همچنين جامعيت و زمان پاسخ كه سرعت موتورهاي جستجو است را بررسي مي­كنند. در يک ارزيابي از موتورهاي کاوش خاطر نشان مي­كند: "در ارزيابي­هاي انجام شده تأكيد عمده بر معيار مانعيت است كه مبتني بر قضاوت ربط براي10 نتيجه منطبق در ابتداي هر موتور جستجو است. هم­پوشاني اسناد بازيابي شده و زمان پاسخ هر موتور جستجو نيز مورد مطالعه قرار گرفت. تعداد نتايج بازيابي شده به وسيله هر موتور جستجو ثبت شد."

53 رويكردهايي که بايد مورد نظر قرار گيرد بايد شامل يک راه حل مركب باشد تا در آن جامعيت و مانعيت به حداكثر برساند. امّا ماهيت مفهوم جامعيت و مانعيت سبب مي­شود، نظام­هاي بازيابي توفيقات چنداني در افزايش هر دو به صورت همزمان به دست نياورند. از طرفي چنانچه بخواهيم، براي افزايش ميزان مانعيت اسناد مربوط بيشتري را بازيابي کنيم، ميزان جامعيت تحت تأثير قرار مي­گيرد. کاربر مي­تواند با استفاده ترکيبي از ابزار مختلف در وب، يا به عبارتي ديگر استفاده همزمان از اين ابزارها مانند استفاده همزمان از موتورهاي کاوش و ابر موتورهاي کاوش جامعيت و مانعيت را همزمان کنترل نمايد. البته اين کار در دو رابط و به وسيله دو ابزار صورت مي­گيرد، اما تلفيق قابليت­هاي ابزارهاي مختلف، مهار همزمان جامعيت و مانعيت را براي کاربر ممکن مي­کند.  اين بستگي به كاربر دارد كه چه تعداد سند را او ارزيابي كند. بسته به تعداد اسناد ارزيابي شده، يك رابطه جايگزيني بين جامعيت و مانعيت وجود دارد. هر چه اسناد بيشتري را كاربر نگاه كند،

54 اسناد مربوط بيشتري متعاقباً ظاهر خواهد شد و جامعيت بالاتر خواهد بود
اسناد مربوط بيشتري متعاقباً ظاهر خواهد شد و جامعيت بالاتر خواهد بود. از سوي ديگر، از آنجا كه اسناد غير مربوط زيادي نياز به ارزيابي دارند نرخ مانعيت نزول خواهد كرد. يك پرسش از يك نظام بازيابي اطلاعات مركب از يك سلسله كلمه است. اين كلمات به وسيله عملگر بولي و برخي ويژگي­هاي اضافي خاص مانند عملگرهاي وابسته به موقعيت تركيب مي­شوند. نظر به اينكه هيچ تحليل زباني از معاني متون ذخيره شده يا پرسش ها وجود ندارد، نظام­هاي بازيابي اكثراً سعي در استقلال حيطه دارند و در حيطه خاصي به بازيابي اطلاعات مي­پردازند و بدين اسلوب به مربوط­ترين اسناد دست مي­يابند و با کار در حيطه خاص، موجب ايجاد مانعيت نتايج براي کاربران مي­شوند. رويکرد قابل توجه در اين زمينه، رويکرد پروتال­هاست. برخورداري از امکان جستجو براي پورتالي که درگاهي به مجموعه وسيعي از وب سايت هاي مرتبط است از جمله امکانات حياتي محسوب مي­گردد.پورتال­هاي موفق علاوه بر اينکه درمعرض ديد موتورهاي جستجوگر بيروني مانند (Yahoo) هستند، از امکان جستجوي داخلي نيزبهره­مند مي­باشند که با

55 توجه به وسعت اطلاعات عرضه شده درپورتال از جمله امکانات حياتي براي دسترسي به اطلاعات آن مي­باشد و علاوه بر اين مهار، زمان­بندي نمايه­سازي و تنظيمات موتورجستجوگر براي ارائه خدمت به مراجعه کنندگان، در اختيار خودآنهاست. در واقع موتورهاي جستجوگر بيروني، جستجوگراني که ازپورتال شما مطلع نيستند را به پورتال شما مي­رساند، ولي موتورجستجوگر داخلي به کاربر پورتال کمک مي­کند تا بصورت دقيق درانبوه اطلاعات پورتال به اطلاعات مورد نظر خود دست يابد. برخي از ويژگي­هاي پروتال که در افزايش جامعيت و مانعيت نتايج مي­ توانند مثمر ثمر واقع شوند عبارتند از: 1.   دسته بندي وب سايت­هايي که نمايه سازي مي­شوند و امکانارائه خدمات جستجو بصورت يک وب سرويس به وب سايت­هاي تابعه از طرفپورتال؛ 2.   دسته بندي نتايج يافت شده بر حسب وب سايت­هاي تابعه پورتال؛

56 3.   بهره مندي از روال رتبه بندي نتايج جستجو به طوري که صفحاتو اسناد با ارتباط بيشتر، رتبه بالاتري در خروجي جستجودارند؛ 4.   بهره مندي از جستجوي پيشرفته با قابليت­هايي نظير محدودکردن جستجو به يک يا چند وب سايت از وب سايت­هاي زير مجموعه پورتال؛ 5.   جستجوي منطقي بصورت ترکيب عطفي، فصلي و يا نفي از منطق بولي؛ 6.   پشتيباني از stop words براي مشخص کردن کلمات و ياعباراتي که لازم نيست در نتيجه جستجو ظاهر شوند، مانند حروف اضافه "و"، "از"، "به" ، ... . به طور کلي برخي رويکردهاي نو در نظام­هاي بازيابي اطلاعات در وب امکان ايجاد جامعيت و مانعيت را به طور خودکار به وجود مي­آورند. برخي از اين رويکردها عبارتند از: هوش مصنوعي، پرسش به وسيله مثال

57 ، پرسش به وسيله مثال پردازش زبان طبيعي، جستجوي مبتني بر مفهوم
، پرسش به وسيله مثال پردازش زبان طبيعي، جستجوي مبتني بر مفهوم. ، بسط پرسش، خلاصه­هاي خودكار،، منطق احتمال به دليل مطرح شدن اين مسائل در بسياري از متون، ما از پرداختن به جزئيات اين رويکردها پرهيز مي­کنيم اما در اينجا قابل ذکر است که هر کدام از اين رويکردها، همگي مجموعه امکاناتي هستند که فناوري براي ايجاد جامعيت و مانعيت و سرعت دسترسي به مطالب مربوط ايجاد مي­ کند. به طور کلي فناوري­هاي موجود در نظام­هاي بازيابي اطلاعات وب مدار امروزي با اعمال اين فنون، بر ميزان جامعيت و مانعيت تأثير مي­ گذارند:بكارگيري  سياهه واژگان غير مجاز، و عملگرهاي بولي. در نمايه­سازي، بكارگيري الگوريتم­هاي ريشه­يابي، بكارگيري نمايه­سازي عبارتي، بكارگيري واژگان كنترل شده در نمايه­سازي، بسط سؤالات كاربران با بكارگيري مترادفات، عمق نمايه سازي و ويژگي، عملگرهاي وابسته به موقعيت

58 مؤلفه سوّم: استنباط نظام و کاربر از مفهوم ربط
استنباط نظام از مفهوم ربط چيست؟ اين مفهوم چقدر به مفهوم موجود در ذهن كاربر نزديك است؟ سياست­هاي رتبه­بندي كدامند؟ نظام چگونه سعي مي­كند مفهوم ربط را كه بر خودش اعمال مي­شود به مفهوم ربط در ذهن كاربر نزديك كند؟ اين سؤالات، سؤالات اساسي مطرح در اين مؤلفه هستند. ابزار و رویکردهای به کارگرفته شده براي پاسخگويي به اين سؤالات، تأثير مستقيم بر ميزان جامعيت و مانعيت نتايج بازيابي شده مي­گذارد.

59 ربط عامل حاکم بر تأثير هر فرآيند ارتباطي است
ربط عامل حاکم بر تأثير هر فرآيند ارتباطي است. از آنجا که هدف بازيابي اطلاعاتي برقراري ارتباط است، از اين رو ربط هم کليد جدايي ناپذير بازيابي مؤثر است. ربط را مي­توان ملاک توفيق بازيابي دانست. ربط مقياس مؤثر بودن ميان منبع اطلاعات و دريافت کننده است. ربط کيفيتي انتزاعي است، کيفيتي يگانه ميان فرد و مدرکي معين که پشتيبان اين پذيره است که آن را تنها کاربر اطلاعات مي­تواند داوري کند. ربط کيفيتي فردي دارد که به وضعيت شناختي کاربر، مشکلي بايد گشوده شود، دانش قبلي از همان موضوع، فوريت کاربرد دانش جستجو شده و ارزشي که به اطلاعات نهاده ميشود بستگي دارد. (پائو، 1378) جامعيت و مانعيت، مفاهيمي مجرد و معيارهاي عينيِ يك نظام بازيابي اطلاعات نيستند، بلکه اين مفاهيم، مفاهيمي است که خود بر پايه مفهوم گسترده­اي چون مفهوم ربط شکل گرفته است و نيز : 1-تعريف ربط بين اسناد و سؤالات يك مفهوم ذهني است و نه يک مفهوم عيني، و

60 2-حتي اگر ربط يك سند به اتفاق آرا مورد قبول واقع شود، اگر كاربر خاصي سند را دريابد، آن سند ممكن است مورد علاقه او نباشد. در شکل1، سعي بر آن است که ملاک هاي ربط از نظر کاربر تشريح شود. هر چند اين عوامل به خوبي گوياي تمامي مسائل موجود در ذهن کاربر براي تشخيص ربط نيست، اما پژوهشگر کوشيده است تا جلوه­اي از برخي از اين عوامل را به تصوير بکشد. در شکل2، نظام توزين در نظام­هاي بازيابي اطلاعات وب مدار ترسيم شده است و خواهيم ديد که اين نظام­ها ربط را چگونه تفسير مي­کنند و ملاک­هاي مربوط بودن اسناد از نظر آنها را از نظر مي­گذارنيم. حال به مقايسه اين دو مدل مي­پردازيم و خواهيم ديد که نظام­هاي بازيابي وب مدار چگونه سعي مي­کنند اطلاعات مربوط با نيازهاي اطلاعاتي کاربران را در اختيار نهند و کاربران در مقابل، در هنگام مرور اسناد بازيابي شده به چه عواملي توجه مي­کنند. در اين دو مدل ديده مي­شود که آنچه ملاک ربط براي کاربر است با آنچه ملاک ربط از نظر نظام است به طور آشکار متفاوت است. لازم به ذکر است که اين

61 مدلها، هر دو کاملاً گوياي مؤلفه­هاي مؤثر بر ميزان ربط در نظام و در ذهن کاربران نيستند و تنها پژوهشگر با نيت نشان دادن تفاوت اين دو مفهوم در نظام و در ذهن کاربر آنرا به اين صورت به تصوير کشيده است.

62

63

64 در شکل 2، مقصود از بسامد نسبي اين است که هر چه عبارت يا واژه بيشتر ظاهر شود وزن بيشتري دارد و مقصود از نزديكتر به بالا، اسنادي كه اصطلاحات موجود در پرسش را در آدرس صفحه اينترنت يا در عنوان وزن بيشتري دارند. همچنين محل کلیدواژه و محبوبیت وب سایت تأثیر شایانی بر نحوه رتبه­ بندی موتور کاوش دارد. در موتور کاوش اینفوسیک و هات بات وجود کلیدواژه­ در متاتگ باعث می­شود تا مدرک رتبه بالاتری را به خود اختصاص دهد در حالی که اکسایت متاتگ را بررسی نمی­کند و وب کراولر بر اساس میزان محبوبیت وب سایت آنرا رتبه بندی می­کند (کلارک، 2000). عوامل موجود در شکل2، سیاست­هایی است که موتورهای کاوش برای رتبه بندی اعمال می­کنند. وقتي در مورد ربط اسناد توافق مي­شود، جامعيت و مانعيت مي­تواند براي مقايسه كارآيي دو نظام بازيابي بكار برده شود. بطور كلي امروزه چندين رويكرد براي بهبود نظام­هاي بازيابي وجود دارد به خصوص رويكردهايي كه گرايش به تحليل ربط دارند. (كوشمن، 2004).

65 ممكن است در برخي مطالعات، براي ارزيابي نتايج، استانداردهاي جامعيت و مانعيت نظام­ بازيابي به كار برده شود، اما نرخ اين دو بر مبناي رضايت كاربر از نتايج كسب شده است. بنابراين مشكل اصلي نظام­هاي بازيابي اطلاعات، سنجش ميزان ربط اطلاعات ذخيره شده يا ارتباط بين اطلاعات درخواست شده و اطلاعات بازيابي شده است. به عبارتي ديگر، با ارائه يك سؤال به نظام، نظام بازيابي بايد بررسي كند كه آيا اطلاعات ذخيره شده مربوط به پرسش است يا نه. به طور معمول، اين مشكل با سازماندهي پايگاه اطلاعاتي همچون يك فايل معكوس از كلمات مهم كه در متون ذخيره شده قرار گرفته است حل مي­شود. براي مثال، فايل معكوس محلي را كه كلمه در آن واقع شده تعيين مي­كند (لگر، 1996)، اما ايهام و استعارات پشت واژگان و نقص بيان مفاهيم با برخي واژگان، عملاً اين شيوه را شيوه­اي نامؤثر جلوه مي­دهد و ضرورت وجودي وب معنايي را گوشزد مي­کند.

66 نتيجه­گيري سيل روز افزون توليد اطلاعات و گوناگوني محتواي موجود در وب، بازيابي اطلاعات را با مشکل مواجه ساخته است. انسان با تلاش براي کنترل اطلاعات موجود در وب سعي در بدست آوردن مربوط ترين اطلاعات موجود در اين محيط دارد. رويكردهاي امروزي براي بهبود نظام­هاي بازيابي رويكردهايي هستند كه گرايش به تحليل ربط دارند و مشكل اصلي نظام­هاي بازيابي اطلاعات، سنجش ميزان ربط اطلاعات ذخيره شده يا ارتباط بين اطلاعات درخواست شده و اطلاعات بازيابي شده است. از نظر پژوهشگر، نحوه بيان درخواست، فناوري­هاي موجود در نظام، استنباط نظام و کاربر از مفهوم ربط، عمده­ترين مؤلفه­هاي مؤثر بر ميزان جامعيت و مانعيت اطلاعات در نظام­هاي بازيابي وب مدار است. رويکردهاي زيادي براي پرداختن به اين مؤلفه­ها از سوی نظام­های بازیابی اطلاعات دنبال مي­شود تا به بيان دقيق درخواست کاربر کمک کند، فناوريهاي مناسب و سهل

67 الاستفاده را به کار گيرد و مفهوم ربط در نظام و ذهن کاربر را به يکديگر نزديک کند. به دليل ماهيت انعطاف پذير وب، پرداختن به اين مسائل اهميت شاياني در عصر حاضر دارد و هر گونه پیشرفتی در راستای بهبود هر یک از این مؤلفه­ها کاربران را بازیابی بهینه اطلاعات یاری خواهد کرد.

68 هوشمندسازي سيستم بازيابي اطلاعات
هدف اين روش، تصحيح بردار درخواست كاربر، با توجه دانش محلي موجود در سيستم بازيابي اطلاعات است. شبكه عصبي را مي‌توان يك تابع غيرخطي دانست كه وظيفه آن درونيابي و يا برونيابي است. اين تابع مي‌تواند با توجه به دانشي كه در مرحله آموزش كسب نموده است، خروجي قابل قبولي در دامنه ورودي مجاز داشته باشد. به عنوان مثال مي‌‌توان يك نقطه در درون و يا بيرون نقاطي كه در مرحله آموزش به شبكه داده شده است، محاسبه نمود. اين نقطه با توجه به دانش موجود توسط تابع غيرخطي شبكه عصبي تخمين زده مي‌شود. با توجه به عدم قطعيت و ابهام ذاتي موجود در سيستمهاي بازيابي اطلاعات استفاده از سيستمي كه با بهره‌گيري از دانش زمينه

69 بتواند كاربر را در ساخت درخواست مناسب، راهنمايي نمايد، ضروري به نظر مي‌رسد. در حقيقت اين سيستم مانند يك ناظر خبره، بر درخواستهاي رسيده از كاربران نظارت مي‌نمايد و در صورت نياز، با تصحيح بردار درخواست، كاربر را در بدست آوردن نتيجه مطلوب راهنمايي مي‌نمايد. مطالعات اخير در زمينه هوشمندسازي بازيابي اطلاعات، به اين نتيجه رسيده است كه براي بهبود كارآيي سيستم بازيابي اطلاعات، احتياج به تكنيكهايي است كه محتواي درخواستها و مدارك را درك كنند. اخيراً محققان تئوري اطلاعات سعي بر اين داشتند كه رابطه ميان مدارك و درخواستها را مشخص كنند. هدف اين است كه درخواست كاربر طوري تطبيق پيدا كند كه اطلاعات مورد درخواست كاربر را در مجموعه محلي مدارك پياده‌سازي نمايد.

70 پايه و اساس تطبيق درخواست اين است كه درخواستهاي مشابه داراي مجموعه مدركهاي مشابه هستند. با استفاده از اطلاعات مدركهايي كه با درخواستهاي قبلي مشابه بوده‌اند، مي‌توان مدارك مشابه با درخواستهاي جديد را بدست آورد. تغيير شكل درخواست همانند شخص خبره عمل مي‌كند. به عبارت ديگر سيستم ناظر شبكه عصبي حضور شخص خبره را شبيه‌سازي مي‌كند. در شكل 3 مدل كلاسيك (شكل 3- ب)، با مدل هوشمند (شكل 3- الف) مقايسه شده است سيستم هوشمند داراي مبدل درخواست T مي‌باشد كه با توجه به دانش مجموعه، درخواست را بازسازي مي‌كند. 

71 كاربرد اين سيستم در مجموعه مداركي كه دسته‌بندي شده باشند، بهتر نمايان مي‌گردد. بدين صورت كه مثالهاي آموزشي، براحتي و بطور خودكار، از شاخه‌‌هاي موجود در مجموعه استخراج

72 مي‌گردد. هر مثال آموزشي شامل چند كلمه كليدي (درخواست) و مجموعه مدارك مرتبط با كلمات كليدي است.
سيستم هوشمند در دو فاز عمليات بازيابي را انجام مي‌دهد. ابتدا مرحله يادگيري و آموزش ماشين است، در اين مرحله بايد يك ليست از درخواستها (بردارهاي درخواست) و جواب آنها (ماتريس مدارك جواب درخواست) به سيستم داده شود. در اين مرحله سيستم شبكه عصبي دانش زمينه‌اي مجموعه را كسب مي‌نمايد. فاز دوم، فاز بكارگيري و آزمايش سيستم هوشمند است، در اين فاز سيستم هوشمند مانند ناظر، درخواستهاي كاربر را پذيرفته و آنها را بهينه‌سازي مي‌كند و سپس سيستم كلاسيك مانند قبل، بروي درخواست تغيير يافته، عمليات محاسبه شباهت را انجام مي‌دهد.

73 شكل 4 سيستم هوشمند را در دو فاز يادگيري و بكارگيري نشان مي‌دهد
شكل 4 سيستم هوشمند را در دو فاز يادگيري و بكارگيري نشان مي‌دهد. همانطور كه مشاهده مي‌گردد سيستم از چهار قسمت تشكيل شده است: پردازشگر درخواست: در اين قسمت از سيستم، درخواست پردازش مي‌گردد تا به بردار تبديل گردد. در اين مرحله از شاخص و وزن‌دهي استفاده خواهد شد و يا ممكن است براي سرعت بيشتر از مدل منطقي استفاده شود. بنابراين خروجي اين مرحله بردار درخواست است. 2- پردازشگر مدرك: اين قطعه از سيستم، مدارك را مورد پردازش قرار مي‌دهد و براي

74 هر مدرك يك بردار از وزنها، ايجاد مي‌نمايد بنابراين خروجي اين قطعه از سيستم، ماتريس كلمه-مدرك مي‌باشد. 3- مقايسه‌گر: اين قطعه از سيستم، بردار درخواست را با تمام بردارهاي مدارك مقايسه مي‌نمايد، و يك ليست ارزش‌گذاري شده از مدارك شبيه را تهيه نموده به كاربر ارايه مي‌نمايد. 4- شبكه عصبي: وظيفه شبكه عصبي تغيير بردار درخواست كاربر با توجه به دانش كسب شده، در مرحله آموزش مي‌باشد. اين بردار به عنوان خروجي اين مرحله به مقايسه‌گر داده

75

76 براي آنكه سيستم هوشمند بتواند بخوبي عموميت بخشي را در دانش مجموعه ايجاد نمايد، مثالهايي كه جهت آموزش سيستم انتخاب مي‌گردد، بايد از تمامي دامنه مجموعه باشد. براي كار‌آيي بهتر مي‌توان، مدارك مجموعه را دسته‌بندي نمود و سپس از هر دسته مدارك شبيه، يك نماينده كه عموميت بيشتري دارد در آموزش شبكه عصبي شركت كند. در شكل 5 نتيجه آزمايش اين روش بروي مجموعه مدارك CranField مشاهده مي‌گردد، در اين نمودار نتيجه روش كلاسيك با روش هوشمند مقايسه مي‌گردد. اين مجموعه داراي 1400 مدرك و 225 مثال آموزشي است. تعداد كلمات كليدي كه در بيش از يك مدرك ظاهر شده‌اند

77 حدود 4400 كلمه مي‌باشد.در عمل براي آموزش شبكه عصبي مي‌توان از فهرستهاي موضوعي بيشترين بهره را براي، آموزش شبكه عصبي بدست ‌‌آورد. بدليل دسته‌بندي اطلاعات در اين فهرستها، بهترين جواب در آموزش سيستم بدست خواهد آمد.

78 نتيجه‌گيري با مشاهده خروجي سيستم هوشمند به اين نتيجه مي‌رسيم كه سيستم هوشمند داراي كار‌آيي بالاترين نسبت به سيستم كلاسيك مي‌باشد. اين نتيجه با نظارت بر درخواست كاربر جواب بهتري را فراهم آورده است. زيرا بردار درخواست با دانش زمينه تطبيق داده شده و بهينه‌سازي مي‌گردد، به عبارت ديگر سيستم هوشمند با درك معناي درخواست، در صورت نياز آن را بهينه‌سازي مي‌نمايد.مدل هوشمند برخي مشكلات مدلهاي كلاسيك را حل كرده است:

79 • الزامي ندار كه درخواست ساختاري مانند مدرك داشته باشد تابع مبدل T (شكل 3) درخواست را پيكربندي مي‌كند، تا شباهت قابل محاسبه و سنجش باشد. • كاربر ملزم نيست كه درخواست خود را به طور كامل، از محتوايي كه مي‌خواهد بيان كند، تابع مبدلT، با استفاده از دانش محيط، درخواست را تغيير شكل خواهد داد، و درخواست را در فضاي مدارك قرار خواهد داد. • يك مدل هوشمند مي‌تواند براي محاسبه شباهت استفاده شود، كه رابطه ميان درخواستها با مدركهاي مشابه را با استفاده از بازخورد كاربر مورد محاسبه قرار دهد. موقعيت مدرك در فضاي مدارك، نسبت به تصميم كاربر تغيير خواهد كرد.

80 بايد توجه كرد كه مدل هوشمند، در صورتي پاسخ مناسب و صحيح خواه داد كه در فاز آموزش با مثالهاي جامع، يادگيري انجام شده باشد در غير اينصورت ممكن است نتيجه مناسبي حاصل نگردد بنابراين پيشنهاد مي‌گردد، كه سيستم هوشمند در صورتي مورد استفاده قرار گيرد، كه درخواست رسيده داراي تاريخچه‌اي در زمان آموزش باشد، به عبارت ديگر در صورتي از سيستم هوشمند استفاده شود، كه درخواست داراي مثال‌هاي مشابي در زمان آموزش باشد، در غير اينصورت از سيستم كلاسيك بدون تغيير درخواست، استفاده گردد و بازخورد اين درخواست مجدداً سيستم را تعليم دهد. يعني با توجه به انتخاب كاربر، مي‌توان با مجموعه‌اي از مثال‌هاي آموزشي سيستم را مجدداً تعليم داد.

81 با تشکر موفق و سربلند باشید
با تشکر موفق و سربلند باشید


Download ppt "موضوع پروژه : بازیابی اطلاعات Information Retrieval"

Similar presentations


Ads by Google