موضوع پروژه : بازیابی اطلاعات Information Retrieval

موضوع پروژه : بازیابی اطلاعات Information Retrieval
حق تعالی دانشگاه جامع علمی کاربردی – بنیاد مهندسی فنآوری اطلاعات موضوع پروژه : بازیابی اطلاعات Information Retrieval استاد : سرکار خانم مهندس خلیل نژاد تهیه و تظیم : سید فرید مصباحی پاییز1389

فهرست مطالب تعریف بازیابی اطلاعات( Information Retrieval )
مدل‌سازی اطلاعات تعیین میزان ربط هر سند به نیاز اطلاعاتی کاربر انواع مدل (مدل دودویی- مدل بُرداری - مدل احتمالاتی) تفاوت بازیابی داده و بازیابی اطلاعات معیارهای ارزیابی چالش ها و تنگنا های مدیریت و بازیابی اطلاعات بررسي مؤلفه هاي مؤثر بر ميزان بازيابي اطلاعات (جامعیت) و دقت بازيابي اطلاعات (مانعیت) در نظام هاي بازيابي اطلاعات وب مدار هوشمند سازی بازیابی اطلاعات

بازیابی اطلاعات (Information Retrieval) چيست؟
با افزایش روز افزون حجم اطلاعات ذخیره شده در منابع قابل دسترس و گوناگون، فرایند بازیابی و استخراج اطلاعات اهمیت ویژه‌ای یافته است. شاید شما هم به این موضوع فکر کرده باشید که موتورهای جستجو چگونه کار میکنند؟ توسط چه الگوریتم هایی با سرعتی بسیار بالا، نتایج موردنظر شما را درباره یک درخواست از بین میلیون ها صفحه یافته و استخراج میکنند؟ چگونه لینک هایی که ارتباط بیشتری به موضوع مورد نظر شما دارند را تشخیص داده و آنها را در صفحات اول جستجو قرار میدهند؟

تعريف بازیابی اطلاعات(Retrieval Information ) علمی است که سرمنشاء کارکرد موتورهای جستجو است. اعمال ، شيوهها و رويه هايي براي بازيابي اطلاعات ذخيره شده در جهت تهيه اطلاعات حول موضوعي معين. به فن‌آوری و دانش پیچیده جستجو و استخراج اطلاعات، داده ها ، فراداده ها در انواع گوناگون منابع اطلاعاتی مثل بانک اسناد ، مجموعه‌ای ازتصاویر، و وب گفته می‌شود. اطلاعات مورد نظر ممکن است شامل هر نوع منبعی مانند متن، تصویر، صوت و ویدئو باشد.

بر خلاف پایگاه داده‌ها، اطلاعات ذخیره شده در منابع اطلاعاتی بزرگ مانند وب و زیرمجموعه‌های آن مانند شبکه‌های اجتماعی از ساختار مشخصی پیروی نمی‌کنند و عموما دارای معانی تعریف شده و مشخصی نیستند. هدف بازیابی اطلاعات : کمک به کاربر برای یافتن اطلاعات مورد نظر در انبوهی از اطلاعات ساختارنایافته است. جستجوگرهای گوگل، یاهو و بینگ سه نمونه از پراستفاده‌ترین سیستم‌های بازیابی اطلاعات هستند که به کاربران برای بازیابی اطلاعات متنی، تصویری، ویدئویی و غیره کمک می‌کنند. «بازیابی اطلاعات» در برخی منابع فارسی به اشتباه به جای ذخیره و بازیابی داده‌ها که به معنای دانش شناخت رسانه‌های ذخیره‌سازی فیزیکی است، به کار رفته است.

مدل‌سازی اطلاعات نخستین گام در بازیابی اطلاعات، مدل‌سازی اطلاعات و توصیف و تعریف ارتباط موجود میان اجزاء منبع اطلاعاتی با نیازهای اطلاعاتی کاربر است. سه مدل مهم در حوزه بازیابی اطلاعات عبارتند از: مدل دودویی (یا دوگانی): در مدل دودویی (یا دوگانی) هر سند (document) به صورت کیفی پر از کلمات (bag of words) در نظر گرفته می‌شود. مدل بُرداری: در مدل بُرداری، هر سند به صورت برداری از کلمات در یک فضای برداری چند بُعدی در نظر گرفته می‌شود که ابعاد آنرا کلمات تشکیل می‌دهند. مولفه‌های این بردار سند، در واقع وزن هایی هستند که نشان می‌دهند هر یک از کلمات چقدر در متمایز کردن آن سند دخیل هستند. مدل احتمالاتی: در مدل احتمالاتی، به هر سند احتمالی اختصاص داده می‌شود که مربوط بودن آن مستند را به نیاز کاربر به صورت احتمال بین صفر و یک بیان می‌کند.

تعیین میزان ربط هر سند به نیاز اطلاعاتی کاربر
بعد از تعریف مدل، سیستم آماده دریافت نیاز اطلاعاتی کاربر است. معمولاً کاربران نیاز اطلاعاتی خود را در قالب یک «پُرسه» برای سیستم بیان می‌کند که معمولاً شامل چندین کلمات یا عبارات است. سیستم سپس بر اساس مدلی که اطلاعات بر اساس آن تعریف شده‌اند، میزان ربط هر سند را با پُرسه کاربر محاسبه می‌کند، و سندهایی را که از همه باربط تر تشخیص داده شده اند به عنوان نتیجه بازیابی باز می‌گرداند.

چگونه اسناد مرتبط با درخواست کاربر یافت میشوند؟
آنچه بین موتورهای جستجوگر باعث نمایش نتایج جستجوی متفاوت میشود، استفاده از مدل های مختلف IR در مدلسازی خروجی است. هم اکنون سه مدل کلاسیک با نام های Boolean و Vector و Probabilistic وجود دارند که سرمنشاء کلیه مدلهای جاری برای مدلسازی داده های خروجی در موتورهای جستجوگر هستند. موتورهای جستجوی امروزی مانند گوگل گرچه از هیچ یک از این سه مدل استفاده نمی کنند ، اما مدلهای آنها نیز برداشتی جدید از همین مدل ها محسوب میشود.

مدل دودویی Boolean در مدل دودویی، نیاز اطلاعاتی کاربر به صورت عبارتی منطقی با عملگرهای AND و OR و NOT بیان می‌شود و هر سندی که این عبارت در مورد آن صحیح باشد بازیابی می‌شود. مثلاً اگر نیاز اطلاعاتی به صورت Iran AND Oil بیان شود، تمامی اسنادی که هردو کلمه Iran و Oil را دربردارند به کاربر نمایش داده می‌شوند. در مدل دودویی سند یا باربط است یا نیست، و هیچ معیاری برای سنجش میزان درجه ربط وجود ندارد. مثلاً دو سند را در نظر بگیرید که یکی تماما درباره ایران و نفت بحث می‌کند، و دیگری در مورد اقتصاد جهانی صحبت می‌کند و فقط از نام ایران و نفت به عنوان مثالی در یک جمله استفاده کرده است. سیستمی که از مدل دودویی استفاده کرده تفاوتی بین این دو سند قائل نخواهد شد. در صورتیکه در واقع سند اول بیشتر به نیاز کاربر مربوط است.

مدل برداری Vector در مدل برداری، برای سنجش میزان ربط اسناد و نیاز اطلاعاتی کاربر، سیستم اسناد موجود و پُرسه کاربر را در فضای چند بعدی مدل‌سازی می‌کند. در نتیجه برای سنجش میزان شباهت میان بُردار پُرسه و بردار هر سند می‌توان از زاویه‌ای که این دو بردارها با هم می‌سازند استفاده کرد. اسنادی که بردارشان با بردار پرسه کاربر زاویه کوچکتری می‌سازد بیشتر با نیاز اطلاعاتی کاربر هم جهت هستند و در نتیجه مرتبط‌تر خواهند بود. برتری این مدل این است که به سیستم امکان درجه‌بندی میزان ارتباط اسناد با پرسه را می‌دهد.

مدل احتمالاتی Probabilistic
در مدل احتمالاتی هم به ازای هر نیاز اطلاعاتی، تمامی اسناد بر اساس احتمال این که با نیاز اطلاعاتی مرتبط باشد مرتب می‌شوند و لیست اسناد در نهایت به صورت درجه‌بندی شده (مانند مدل برداری) به کاربر نمایش داده می‌شود، به نحوی که اولین سندی که کاربر می بیند از همه بیشتر احتمال دارد که به نیاز او ربط داشته باشد.

تفاوت بازیابی داده و بازیابی اطلاعات
بین بازیابی اطلاعات و بازیابی داده تفاوت‌های زیادی وجود دارد. داده‌ها ابهام ندارند، اما اطلاعات نیاز به تفسیر دارد و در نتیجه مبهم می‌شوند. سیستمی که برای بازیابی داده طراحی شده نیازی به رفع این ابهام‌ها ندارد، اما در سیستم بازیابی اطلاعات باید هر چه بهتر اطلاعات را مدل کرد تا ابهام در درک اطلاعات توسط سیستم کمتر شوند. به همین علت بر خلاف سیستم‌های بازیابی داده که در آن کارایی سیستم از نظر سرعت و فضا به عنوان معیار ارزیابی در نظر گرفته می‌شود، در سیستم‌های بازیابی اطلاعات، معیار دقت (precision) و بازخوانی (recall) و معیارهایی شبیه به آنها به عنوان معیارهای اصلی ارزیابی به کار می‌روند.

معیارهای ارزیابی معیار دقت: به حاصل تقسیم «تعداد مستندات بازیابی شده واقعاً باربط» بر «تعداد کل مستندات بازیابی شده» گفته می‌شود. معیار بازخوانی: به حاصل تقسیم «تعداد مستندات بازیابی به تعداد مستندات بازیابی شده باربط» بر «تعداد کل مستندات باربطی که در مجموعه اطلاعاتی موجود بوده است» گفته می‌شود.

تفاوت Retrieval Information با کارکرد سیستم های Retrieval Data :
احتمالا قبلا با Data Base ها کار کرده اید. شما یک Query مشخص می نویسید و درخواست خود را کاملا واضح و دقیق به بانک اطلاعاتی اعلام می کنید. DBMS ( Data Base Management System - سيستم مديريت پايگاه داده ) نیز رکوردهایی از جداول موردنظر شما را که با درخواست شما تطابق دارند برای شما می آورد. مثلا شما نمرات دانشجویانی را که تجدید شده اند میخواهید و نتایج جستجو کلیه نمرات زیر 10 را برای شما نمایش میدهد. آنچه در Data Base های کنونی اتفاق می افتد Exact matching تطبیق عینی است. و به این فرایند Data Retrieval می گویند که یکی از حالات خاص برای Information retrieval محسوب میشود.

یعنی دقیقا همان چیزی را که اعلام کرده اید ، برای شما می آورد
یعنی دقیقا همان چیزی را که اعلام کرده اید ، برای شما می آورد. در این جستجو قطعیت وجود دارد. مثلا در مورد این درخواست، اینگونه نیست که دانشجویان نمایش داده شده در نتایج Query احتمالا مردود باشند. بلکه 100% تجدید هستند. اما آنچه که بعنوان نتایج سیستم های بازیابی اطلاعات (IR: Retrieval Information) در خروجی ظاهر می شود تا جای ممکن شبیــه به درخواست شماست. در واقع نتایج خروجی این سیستم ها دارای همسانی ( Similarity ) با درخواست واردشده هستند. همچنین در این سیستم ها درصدی از خطا در نتایج همواره قابل پذیرش است. بطور مثال بارها برای شما پیش آمده است که در گوگل چیزی را جستجو کرده باشید و به نتایج نسبی - و نه کاملا آنچه مدنظرتان بوده رسید اید

گوگل چگونه کار میکند؟ کارکرد IR
برای امتحان کردن کارکرد IR کافیست در گوگل مثلا عبارت "مقالات آموزش فتوشاپ" را جستجو کنید. خواهید دید که در نتایج ظاهر شده عباراتی با عنوان "مقالات آموزشی فتوشاپ" نیز پررنگ شده اند. مسلما از دید گوگل کلمات آموزش و آموزشی متفاوت هستند و درکی که شما بعنوان یک فارسی زبان از این دو کلمه دارید با درک یک موتور جستجوگر کاملا متفاوت است. اما چه چیزی باعث میشود تا گوگل این دو کلمه را شبیه هم ارزیابی کند؟ گوگل با جستجو در میان میلیون ها صفحه و یافتن ارتباط بین آنها فهمیده است که این دو کلمه هم ارز یکدیگرند. در واقع اصلی ترین کارکرد سیستم های IR نیز همین است.

هر موتور جستجو تعداد مشخصی صفحه را در بانک اسناد خود نگه داری میکند که به این بانک Text DB میگوییم .
و index گذاری میشود تا کلمات مرتبط با هر سند استخراج گردد و در جستجوها مورد بررسی قرار گیرد. روش های index گذاری شامل دو نوع FullText و Some Key words است. برخی الگوریتم ها تمام کلمات موجود در یک سند را بعنوان کلمات کلیدی آن سند بررسی میکنند و برخی الگوریتم ها فقط به بعضی لغات اهمیت میدهند و آنها را بعنوان کلمات کلیدی سند مورد نظر درنظر میگیرند. لغات درنظرگرفته شده، دید کلی از سند موردنظر را برای موتور جستجوگر فراهم میکند. به همین دلیل این لغات را Logical View of the document میگویند.

در فرایند اجرای یک Query چه اتفاقی میافتد؟
در ابتدا کاربر درخواست خود را از طریق User interface وارد میکند. الگوریتم های Text Operation درخواست کاربر را به Logical View هایی که موتورجستجوگر میفهمد ترجمه میکنند (بطور مثال کلماتی مانند and/or از داخل کلماتی که وارد کرده اید حذف میشوند و کلمات بر اساس اهمیتشان مرتب میشوند). بخش Query operation یک Query از روی کلمات داده شده میسازد و به موتور سرچ میدهد. موتور سرچ از داخل index هایی که قبلا در بانک index ها ثبت شده اند، نتایج را استخراج میکند. نتایج حاصل در بخش Ranking بر اساس میزان مرتبط بودنشان با درخواست کاربر طبقه بندی میشوند و نتایج به کاربر نمایش داده میشود.

دریافت Feedback از کاربر:

جستجوی تصاویر: در بخش جستجوی تصاویر گوگل وقتی شما یک عبارت را جستجو میکنید و نتایجی را به شما نمایش میدهد، شما فقط بر روی چند عکس خاص کلیک میکنید. گوگل از این طریق میفهمد که عکس موردنظر با جستجوی شما رابطه ی نزدیک تری دارد تا عکس هایی که رویشان کلیک نکردید.

چالش ها و تنگنا های مدیریت و بازیابی اطلاعات
چالش ها و تنگنا های مدیریت و بازیابی اطلاعات سرعت سرسام آور تولید اطلاعات از یک سو و ضرورت سامان دهی این حجم روز افزون از سویی ، بشر را با چالش های جدیدی روبرو ساخته است.پیشرفت های حاصل در فناوری های اطلاعاتی و ارتباطی با همه مزایایی که داشته اند برخی تنگناهای جدید برای جامعه کاربران به وجودآورده اند هر چه حجم اطلاعات بیشتر و مجراهای دسترسی به آنها متنوع تر می شود امکان بازیابی کارآمد و به موقع اطلاعات دشوارتر شده و اطمینان از صحت و اعتبار آنها نیز کمتر می شود. در این میان اتخاذ یک استراتژی سودمند مستلزم شناخت جامعه کاربران و نیازهای اطلاعاتی آنان، ارائه آموزش های لازم، ریشه یابی مشکلات موجود و ایجاد ابزار های جدید برای مقابله با این مشکلات می باشد.

مدیریت اطلاعات امروزه به مفهومی پیچیده تبدیل شده است ، زیرا اطلاعات موجود حجمی ناباورانه به خود گرفته و روزبه روز بر این حجم افزوده می شود. همه ما با اصطلاحاتی چون « انفجار دانش » یا « انفجار اطلاعات» کم و بیش آشنا هستیم. این پدیده ، واقعیت بزرگی است که منشاء تحولات و حتی انقلابی عظیم در عرصه حیات بشری گردیده است. حجم وسیع تر اطلاعات باید منجر به عملکرد بهینه تر، هوشمندانه تر و با سرعت بیشتر گردد.

تعریف مدیریت اطلاعات واژه مدیریت اطلاعات در رشته ها و زمینه های مختلف علمی به کار برده شده است. از جمله در علوم کامپیوتر، بازرگانی، مدیریت و کتابداری و اطلاع رسانی. در کتابداری و اطلاع رسانی، مدیریت اطلاعات به معنی : توانایی در جمع آوری، نگهداری، بازیابی، اشاعه و در دسترس ساختن اطلاعات درست، در مکان و زمان مناسب، برای افراد شایسته با کمترین هزینه، در بهترین محمل اطلاعاتی برای به کار گیری در تصمیم گیری، می باشد. ظهور اینترنت و مجراهای اطلاعاتی آنلاین، مدیریت اطلاعات را با چالش ها و تنگناهایی مواجه ساخته است.

مهم ترین تنگنا : اضافه بار اطلاعات
"اضافه بار اطلاعات" یکی از مهم ترین موضوعات در زمینه مدیریت اطلاعات است. اضافه باراطلاعات که با ظهور اینترنت اهمیت آن دو چندان شد به بازیابی بیش از اندازه اطلاعات یا بازیابی اطلاعات ناخواسته مربوط می شود. تعریف اضافه بار اطلاعات: شرایطی که اطلاعات بیش از اندازه برای موضوعی در اختیار باشد که عموما درجستجوی آنلاین اتفاق می افتد، مخصوصا اگر پرسش در غالب واژه هایی کلی بیان شود. آیا مشکل اصلی مدیریت ، اضافه بار اطلاعات است ؟ یا کثرت کانال های اطلاعاتی وارتباطی . بر خلاف دوران گذشته تکنولوژی های جدید «جایگزین» نمی شوند بلکه به گروه رسانه های موجود «اضافه» می شوند.

داده، اطلاعات و دانش شاید مشکل عمده نه اطلاعات بیش از اندازه ، بلکه اطلاعاتی باشد که غیر مفید یا بی معنی هستند. برای تسلط بر اطلاعات باید ابتدا رابطه بین داده، اطلاع و دانش را درک نماییم . داده به واقعیت های خام اطلاق می شود. اطلاع ، داده هایی است که در یک زمینه و مفهوم معنی دار سازمان یافته باشد. دانش، داده های سازمان یافته ای است که درک شده و به کار گرفته شود .

نقش کاربران باید شناخت کافی از کاربران اطلاعات نیز داشته باشیم. منبعی مانند اینترنت به کاربر نیاز دارد تا از منابع وسیع خود مضمونی به دست دهد . اما کاربران ممکن است به این دلیل که اطلاعات به دست آمده با پیش زمینه ذهنی آنها سازگار نیست تصور کنند که با اضافه بار اطلاعات مواجه شده اند حال آنکه چنین تصوری غلط است. یک روش برای حل این مسئله آن است که کاربران اطلاعات جدید به دست آمده را در ساختار دانش موجود تفسیر کنند و مدل آنالوگ ذهنی خود را با جهان دیجیتال هماهنگ کنند.

شناخت نیازهای اطلاعاتی
دو عامل سرعت و کیفیت ، یک شتاب مصنوعی در بازیابی اطلاعات ایجاد کرده است. به وسیله پست الکترونیکی، پست صوتی، دورنما، و وب، جریان مداوم داده ها در طول 24 ساعت شبانه روز در محل کار و خانه و حتی در طول سفر امکان پذیر شده است. رضایت از بسیاری از این منابع باعث شده است تا توجه به نیازها و الویت ها فراموش شود. توجه به اطلاعات پراکنده به جای چیزی که واقعا نیاز داریم و به خاطر آن دست به جستجو زده ایم. ایده آل ترین اطلاعات آن است : که به روز باشد، به موقع باشد و برای کاری که در دست داریم کافی باشد نه اینکه لزوما کامل باشد. هدف از جستجوی اطلاعات باید پیدا کردن پاسخ سوالاتی باشد که اصالتا معنی دار باشند.

ظهور اینترنت : چالش های جدید
وب به سادگی موانع طبیعی بین مردم و اطلاعاتی را که در هیچ جای دیگر نمی توانستند بیابند از بین برده است.ما امروزه قادر هستیم اطلاعات را از مجراهای گوناگون مستقیما به دست آوریم. وقتی که به یکباره با حجم وسیعی از اطلاعات بر روی وب بر می خوریم شاید گمان کنیم که وب یک منبع فوری و آماده برای پاسخ به تمام نیازهای اطلاعاتی ما است ، حال آنکه باید ابتدا بدانیم چگونه این دریای وسیع را برای رسیدن به هدف خاص خود در نوردیم و این همان چیزی است که مدیریت اطلاعات به ما می آموزد. سرعت و کیفیت بالا و سهولت دستیابی ، وب را به یک منبع اطلاعاتی جذاب تبدیل کرده است. واقعیت اینست که نمایش گرافیکی باعث جذابیت اطلاعات اینترنت شده است. اما در هر صورت اطلاعات بازیابی شده زمانی معنی دار است که با ایده ای مرتبط باشد ، نه وقتی که بدون هدف و با حالتی خوشایند ارائه گردد. فراموش نکنیم که امروزه شرایطی فراهم شده است که هر کس ، هر اطلاعاتی را که بخواهد می تواند به آسانی در وب قرار دهد .

این در حالی است که متاسفانه اکثر افراد تصور می کنند اطلاعاتی که از طریق کامپیوترشان دریافت می کنند بسیار قابل اطمینان تر از سایر منابع است. از طرفی آزادی عمل موجود در فضای اطلاعاتی وب عاملی برای جذابیت آن به شمار می رود . نبود کنترل کیفی مرکزی و گسترش دسترسی همگان به اینترنت می تواند مزیتی برا ی آن محسوب شود اما به هر حال باید در نظر گرفت که همواره طراحان وب می توانند آنچه را که شما می بینید یا بازیابی می کنید دستکاری نمایند بنا براین کاربران نباید به راحتی هر آن چه می بینند را بپذیرند بلکه باید ایده های مختلف را به چالش بکشند ، آنان باید توان قضاوت در مورد کیفیت و صحت منابع را داشته باشند . به علاوه گسترش وب بیشتر از پهنا است و نه عمق . خوشبختانه بسیاری از منابع اطلاعاتی مورد انتقاد و ارزیابی قرار گرفته اند که این امربرای تشخیص کاربران بسیارمفید است. هرچند وجود واسطه میان منابع و کاربران در محیط وب حذف شده است ولی نیاز به آن احساس می شود.

ضرورت توصیف اطلاعات : ابر اطلاعات
آنچه که نیاز داریم داشتن اطلاعاتی در باره اطلاعات است که آن را ابر داده یا ابر اطلاعات می نامیم . در واقع ابرداده بر چسب های الکترونیکی است که در ورای ظاهر صفحات قرار داده می شود و به توصیف ساختاری و محتوای منبع اطلاعاتی می پردازد . شایان ذکر است که ابرداده تنها برای توصیف اطلاعات متنی نیست بلکه شامل اطلاعاتی در باره سایر فرمت ها ، مانند صوتی - تصویری، گرافیکی و .. می باشد.

نقش موتور های جستجو با آنکه موتور های جستجو و نمایه ها ، برخی ابزارهای ساخت یافته برای بازیابی اطلاعات خاص را در اختیار ما گذاشته اند اما از بسیاری جهات دارای نواقصی هستندآنها ممکن است در برخی موارد بیشتر از اندازه ای که واقعا نیاز است به نمایه سازی اطلاعات بپردازند و به دلیل عدم تشخیص نوع و ارزش اطلاعات دسترسی همسان به هر نوع اطلاعاتی فراهم سازند. با آنکه گوگل در بازیابی به میزان استنادات توجه دارد اما واقعیت اینست که موتور های جستجو توانایی استخراج اطلاعات تماما درست را ندارند. البته این امر می تواند به دلیل عدم رعایت استانداردها توسط وب سایت ها نیز باشد. اشکال دیگری که بر کار موتورهای جستجو وارد است آنستکه توانایی عمده آنها در نمایه سازی اطلاعات متنی است

بسیاری از آنها به انباشتن و انتقال اطلاعات می پردازند اما نمی توانند در درک اطلاعات نیز نقش داشته باشند. آنچه نیاز داریم علاوه بر دسترس پذیر کردن اطلاعات ، قابل درک کردن آنهاست. مشکل مدیریت اطلاعات هم جنبه فنی دارد و هم جنبه انسانی. دو راه حل وجود دارد: از نظر فنی، ایجاد ابزار های بهتر و استفاده بهتر از آنها از نظر انسانی، اصلاح مدل های ذهنی و تقویت ظرفیت برای تجزیه تحلیل ها و بازتاب های انتقادی. صلاحیت اصلی برای سواد اطلاعاتی اینست که عادت کنیم تفکر انتقادی داشته باشیم و از ابزار های شبکه ای برا ی تقویت آن بهره بجوییم.

بررسي مؤلفه هاي مؤثر بر ميزان بازيابي اطلاعات (جامعیت) و دقت بازيابي اطلاعات (مانعیت) در نظام هاي بازيابي اطلاعات وب مدار وب، همچون مغز بيکران همگاني است. مغزي که بسيار بيشتر از آنچه مغز يک انسان ميتواند در خود جاي دهد در خاطر دارد. خرد انباشته شده در وب ما را قادر ميسازد تا ابعاد تازهاي را تجربه کنيم. وب به عنوان بزرگترين بستر ضبط خلاقيت بشر مطرح است. ورود اينترنت به زندگي انسان و استفاده از آن به عنوان بستري براي تبادل، ذخيره و بازيابي اطلاعات، فرصتهاي بسياري از جمله ذخيره اطلاعات در محيطي نامحدود و بازيابي آن در اين محيط را در اختيار انسان قرار داده است. امّا سيل روز افزون توليد اطلاعات و گوناگوني محتواي موجود در وب به عنوان عمدهترين خدمت موجود بر روي آن، بازيابي اطلاعات را با مشکل مواجه ساخته است. انسان با تلاش براي کنترل

اطلاعات موجود در اين اقيانوس بيکران اطلاعات و اين مغز همگاني، سعي در بدست آوردن مربوط ترين اطلاعات موجود در اين محيط دارد و اين خود بزرگترين چالش عصر حاضر است. رشد مجموعههاي متن الكترونيك (براي مثال كتابخانههاي ديجيتال، وب و اينترانت) شديداً دشواري يافتن اسناد مربوط را افزايش داده است. مشكل سخت تعيين محل كردن بهترين اسناد مرتبط با نياز اطلاعاتي كاربر است. در عمل اين تعريف ارائه شده از ايزو، شامل نمايهسازي متن، تحليل پرسش، و تحليل ربط است؛ اين استاندارد، متن، جداول، نمودارها، گفتار، تصوير و ... را به عنوان داده مشخص ميكند. همچنين ابررسانه را به منظور تمايز بين متون ساختيافته به صورت غير خطي و متون (اسناد) خطي تعيين ميكند. اين استاندارد، اطلاعات را دانش مربوطي ميداند كه براي پيشرفت حل

مشكل و دانشيابي و ... است. همچنين موضوع را پيوند دهنده يك مفهوم در مقابل يك رشته كاراكتري(واژه) ميداند. مفاهيم بازيابي دادهها، بازيابي سند، بازيابي اطلاعات، و بازيابي متن اغلب با هم اشتباه گرفته ميشوند. هر كدام از اين مفاهيم پيكره از متون، نظريهها، كنشها و فناوريهاي مربوط به خود را دارد. نظامهاي بازيابي اطلاعات خودكار براي كاهش سرريز اطلاعاتي به كار ميروند. بسياري از دانشگاهها و كتابخانههاي عمومي نظامهاي بازيابي اطلاعاتي را براي دسترسي به كتب، مجلات، و ديگر اسناد به كار ميبرند. نظامهاي بازيابي اطلاعات اغلب با سؤال و موضوع مرتبطاند. پرسشها عبارات رسمي از نيازهاي اطلاعاتي هستند كه به وسيله كاربر در يك نظام بازيابي اطلاعات خودكار قرار ميگيرند. موضوعات ماهيّتهايي هستند كه اطلاعات را در يك پايگاه اطلاعاتي نگه داشته و يا ذخيره مي كنند. سؤالات كاربران با موضوعات ذخيره شده در پايگاههاي اطلاعاتي منطبق ميشوند.

يك سند بنابراين يك شيء دادهاي است
يك سند بنابراين يك شيء دادهاي است. اغلب خود اسناد مستقيماً در نظام هاي بازيابي نگه داشته يا ذخيره نميشوند، امّا در عوض در نظام به وسيله بدل اسناد نمايش داده ميشوند. از نگاه دايرهالمعارف بريتانيکا، بازيابي اطلاعات، استحصال اطلاعات، بخصوص در يك پايگاه اطلاعاتي ذخيره شده در رايانه است. در اين فرآيند، دو رويكرد اصلي عبارتند از انطباق واژگان در پرسش با نمايه موجود در پايگاه اطلاعاتي(جستجوي كليدواژهاي) و عبور كردن از پايگاه اطلاعاتي با بكارگيري پيوندهاي فرارسانهاي يا فرامتني. از قبلِ سالِ 1960، جستجوي كليدواژهاي رويكرد غالب در بازيابي يك متن بوده است. توسعة فنون بازيابي اطلاعاتي با ظهور موتورهاي كاوش، تركيب زبان طبيعي، فراپيوندها، و جستجوي كليدواژهاي نمود يافت. در اين پژوهش، مقصود از نظامهاي بازيابي وب مدار عبارتست از نظام هاي بازيابي اطلاعات موجود در وب که استحصال اطلاعات را موجب ميشوند.

مفهوم ميزان بازيابي اطلاعات يا جامعيت
ميزان جامعيت عبارتست از نسبت تعداد اسناد بازيابي شدة مربوط به تعداد كل اسناد مربوط موجود در مجموعه. به عبارتي ديگر، جامعيت نسبت اسناد مربوطي كه واقعاً بازيابي شدهاند، يا به عبارتي ديگر: جامعيت= نرخ موفقيت. مفهوم ميزان دقت بازيابي اطلاعات يا مانعيت ميزان مانعيت عبارتست از نسبت تعداد اسناد بازيابي شدة مربوط به تعداد اسناد بازيابي شده. مانعيت توانايي يافتن اسناد مربوط است. به عبارتي ديگر، مانعيت نسبت اسناد بازيابي شدهاي است كه واقعاً مربوط هستند. يا به عبارتي ديگر: مانعيت= نرخ پذيرش.

براي سنجش كارآمدي بازيابي اطلاعات، برخي از معيارهاي عملكرد وجود دارد
براي سنجش كارآمدي بازيابي اطلاعات، برخي از معيارهاي عملكرد وجود دارد. ميزان جامعيت، مانعيت و ريزش معيارهای عملکرد کارآمدی نظامهای بازیابی اطلاعات به شمار میروند. مؤلفههای مؤثر بر جامعیت و مانعیت در نظامهای بازیابی وب مدار از نگاه نگارنده سه مؤلفه کلی در برگیرنده جمیع عواملی است که بر میزان جامعیت و مانعیت در وب تأثیر میگذارد. این سه مؤلفه عبارتند از:

مؤلفه اوّل: نحوه بيان درخواست
بيان درخواست دقيق يا درخواست نامعلوم و فازي بر جامعيت و مانعيت تأثير ميگذارد. كليدواژهها را بايستي با شكل صحيح و در قالبي مناسب وارد كرد و در انتظار پاسخ از سوي نظام بود. امّا آيا هميشه كاربر ميتواند آنچه را در تفكر خود دارد در قالب كليدواژههاي مناسب به نظام عرضه كند؟ آنچه مسلم است اين است که کاربران تجارب، دانش، و مهارتهاي متفاوتي با يکديگر دارند. يک نظام بازيابي آرماني بايد قادر باشد کمال مطلوب کاربراني با شرايط مختلف را مهيا کند. براي اينكه كاربر بتواند نياز خود را با زباني قابل فهم براي نظام تبيين كند بايد مهارتها و دانش خاصي را نيز به كار بگيرد.

نياز به سه دانش ذهني و فني و معنايي را براي رسيدن به مقصود براي کاربر ضروري است .
· دانش ذهني: دانش مورد نياز براي تبديل يک نياز اطلاعاتي به يک درخواست قابل جستجو است، براي مثال" در مورد مجموعه گستري منابع اطلاعاتي الکترونيک چه اصطلاحاتي براي پيدا کردن اقلام اطلاعاتي بايد به کار گرفت؟" · دانش معنايي: چگونه و کي قابليتهاي موجود در نظام را بايد بکار برد؟ براي نمونه کي و چگونه دستور Browse يا Find را بايد به کار برد؟ · دانش فني: مهارتهاي اساسي بکارگيري رايانه و ترکيب درخواستهاي وارد شده بهعنوان عبارتهاي جستجوي خاص، براي نمونه بايد Smith John F. تايپ شود يا John F. Smith. هر يک از سه دانش فوق تأثير شاياني بر ميزان جامعيت نتايج بازيابي شده مي گذارد چرا که بکارگيري اين سه نوع دانش، افزايش ميزان اسناد بازيابي شده را سبب ميشود.

نكته قابل توجه اينكه نياز كاربر هميشه همان چيزي نيست كه در قالب سؤال آن را مطرح ميكند. همه كاربران قادر نيستند تا فضاهاي خالي ذهن خود را از يك مسأله به خوبي توصيف كنند. جهل كاربر نسبت به يك مسأله عمدتاً مرزي مشخص ندارد و به همين دليل است كه رفتار كاربران در حين جستجو تا حدي غير قابل پيشبيني میشود و ما از برخي از ابزارها براي مطالعه رفتار آنها استفاده ميكنيم. در مصاحبه مرجع به كاربر فرصت داده ميشود تا سؤال خود را دقيقاً بيان كند و طي اين فرآيند نياز او با فنون پرسش كاوي و مصاحبه توسط كتابدار مرجع روشن، بدون ابهام و قابل درك ميشود. در محيط وب، كاربر اين فرصت را ندارد تا نياز خود را به اين گونه بيان كند و رابطه فكري حاكم بر روابط كاربر و كتابدار در مصاحبه مرجع، ميان كاربر و نظام وجود ندارد، چرا كه نظام توان تفكر ندارد تا ببيند كاربر واقعاً به چه چيز نياز دارد. مسأله ديگر اينكه در مصاحبه مرجع، كتابدار نقش اساسي را در راهبري استراتژي جستجو دارد، امّا در وب اين امكان نيز در اختيار كاربر قرار

ندارد و او خود بايد استراتژي مناسب را بر اساس دانش و تجربه خود تدوين نمايد. نقش کتابدار در انتخاب توصيفگر يا كليدواژه تفاوت ديگري از اين دو روند است. در مصاحبه مرجع توصيفگرها و كليدواژهها با همياري كاربر و كتابدار صورت ميگيرد، امّا در وب اين كار بر عهده كاربر است و كاربر بايد خود به توصيف آنچه ميخواهد در قالب كليدواژه يا توصيفگر بپردازد. رویکردهای وب برای ایجاد بیان دقیق کدامند؟ موتورهاي كاوش فناوريهايي را دنبال ميكنند كه رفتار اطلاع يابي كاربر را در محيط وب به مصاحبه مرجع شبيه كنند تا كاربر جامعيت و مانعيت نياز خود را به خوبي مديريت كند. شاهد صادق اين شبيهسازي، تلاش براي بكارگيري هوش مصنوعي در نظامهاي بازيابي است. حتي برخي از کتابخانههاي الکترونيک با ايجاد خدمت "از کتابدار بپرس" سعي در آگاهي کامل از نياز کاربر دارند و بدين ترتيب کتابدار تلاش ميکند تا با بکارگيري مهارتها و دانش خود، به نياز کاربران پاسخ دهد. اما خدماتي مانند "از کتابدار بپرس" نيز به دليل اينکه خالي از جنبه بصري است،

فرآيند ارتباطي کاربر و کتابدار بدون زبان بدن صورت گيرد و اين نقص در ارتباط باعث نقص در فهم دقيق کتابدار از نياز کاربر ميشود. گاه در موارد خاص كاربر حرفهاي در صورت عدم بازيابي هيچ نتيجهاي بايد به بيان درخواست به صورت فازي مانند يك مبتدي بپردازد تا به كسب نتيجه منجر شود. به طور كلي هر چه فضاي تعامل بيشتر با كاربر ايجاد شود، از نياز او به صورت دقيقتري فرصت آگاهي يافتن مييابيم و به اين وسيله مرز نياز كاربر، مشخصتر ميشود. چنانچه ميتوانستيم رفتار كاربران را پيشبيني كنيم، به راحتي با تعريف چند متغير، تابعي از رفتار او را ترسيم كرده و سپس مطابق آن تابع به رفع نيازهاي او ميپرداختيم. در اينكه رياضيات زبان توصيف هستي است شكي وجود ندارد، امّا رفتار انسان، زباني نيست كه به راحتي توصيف شود و تحت سيطره رياضيات، توابع و الگوريتمهايش قرار گيرد.

ايجاد قالب مناسب براي واژهها به شيوههاي متفاوتي در وب صورت مي گيرد
ايجاد قالب مناسب براي واژهها به شيوههاي متفاوتي در وب صورت مي گيرد. در ادامه به برخي از رويکردهاي نظامهاي بازيابي در ابزار کاربردي متفاوت در وب براي کمک به بيان دقيق نياز اطلاعاتي کاربر به طور مختصر اشاره ميشود. اطلاعات درخواست شده (به وسيله كاربر) يا ارائه شده به وسيله متون ذخيره شده در پايگاه اطلاعاتي بايد بدون محدويت قابل بيان باشند. امكان تشخيص هر موضوع و هر جزء يا ريزه كاري از اطلاعات درخواستي نظام بايد مورد جستجو قرار گيرد. در اپكهاي وب بنياد، از سرعنوانهاي موضوعي و تكنيك مرور موضوعي براي قالب صحيح بخشيدن به شكل كليدواژههاي موجود در سؤال استفاده ميشود. در اپك كتابخانهها مانند اپک کتابخانه كنگره از سرعنوانهاي موضوعي كنگره استفاده ميشود که شامل شناسههاي موضوعي انتخاب شده و انتخاب نشده به صورت الفبايي است. كاربر با مرور اين شناسهها، شناسه مناسب نياز خود را انتخاب كرده و با كليك بر روي آن، به تمامي پيشينههايي كه در آنها اين شناسه وجود

دارد دست مييابد. نظام ارتباط موضوعي پيشينهها در اپکهاي وب بنياد باعث ميشود تا کاربر بتواند تمام پيشينههاي مربوط با نياز خود را به راحتي دنبال کند. در برخي از پايگاههاي اطلاعات تخصصي از اصطلاحنامههاي تخصصي براي اين امر استفاده ميشود. توسل به اين ابزار، مفهومي مشترك از ربط بين كاربر و نظام ايجاد ميكند و به كاربر اختيارات مناسبي در جامعيت و مانعيت بخشيدن نياز اطلاعاتي ميدهد. به واسطه توسّل به يك نظام سلسله مراتب موضوعي در پايگاههاي اطلاعاتي تخصصي و قرار دادن زيرتقسيمات موضوعاتِ ردهبنديهايِ موضوعي در منوهاي جستجو، ميتوانيم به كاربر نشان دهيم، نياز اطلاعاتي او در كجاي دانش تخصصي جاي دارد تا بدين وسيله به او کمک کنيم تا با اعم و اخص كردن نياز خود به نتايج بازيابي شده از سوي نظام جامعيت و مانعيت بخشد. راهنمای موضوعی موجود در وب نیز تقریباً همان وظیفه سرعنوانهای موضوعی در اپکهای وب بنیاد و اصطلاحنامهها در پایگاههای اطلاعاتی تخصصی ایفا میکنند.

براي پاسخگويي به نياز اطلاعاتي هر انساني شايد بهترين رويكرد، اين باشد كه طرح جامع دانش بشري (همان نظامهاي ردهبندي موضوعي) را به او نشان دهيم و از او بخواهيم تا فضاي مناسب نياز خود را براي نظام بازيابي با اين نظامها تشريح كند و سپس مدارك موجود در اين فضا را به او عرضه كنيم. اما اين امر نيز با مشکلاتي روبروست. پويايي دانش و روند رو به رشد علوم مختلف و پديد آمدن علوم بين رشتهاي مانع از آن ميشود تا بتوانيم در طرحي جامع دانش بشري را به طور ثابت نشان دهيم. شايد بزرگترين نقصي كه متوجه کليه اين روشها است، نياز كاربر به دانش فني و معنايي است و به دليل نياز به اين دو نوع دانش، بكارگيري اين ابزارها را با سختي مواجه كند، امّا در عوض به نيازهاي اطلاعاتي به صورت دقيقتري پاسخ داده ميشود. در اين كه كاربران سهلترين روشها را براي برآورده كردن نيازهاي اطلاعاتی خويش پي ميگيرند شكي وجود ندارد، اصل زيف يا اصل

کمترين تلاش، تصديقي بر اين سخن است
کمترين تلاش، تصديقي بر اين سخن است. ساده سازي روشهايي كه شروع و ادامه جستجو در آنها سخت است با محيط بسيار انعطاف پذير وب غير ممكن نيست. در اپکها و پايگاههاي اطلاعاتي تخصصي که از سرعنوان موضوعي يا اصطلاحنامه استفاده ميکنيم، چون براي كاربر فرصت ديدن ساير فضاهاي مربوط را ميدهيم، كاربر خود نياز را از غير نياز مشخص كرده و زبان تبيين نياز را به راحتي در اختيار ميگيرد. مانعيت، مزيت نظامهاي سلسله مراتب موضوعي است. از اين رو به كارگيري نظامهاي ردهبندي در بازيابي اطلاعات در پايگاههاي اطلاعات تخصصي كمك شاياني به كاربران مينمايد. در پايگاه هاي اطلاعات تخصصي، عمدتاً محدود كردن دايره جستجو با استفاده از علمگرهاي وابسته به موقعيت صورت ميگيرد و مانعيت در اين پايگاهها عمدتاً از اين طريق محقق ميشود. اما مسأله اصلي در بکارگیری سلسله مراتب موضوعی این است که به ردهبندي هر مدرك و به نيروي انساني متخصص در زمينه موضوعي براي اختيار كردن شناسههاي موضوعي صحيح نياز

است. امّا اين نيازها به تدريج با پيشرفت تكنولوژي از بين خواهد رفت و با حذف عامل انساني، به نحوي مطلوب فرآيندهاي لازم به وسيله طراحي نظامهاي خودكار قابل انجام است. مسأله دیگر ساختار پویای دانش بشری است. هر روزه علوم زیادی در قالب رشتههای بین رشتهای ظهور مییابند و لازمه پاسخگویی به نیازهای جدید کاربران، بازنگری لحظه به لحظه در ساختار این گونه سلسله مراتبهاست. مؤلفه دوّم: فناوريهاي موجود در نظام نظام وقتي با نيازهاي كاربر روبرو ميشود مسلّح به چه فناوريهايي است؟ اين فناوريها چقدر و چگونه به كاربر در پاسخدهي نياز اطلاعاتي او مؤثرند؟ اين سؤالات، سؤالاتي هستند که با پاسخ به آنها، نظام ميتواند در جامعيت و مانعيت بخشيدن به پاسخ کاربر به او کمک کند. فناوریها چگونه در میزان جامعیت و مانعیت دخالت میکنند؟

در موتورهاي کاوش، شايستگي روباتها براي كشف و نمايهسازي اسناد به طور خودكار، بهبود جامعيت را ممكن ميسازد. روباتها تواناييهاي متفاوتي در نمايه سازي اسناد موجود در وب دارند. طبق اطلاعات، تا ژانويه 2005، بيش از 5/11 ميليارد صفحه در وب وجود داشته است. اما ميزان صفحات نمايهسازي شده توسط موتورهاي کاوش از اين مقدار کمتر است و اين مقدار در حدود 4/9 ميليارد صفحه يا حدود 82 درصد از صفحات موجود در وب است. گوگل با بيشترين تعداد صفحات نمايه سازي شده در بالاترين مکان قرار گرفته است. اين مسأله حاکي از اين است که ميزان جامعيت در اين موتور کاوش از همه موتورهاي کاوش بيشتر و روبات نمايه ساز آن شايستگي بيشتري از روباتهاي موتورهاي کاوش ديگر دارد.

برخي محققان اينگونه بحث ميكنند كه تقريباً ارزيابي جامعيت در موتورهاي کاوش غير ممكن است چرا که پوشش وب به وسيله موتورهاي جستجو ناقص است و وب بسيار بزرگ و بدون ساخت است. از طرفي ديگر تعداد كل اسناد مربوط موجود در وب با تخمين دقيقي قابل بيان نيست و اين امر باعث ميشود تا جامعيت موتورهاي کاوش غير قابل سنجش شود. اكثر مطالعات اختصاص يافته به ارزيابي عملكرد موتورهاي كاوش متفاوت معيارهاي ذيل را مورد توجه قرار ميدهند: مانعيت، سطح پوشش وب، و همپوشاني دربين اسناد بازيابي شده. اما برخي مطالعات همچنين جامعيت و زمان پاسخ كه سرعت موتورهاي جستجو است را بررسي ميكنند. در يک ارزيابي از موتورهاي کاوش خاطر نشان ميكند: "در ارزيابيهاي انجام شده تأكيد عمده بر معيار مانعيت است كه مبتني بر قضاوت ربط براي10 نتيجه منطبق در ابتداي هر موتور جستجو است. همپوشاني اسناد بازيابي شده و زمان پاسخ هر موتور جستجو نيز مورد مطالعه قرار گرفت. تعداد نتايج بازيابي شده به وسيله هر موتور جستجو ثبت شد."

رويكردهايي که بايد مورد نظر قرار گيرد بايد شامل يک راه حل مركب باشد تا در آن جامعيت و مانعيت به حداكثر برساند. امّا ماهيت مفهوم جامعيت و مانعيت سبب ميشود، نظامهاي بازيابي توفيقات چنداني در افزايش هر دو به صورت همزمان به دست نياورند. از طرفي چنانچه بخواهيم، براي افزايش ميزان مانعيت اسناد مربوط بيشتري را بازيابي کنيم، ميزان جامعيت تحت تأثير قرار ميگيرد. کاربر ميتواند با استفاده ترکيبي از ابزار مختلف در وب، يا به عبارتي ديگر استفاده همزمان از اين ابزارها مانند استفاده همزمان از موتورهاي کاوش و ابر موتورهاي کاوش جامعيت و مانعيت را همزمان کنترل نمايد. البته اين کار در دو رابط و به وسيله دو ابزار صورت ميگيرد، اما تلفيق قابليتهاي ابزارهاي مختلف، مهار همزمان جامعيت و مانعيت را براي کاربر ممکن ميکند. اين بستگي به كاربر دارد كه چه تعداد سند را او ارزيابي كند. بسته به تعداد اسناد ارزيابي شده، يك رابطه جايگزيني بين جامعيت و مانعيت وجود دارد. هر چه اسناد بيشتري را كاربر نگاه كند،

اسناد مربوط بيشتري متعاقباً ظاهر خواهد شد و جامعيت بالاتر خواهد بود
اسناد مربوط بيشتري متعاقباً ظاهر خواهد شد و جامعيت بالاتر خواهد بود. از سوي ديگر، از آنجا كه اسناد غير مربوط زيادي نياز به ارزيابي دارند نرخ مانعيت نزول خواهد كرد. يك پرسش از يك نظام بازيابي اطلاعات مركب از يك سلسله كلمه است. اين كلمات به وسيله عملگر بولي و برخي ويژگيهاي اضافي خاص مانند عملگرهاي وابسته به موقعيت تركيب ميشوند. نظر به اينكه هيچ تحليل زباني از معاني متون ذخيره شده يا پرسش ها وجود ندارد، نظامهاي بازيابي اكثراً سعي در استقلال حيطه دارند و در حيطه خاصي به بازيابي اطلاعات ميپردازند و بدين اسلوب به مربوطترين اسناد دست مييابند و با کار در حيطه خاص، موجب ايجاد مانعيت نتايج براي کاربران ميشوند. رويکرد قابل توجه در اين زمينه، رويکرد پروتالهاست. برخورداري از امکان جستجو براي پورتالي که درگاهي به مجموعه وسيعي از وب سايت هاي مرتبط است از جمله امکانات حياتي محسوب ميگردد.پورتالهاي موفق علاوه بر اينکه درمعرض ديد موتورهاي جستجوگر بيروني مانند (Yahoo) هستند، از امکان جستجوي داخلي نيزبهرهمند ميباشند که با

توجه به وسعت اطلاعات عرضه شده درپورتال از جمله امکانات حياتي براي دسترسي به اطلاعات آن ميباشد و علاوه بر اين مهار، زمانبندي نمايهسازي و تنظيمات موتورجستجوگر براي ارائه خدمت به مراجعه کنندگان، در اختيار خودآنهاست. در واقع موتورهاي جستجوگر بيروني، جستجوگراني که ازپورتال شما مطلع نيستند را به پورتال شما ميرساند، ولي موتورجستجوگر داخلي به کاربر پورتال کمک ميکند تا بصورت دقيق درانبوه اطلاعات پورتال به اطلاعات مورد نظر خود دست يابد. برخي از ويژگيهاي پروتال که در افزايش جامعيت و مانعيت نتايج مي توانند مثمر ثمر واقع شوند عبارتند از: 1. دسته بندي وب سايتهايي که نمايه سازي ميشوند و امکانارائه خدمات جستجو بصورت يک وب سرويس به وب سايتهاي تابعه از طرفپورتال؛ 2. دسته بندي نتايج يافت شده بر حسب وب سايتهاي تابعه پورتال؛

3. بهره مندي از روال رتبه بندي نتايج جستجو به طوري که صفحاتو اسناد با ارتباط بيشتر، رتبه بالاتري در خروجي جستجودارند؛ 4. بهره مندي از جستجوي پيشرفته با قابليتهايي نظير محدودکردن جستجو به يک يا چند وب سايت از وب سايتهاي زير مجموعه پورتال؛ 5. جستجوي منطقي بصورت ترکيب عطفي، فصلي و يا نفي از منطق بولي؛ 6. پشتيباني از stop words براي مشخص کردن کلمات و ياعباراتي که لازم نيست در نتيجه جستجو ظاهر شوند، مانند حروف اضافه "و"، "از"، "به" ، ... . به طور کلي برخي رويکردهاي نو در نظامهاي بازيابي اطلاعات در وب امکان ايجاد جامعيت و مانعيت را به طور خودکار به وجود ميآورند. برخي از اين رويکردها عبارتند از: هوش مصنوعي، پرسش به وسيله مثال

، پرسش به وسيله مثال پردازش زبان طبيعي، جستجوي مبتني بر مفهوم
، پرسش به وسيله مثال پردازش زبان طبيعي، جستجوي مبتني بر مفهوم. ، بسط پرسش، خلاصههاي خودكار،، منطق احتمال به دليل مطرح شدن اين مسائل در بسياري از متون، ما از پرداختن به جزئيات اين رويکردها پرهيز ميکنيم اما در اينجا قابل ذکر است که هر کدام از اين رويکردها، همگي مجموعه امکاناتي هستند که فناوري براي ايجاد جامعيت و مانعيت و سرعت دسترسي به مطالب مربوط ايجاد مي کند. به طور کلي فناوريهاي موجود در نظامهاي بازيابي اطلاعات وب مدار امروزي با اعمال اين فنون، بر ميزان جامعيت و مانعيت تأثير مي گذارند:بكارگيري سياهه واژگان غير مجاز، و عملگرهاي بولي. در نمايهسازي، بكارگيري الگوريتمهاي ريشهيابي، بكارگيري نمايهسازي عبارتي، بكارگيري واژگان كنترل شده در نمايهسازي، بسط سؤالات كاربران با بكارگيري مترادفات، عمق نمايه سازي و ويژگي، عملگرهاي وابسته به موقعيت

مؤلفه سوّم: استنباط نظام و کاربر از مفهوم ربط
استنباط نظام از مفهوم ربط چيست؟ اين مفهوم چقدر به مفهوم موجود در ذهن كاربر نزديك است؟ سياستهاي رتبهبندي كدامند؟ نظام چگونه سعي ميكند مفهوم ربط را كه بر خودش اعمال ميشود به مفهوم ربط در ذهن كاربر نزديك كند؟ اين سؤالات، سؤالات اساسي مطرح در اين مؤلفه هستند. ابزار و رویکردهای به کارگرفته شده براي پاسخگويي به اين سؤالات، تأثير مستقيم بر ميزان جامعيت و مانعيت نتايج بازيابي شده ميگذارد.

ربط عامل حاکم بر تأثير هر فرآيند ارتباطي است
ربط عامل حاکم بر تأثير هر فرآيند ارتباطي است. از آنجا که هدف بازيابي اطلاعاتي برقراري ارتباط است، از اين رو ربط هم کليد جدايي ناپذير بازيابي مؤثر است. ربط را ميتوان ملاک توفيق بازيابي دانست. ربط مقياس مؤثر بودن ميان منبع اطلاعات و دريافت کننده است. ربط کيفيتي انتزاعي است، کيفيتي يگانه ميان فرد و مدرکي معين که پشتيبان اين پذيره است که آن را تنها کاربر اطلاعات ميتواند داوري کند. ربط کيفيتي فردي دارد که به وضعيت شناختي کاربر، مشکلي بايد گشوده شود، دانش قبلي از همان موضوع، فوريت کاربرد دانش جستجو شده و ارزشي که به اطلاعات نهاده ميشود بستگي دارد. (پائو، 1378) جامعيت و مانعيت، مفاهيمي مجرد و معيارهاي عينيِ يك نظام بازيابي اطلاعات نيستند، بلکه اين مفاهيم، مفاهيمي است که خود بر پايه مفهوم گستردهاي چون مفهوم ربط شکل گرفته است و نيز : 1-تعريف ربط بين اسناد و سؤالات يك مفهوم ذهني است و نه يک مفهوم عيني، و

2-حتي اگر ربط يك سند به اتفاق آرا مورد قبول واقع شود، اگر كاربر خاصي سند را دريابد، آن سند ممكن است مورد علاقه او نباشد. در شکل1، سعي بر آن است که ملاک هاي ربط از نظر کاربر تشريح شود. هر چند اين عوامل به خوبي گوياي تمامي مسائل موجود در ذهن کاربر براي تشخيص ربط نيست، اما پژوهشگر کوشيده است تا جلوهاي از برخي از اين عوامل را به تصوير بکشد. در شکل2، نظام توزين در نظامهاي بازيابي اطلاعات وب مدار ترسيم شده است و خواهيم ديد که اين نظامها ربط را چگونه تفسير ميکنند و ملاکهاي مربوط بودن اسناد از نظر آنها را از نظر ميگذارنيم. حال به مقايسه اين دو مدل ميپردازيم و خواهيم ديد که نظامهاي بازيابي وب مدار چگونه سعي ميکنند اطلاعات مربوط با نيازهاي اطلاعاتي کاربران را در اختيار نهند و کاربران در مقابل، در هنگام مرور اسناد بازيابي شده به چه عواملي توجه ميکنند. در اين دو مدل ديده ميشود که آنچه ملاک ربط براي کاربر است با آنچه ملاک ربط از نظر نظام است به طور آشکار متفاوت است. لازم به ذکر است که اين

مدلها، هر دو کاملاً گوياي مؤلفههاي مؤثر بر ميزان ربط در نظام و در ذهن کاربران نيستند و تنها پژوهشگر با نيت نشان دادن تفاوت اين دو مفهوم در نظام و در ذهن کاربر آنرا به اين صورت به تصوير کشيده است.

در شکل 2، مقصود از بسامد نسبي اين است که هر چه عبارت يا واژه بيشتر ظاهر شود وزن بيشتري دارد و مقصود از نزديكتر به بالا، اسنادي كه اصطلاحات موجود در پرسش را در آدرس صفحه اينترنت يا در عنوان وزن بيشتري دارند. همچنين محل کلیدواژه و محبوبیت وب سایت تأثیر شایانی بر نحوه رتبه بندی موتور کاوش دارد. در موتور کاوش اینفوسیک و هات بات وجود کلیدواژه در متاتگ باعث میشود تا مدرک رتبه بالاتری را به خود اختصاص دهد در حالی که اکسایت متاتگ را بررسی نمیکند و وب کراولر بر اساس میزان محبوبیت وب سایت آنرا رتبه بندی میکند (کلارک، 2000). عوامل موجود در شکل2، سیاستهایی است که موتورهای کاوش برای رتبه بندی اعمال میکنند. وقتي در مورد ربط اسناد توافق ميشود، جامعيت و مانعيت ميتواند براي مقايسه كارآيي دو نظام بازيابي بكار برده شود. بطور كلي امروزه چندين رويكرد براي بهبود نظامهاي بازيابي وجود دارد به خصوص رويكردهايي كه گرايش به تحليل ربط دارند. (كوشمن، 2004).

ممكن است در برخي مطالعات، براي ارزيابي نتايج، استانداردهاي جامعيت و مانعيت نظام بازيابي به كار برده شود، اما نرخ اين دو بر مبناي رضايت كاربر از نتايج كسب شده است. بنابراين مشكل اصلي نظامهاي بازيابي اطلاعات، سنجش ميزان ربط اطلاعات ذخيره شده يا ارتباط بين اطلاعات درخواست شده و اطلاعات بازيابي شده است. به عبارتي ديگر، با ارائه يك سؤال به نظام، نظام بازيابي بايد بررسي كند كه آيا اطلاعات ذخيره شده مربوط به پرسش است يا نه. به طور معمول، اين مشكل با سازماندهي پايگاه اطلاعاتي همچون يك فايل معكوس از كلمات مهم كه در متون ذخيره شده قرار گرفته است حل ميشود. براي مثال، فايل معكوس محلي را كه كلمه در آن واقع شده تعيين ميكند (لگر، 1996)، اما ايهام و استعارات پشت واژگان و نقص بيان مفاهيم با برخي واژگان، عملاً اين شيوه را شيوهاي نامؤثر جلوه ميدهد و ضرورت وجودي وب معنايي را گوشزد ميکند.

نتيجهگيري سيل روز افزون توليد اطلاعات و گوناگوني محتواي موجود در وب، بازيابي اطلاعات را با مشکل مواجه ساخته است. انسان با تلاش براي کنترل اطلاعات موجود در وب سعي در بدست آوردن مربوط ترين اطلاعات موجود در اين محيط دارد. رويكردهاي امروزي براي بهبود نظامهاي بازيابي رويكردهايي هستند كه گرايش به تحليل ربط دارند و مشكل اصلي نظامهاي بازيابي اطلاعات، سنجش ميزان ربط اطلاعات ذخيره شده يا ارتباط بين اطلاعات درخواست شده و اطلاعات بازيابي شده است. از نظر پژوهشگر، نحوه بيان درخواست، فناوريهاي موجود در نظام، استنباط نظام و کاربر از مفهوم ربط، عمدهترين مؤلفههاي مؤثر بر ميزان جامعيت و مانعيت اطلاعات در نظامهاي بازيابي وب مدار است. رويکردهاي زيادي براي پرداختن به اين مؤلفهها از سوی نظامهای بازیابی اطلاعات دنبال ميشود تا به بيان دقيق درخواست کاربر کمک کند، فناوريهاي مناسب و سهل

الاستفاده را به کار گيرد و مفهوم ربط در نظام و ذهن کاربر را به يکديگر نزديک کند. به دليل ماهيت انعطاف پذير وب، پرداختن به اين مسائل اهميت شاياني در عصر حاضر دارد و هر گونه پیشرفتی در راستای بهبود هر یک از این مؤلفهها کاربران را بازیابی بهینه اطلاعات یاری خواهد کرد.

هوشمندسازي سيستم بازيابي اطلاعات
هدف اين روش، تصحيح بردار درخواست كاربر، با توجه دانش محلي موجود در سيستم بازيابي اطلاعات است. شبكه عصبي را مي‌توان يك تابع غيرخطي دانست كه وظيفه آن درونيابي و يا برونيابي است. اين تابع مي‌تواند با توجه به دانشي كه در مرحله آموزش كسب نموده است، خروجي قابل قبولي در دامنه ورودي مجاز داشته باشد. به عنوان مثال مي‌‌توان يك نقطه در درون و يا بيرون نقاطي كه در مرحله آموزش به شبكه داده شده است، محاسبه نمود. اين نقطه با توجه به دانش موجود توسط تابع غيرخطي شبكه عصبي تخمين زده مي‌شود. با توجه به عدم قطعيت و ابهام ذاتي موجود در سيستمهاي بازيابي اطلاعات استفاده از سيستمي كه با بهره‌گيري از دانش زمينه

بتواند كاربر را در ساخت درخواست مناسب، راهنمايي نمايد، ضروري به نظر مي‌رسد. در حقيقت اين سيستم مانند يك ناظر خبره، بر درخواستهاي رسيده از كاربران نظارت مي‌نمايد و در صورت نياز، با تصحيح بردار درخواست، كاربر را در بدست آوردن نتيجه مطلوب راهنمايي مي‌نمايد. مطالعات اخير در زمينه هوشمندسازي بازيابي اطلاعات، به اين نتيجه رسيده است كه براي بهبود كارآيي سيستم بازيابي اطلاعات، احتياج به تكنيكهايي است كه محتواي درخواستها و مدارك را درك كنند. اخيراً محققان تئوري اطلاعات سعي بر اين داشتند كه رابطه ميان مدارك و درخواستها را مشخص كنند. هدف اين است كه درخواست كاربر طوري تطبيق پيدا كند كه اطلاعات مورد درخواست كاربر را در مجموعه محلي مدارك پياده‌سازي نمايد.

پايه و اساس تطبيق درخواست اين است كه درخواستهاي مشابه داراي مجموعه مدركهاي مشابه هستند. با استفاده از اطلاعات مدركهايي كه با درخواستهاي قبلي مشابه بوده‌اند، مي‌توان مدارك مشابه با درخواستهاي جديد را بدست آورد. تغيير شكل درخواست همانند شخص خبره عمل مي‌كند. به عبارت ديگر سيستم ناظر شبكه عصبي حضور شخص خبره را شبيه‌سازي مي‌كند. در شكل 3 مدل كلاسيك (شكل 3- ب)، با مدل هوشمند (شكل 3- الف) مقايسه شده است سيستم هوشمند داراي مبدل درخواست T مي‌باشد كه با توجه به دانش مجموعه، درخواست را بازسازي مي‌كند.

كاربرد اين سيستم در مجموعه مداركي كه دسته‌بندي شده باشند، بهتر نمايان مي‌گردد. بدين صورت كه مثالهاي آموزشي، براحتي و بطور خودكار، از شاخه‌‌هاي موجود در مجموعه استخراج

مي‌گردد. هر مثال آموزشي شامل چند كلمه كليدي (درخواست) و مجموعه مدارك مرتبط با كلمات كليدي است.
سيستم هوشمند در دو فاز عمليات بازيابي را انجام مي‌دهد. ابتدا مرحله يادگيري و آموزش ماشين است، در اين مرحله بايد يك ليست از درخواستها (بردارهاي درخواست) و جواب آنها (ماتريس مدارك جواب درخواست) به سيستم داده شود. در اين مرحله سيستم شبكه عصبي دانش زمينه‌اي مجموعه را كسب مي‌نمايد. فاز دوم، فاز بكارگيري و آزمايش سيستم هوشمند است، در اين فاز سيستم هوشمند مانند ناظر، درخواستهاي كاربر را پذيرفته و آنها را بهينه‌سازي مي‌كند و سپس سيستم كلاسيك مانند قبل، بروي درخواست تغيير يافته، عمليات محاسبه شباهت را انجام مي‌دهد.

شكل 4 سيستم هوشمند را در دو فاز يادگيري و بكارگيري نشان مي‌دهد
شكل 4 سيستم هوشمند را در دو فاز يادگيري و بكارگيري نشان مي‌دهد. همانطور كه مشاهده مي‌گردد سيستم از چهار قسمت تشكيل شده است: پردازشگر درخواست: در اين قسمت از سيستم، درخواست پردازش مي‌گردد تا به بردار تبديل گردد. در اين مرحله از شاخص و وزن‌دهي استفاده خواهد شد و يا ممكن است براي سرعت بيشتر از مدل منطقي استفاده شود. بنابراين خروجي اين مرحله بردار درخواست است. 2- پردازشگر مدرك: اين قطعه از سيستم، مدارك را مورد پردازش قرار مي‌دهد و براي

هر مدرك يك بردار از وزنها، ايجاد مي‌نمايد بنابراين خروجي اين قطعه از سيستم، ماتريس كلمه-مدرك مي‌باشد. 3- مقايسه‌گر: اين قطعه از سيستم، بردار درخواست را با تمام بردارهاي مدارك مقايسه مي‌نمايد، و يك ليست ارزش‌گذاري شده از مدارك شبيه را تهيه نموده به كاربر ارايه مي‌نمايد. 4- شبكه عصبي: وظيفه شبكه عصبي تغيير بردار درخواست كاربر با توجه به دانش كسب شده، در مرحله آموزش مي‌باشد. اين بردار به عنوان خروجي اين مرحله به مقايسه‌گر داده

براي آنكه سيستم هوشمند بتواند بخوبي عموميت بخشي را در دانش مجموعه ايجاد نمايد، مثالهايي كه جهت آموزش سيستم انتخاب مي‌گردد، بايد از تمامي دامنه مجموعه باشد. براي كار‌آيي بهتر مي‌توان، مدارك مجموعه را دسته‌بندي نمود و سپس از هر دسته مدارك شبيه، يك نماينده كه عموميت بيشتري دارد در آموزش شبكه عصبي شركت كند. در شكل 5 نتيجه آزمايش اين روش بروي مجموعه مدارك CranField مشاهده مي‌گردد، در اين نمودار نتيجه روش كلاسيك با روش هوشمند مقايسه مي‌گردد. اين مجموعه داراي 1400 مدرك و 225 مثال آموزشي است. تعداد كلمات كليدي كه در بيش از يك مدرك ظاهر شده‌اند

حدود 4400 كلمه مي‌باشد.در عمل براي آموزش شبكه عصبي مي‌توان از فهرستهاي موضوعي بيشترين بهره را براي، آموزش شبكه عصبي بدست ‌‌آورد. بدليل دسته‌بندي اطلاعات در اين فهرستها، بهترين جواب در آموزش سيستم بدست خواهد آمد.

نتيجه‌گيري با مشاهده خروجي سيستم هوشمند به اين نتيجه مي‌رسيم كه سيستم هوشمند داراي كار‌آيي بالاترين نسبت به سيستم كلاسيك مي‌باشد. اين نتيجه با نظارت بر درخواست كاربر جواب بهتري را فراهم آورده است. زيرا بردار درخواست با دانش زمينه تطبيق داده شده و بهينه‌سازي مي‌گردد، به عبارت ديگر سيستم هوشمند با درك معناي درخواست، در صورت نياز آن را بهينه‌سازي مي‌نمايد.مدل هوشمند برخي مشكلات مدلهاي كلاسيك را حل كرده است:

• الزامي ندار كه درخواست ساختاري مانند مدرك داشته باشد تابع مبدل T (شكل 3) درخواست را پيكربندي مي‌كند، تا شباهت قابل محاسبه و سنجش باشد. • كاربر ملزم نيست كه درخواست خود را به طور كامل، از محتوايي كه مي‌خواهد بيان كند، تابع مبدلT، با استفاده از دانش محيط، درخواست را تغيير شكل خواهد داد، و درخواست را در فضاي مدارك قرار خواهد داد. • يك مدل هوشمند مي‌تواند براي محاسبه شباهت استفاده شود، كه رابطه ميان درخواستها با مدركهاي مشابه را با استفاده از بازخورد كاربر مورد محاسبه قرار دهد. موقعيت مدرك در فضاي مدارك، نسبت به تصميم كاربر تغيير خواهد كرد.

بايد توجه كرد كه مدل هوشمند، در صورتي پاسخ مناسب و صحيح خواه داد كه در فاز آموزش با مثالهاي جامع، يادگيري انجام شده باشد در غير اينصورت ممكن است نتيجه مناسبي حاصل نگردد بنابراين پيشنهاد مي‌گردد، كه سيستم هوشمند در صورتي مورد استفاده قرار گيرد، كه درخواست رسيده داراي تاريخچه‌اي در زمان آموزش باشد، به عبارت ديگر در صورتي از سيستم هوشمند استفاده شود، كه درخواست داراي مثال‌هاي مشابي در زمان آموزش باشد، در غير اينصورت از سيستم كلاسيك بدون تغيير درخواست، استفاده گردد و بازخورد اين درخواست مجدداً سيستم را تعليم دهد. يعني با توجه به انتخاب كاربر، مي‌توان با مجموعه‌اي از مثال‌هاي آموزشي سيستم را مجدداً تعليم داد.

با تشکر موفق و سربلند باشید
با تشکر موفق و سربلند باشید

موضوع پروژه : بازیابی اطلاعات Information Retrieval

Similar presentations

Presentation on theme: "موضوع پروژه : بازیابی اطلاعات Information Retrieval"— Presentation transcript:

Similar presentations

About project

Feedback

Log in

Auth with social network:

موضوع پروژه : بازیابی اطلاعات Information Retrieval

Similar presentations

Presentation on theme: "موضوع پروژه : بازیابی اطلاعات Information Retrieval"— Presentation transcript:

Similar presentations

About project

Feedback