انباره داده Data Warehouse
پرسشهای مبحث : مزایای DWHچیست؟ ویژگی داده های موجود در DWH چیست؟ Data Warehouse چیست؟ ویژگی داده های موجود در DWH چیست؟ مزایای DWHچیست؟ عوامل موفقیت طراحی و راه اندازی DWH در سازمانها چیست؟ عوامل ریسک DWH چیست؟ انواع داده در DWH چیست ؟ OLAP , OLTP چیست ؟
مفهوم انبار داده ها یک Data Warehouse برنامه ای کاربردی است که با یک پایگاه داده کار میکند و وظیفه آن گردآوری و ذخیره اطلاعات بصورتی است که بتوان از این اطلاعات در زمان مناسب در امور مدیریت استفاده نمود. مهمترین مورد استفاده Data Warehouse، در Data Mining است. تكنولوژي انبار دادهها شامل مجموعهای از مفاهيم و ابزارهای جديدی است كه با فراهم آوردن اطلاعات از دانشگران (افراد اجرايي، مدير و تحليلگر) تصمیم گیرنده را در تصميم گيری پشتيباني مينمايد.
DWH چیست؟ DWH ها در واقع نوعی از سیستم های اطلاعاتی هستند و تفاوت آنها با سیستم های عملیاتی این است که سيستمهای عملياتي از فعاليتهای روزانه كسب و كار پشتيباني مينمايند و برای پاسخگويي سريع به ارتباطات از پيش تعريف شده مناسب هستند. دادههای عملياتي ارائه بيدرنگ و فعلي وضعيت كسب و كار ميباشند. اما سيستمهای اطلاعاتي براي مديريت و كنترل كسب وكار به كار ميروند. اين سيستمها از تجزيه و تحليل دادهها براي اتخاذ تصميم درباره عملكرد آني و آتي سازمان پشتيباني ميكنند و برای در خواستهاي موردی، پيچيده و به طور عمده فقط خواندني طراحي شدهاند.دادههاي اطلاعاتي تاريخي هستند، به عبارتي بيانگر ديدگاه ثابتي از كسب وكار در يك دوره زماني ميباشند.
ويژگيهاي اصلي دادههای DWH دادههای موجود در انبار دادهها از سيستمهای عملياتي متنوع (سيستمهاي پايگاه دادهها) و منابع دادهای خارجي (دادههای آماری و وب ) يكپارچه ميشوند. تفاوتهای ساختاری ومعنايي دادهها بايد پيش از يكپارچه سازی مشخص و منسجم شود. داده های تاریخی در انبار داده ها برای درک و شناخت جهت گیری داده ها و شناخت و نحلیل روند کسب و کار ذخیره می شود. . DWH دادههای ديگری به نام دادههای اشتقاق يافته (derived data) دارد. اين دادهها به طور صريح در منابع عملياتي ذخيره نميشوند، بلكه در حين بعضي از فرايندها از دادههای عملياتي، اشتقاق مييابند.
بعنوان بستری جهت انجام تحلیل های پیچیده مورد استفاده قرار می گیرد. مزایای Data Warehouse بعنوان بستری جهت انجام تحلیل های پیچیده مورد استفاده قرار می گیرد. برای پاسخ به سوالاتی نظیر What-If ، شبیه سازیهای مهم نظیر معرفی محصولی جدید به بازار ، تعین سودآورترین محصولات ایجاد بستری برای انجام عملیات پیچیده جهت دست یابی به نتایج مهم در کوتاهترین زمان مورداستفاده بعنوان بستر برای DSS و Expert System بعنوان بستری برای پاسخگویی به سوالات ایجادشده است که این کار از طریق پاسخگویی متوالی به سوال پیشین صورت می گیرد، و جستجوهای پیچیده و عملیات یکپارچگی روی سوالات پیشین منجر به حصول نتیجه می شود.
مزایای Data Warehouse کمک به ایجاد درک ، دانش و نگرش مفهومی در مدیران کمک به ایجاد درک ، دانش و نگرش مفهومی در مدیران کمک به حل مسایل نیمه ساختاریافته کمک به تست فرضیات در مدیران میانی و سطح بالا کمک به ساخت و ایجاد مدل و تست بر روی آن بعنوان بستری برای کنترل فرآیند تصمیم گیری مدیریتی دارای معماری انعطاف پذیر بستری برای داده کاوی (DM) و استفاده از نتایج برای شبکه های عصبی و هوش مصنوعی
عوامل موفقیت طراحی و راه اندازی Data Warehouse در سازمان توجیه منطقی و محکم درسطح سازمان : جهت انجام پروژه بایستی سودهای قابل اندازه گیری تعریف شده باشند (مثل افزایش فروش) .راه اندازی Data warehouse گران بوده و پروژه بایستی قادر به اندازه گیری سود به دست آمده باشد. آموزش مناسب کارکنان قانع نمودن مدیران
عوامل موفقیت طراحی و راه اندازی Data Warehouse در سازمان اطمینان از کیفیت و یکپارچگی اطلاعات و منابع اطلاعاتی حفظ امنیت برای داده ها تعریف چشم انداز کوچکتر برای شروع کار درگیر نمودن کاربر نهایی در طراحی و راه اندازی DWH برنامه ریزی و ایجاد زیرساخت درست ایجاد مدل مناسب برای داده ها انتخاب درست ابزار و تکنولوژی
عوامل ریسک Data Warehouse عدم حمایت کافی مدیریت ارشد عدم همکاری پرسنل سازمان کمبود متخصص مورد نیاز عدم بررسی و تجدید زیرساخت و ساختار IT عدم هماهنگی تکنولوژیکی DW با زیرساخت IT عدم ایجاد ظرفیت کافی و امکانات سخت افزاری مناسب برای ذخیره سازیهای عظیم داده ها ناهماهنگی های بین منابع داده ، نظیر دادهای Transactional ازنظر ساختار ، واحدهای اندازه گیری ، نام گذاری و ....
مشکلات سیستم DWH زمان طولانی باید برای آماده سازی سازمان جهت پیاده سازی و استفاده از DWH سیستم های DWH ممکن است موجب پیچیدگی شدید در پروسس های سازمان و کسب و کار گردد. DWH بدلیل داشتن فضای بالا می تواند به محیطی از داده های فاقد ارزش سازمانی مناسب تبدیل شود. سیستم های DWH نیاز به نگهداری زیادی دارد. بسیاری کاربردهای استراتژیک DWH زمان عمر کوتاهی دارند.
Life cycle در Data Warehouse فاز اول امکان سنجی یک آنالیز سود و زیان بوده که هزینه و سودهای واقعی را برای Data warehouse قابل اندازه گیری و محاسبه می نماید. فاز دوم آنالیز سیستم یک تشریح منطقی ار منابع داده ها برای Warehouse ، آنالیز استخراج داده ها، آنالیز اصلاح داده ها و استخراج داده ها می باشد. فاز سوم طراحی سیستم پیاده سازی فیزیکی مدل منطقی داده ها بوده که در فاز انالیز سیستم توسعه یافته است .
Life cycle در Data Warehouse فاز چهارم ، پیاده سازی در این فاز Warehouse نوشته شده و نرم افزار نیز نوشته و تست شده است. فاز پنجم نگهداری فاز نهائی ایجاد Warehouse می باشد . این فاز شامل به روز کردن داده ها و آنالیز نیازهای جدید کاربران می باشد.
انواع داده در Data Warehouse داده جاری : داده های فعلی منابع عملیاتی داده قدیمی: داده های قدیمی منابع اطلاعاتی فراداده (Meta Data) اطلاعات مربوط به داده ها یک دیکشنری از اطلاعات پایگاه داده راهنمائی جهت انتقال داده از محیط عملیاتی به محیط پایگاه داده تحلیلی قواعد استفاده شده برای خلاصه سازی
موارد تفاوت انبارداده( DW ) و پایگاه داده ( DB) وظيفه اصلی سيستم های پايگاه داده online، پشتيبانی از تراکنش های online و پردازش query است. ولی DW ها مي توانند داده را در قالبهای مختلف برای هماهنگ کردن نيازهای مختلف کاربران وشناسائی ارتباط داده های مختلف سازماندهی و ارائه کنند. مقدار داده های يک پايگاه داده در حدود چند مگابايت تا چند گيگابايت است در حالی که اين مقدار در DW در حدود چند گيگابايت تا چند ترابايت است.
برنامه های کاربردی مرتبط با Data warehouse OLAP (on line Analytical Processing) OLAP عبارتست از مجموع نرم افزارهائی که برای اکتشاف و تحلیل سریع داده ، مبتنی بر یک شیوه چند بعدی با چندین سطح از یکپارچه سازی داده ها استفاده می شود. و از طریق آن تصمیم گیری به دلیل قابلیت هدایت تحلیل ها بدون نیاز به فهم ساختار زیرین بانک اطلاعاتی تسهیل می شود. یکی دیگر از دلایل تسریع تصمیم گیری با استفاده ازOLAP این است که داده ها پیش از ارائه درخواست کاربر تا حدود زیادی یکپارچه Pre-aggregate شده اند. پایگاه داده تحلیلی (DW) و پردازش تحلیلی بر خط (OLAP) از جمله عناصر ضروری در سیستم های تصمیم یار به شمار می آیند.
ارتباط داده کاوی و OLAP داده کاوی و OLAP دو ابزار کاملا متفاوت می باشند که می توانند همدیگر را تکمیل کنند. OLAP جزیی از ابزارهای تصمیم گیری Decision Support Tools می باشد. بدین معنی که کاربر فرضیه ای در مورد داده ها و روابط بین آنها ارائه می کند و سپس به وسیله ابزار OLAP با انجام چند Query صحت آن فرضیه را بررسی می کند. تفاوت داده کاوی با OLAP در این است که داده کاوی برخلاف OLAP برای بررسی صحت یک الگوی فرضی استفاده نمی شود بلکه خود سعی می کند این الگوها را کشف کند.
برنامه های کاربردی مرتبط با Data warehouse OLTP (On – Line Transaction Processing) OLTP سیستم های پردازش گری هستند که که داده های مورد استفاده در آن داده های به روز ، جاری و با جزئیات است.و پردازش های آن مشتمل بر عملیات روزانه مانند خرید و فروش و عملیات بانکی و مانند آن است.
خصوصیات OLTP سيستم هاي OLTP در كليه خدمات بازرگاني ديده مي شوند از جمله سيستم هاي رزرواسيون، دستگاه هاي فروش ، كنترل انبار، سهام و فروش و ... . اين سيستم ها غالبا به زمان پاسخي بين 1 تا 3 ثانيه در 100 در صد اوقات نياز دارند. تعداد كاربران آنها در ساعات مختلف روز ، هفته و ماه مي تواند بشدت متغير باشد و درتمامي اين اوقات به همان زمان پاسخ قبلي نياز دارند. OLTP خود نيز به دو نوع عادي (Lite) و قوي (Heavy) تقسيم مي گردد. Client های عادی قادرند تعامل را در غالب پردازش هاي ثبت شده در بانك اطلاعاتي (Stored Procedures) به اجرا بگذارند و client های قوي از (TP Monitor) براي اجراي دستورات استفاده ميكنند.
مقایسه جنبه های متفاوت OLTP , OLAP پارامترهای ارزیابی OLTP OLAP کاربران کاربران فناوری اطلاعات کاربران دانش کارکرد عملیات روزانه پشتیبانی تصمیم طراحی پایگاه داده کاربرد – گرا موضوع – گرا داده جاری ، به روز ، با جزئیات ، رابطه ای ، منفرد سابقه ، خلاصه شده ، چند بعدی ، یکپارچه شده کاربرد عملیات تکرار شونده خاص منظوره واحد کاری تراکنش های ساده و کوتاه پرس و جوهای پیچیده تعداد رکوردهای مورد دسترسی دهها رکورد میلیونها رکورد تعداد کاربران هزاران کاربر صدها کاربر اندازه پایگاه داده مگا بایت - گیگابایت گیگابایت-ترابایت
Data Mart چیست؟ گاهي اوقات انبار دادهها، حجم عظيمي از اطلاعات را در واحدهای منطقي كوچكتر به نام Data Mart نگهداري ميكند. Data Mart مسئولیت آماده سازی، كسب يا دريافت دادهها را بر عهده دارد. اين مولفه شامل همه برنامههای كاربردی است كه مسوول استخراج دادهها از منابع عملياتي هستند . OLAP(On line Analytical Processing) , OLTP(On – Line Transaction Processing) از جمله این برنامه های کاربردی هستند.
Meta Data چیست؟ قسمتی از داده های موجود درData warehouse شاملMeta Data می باشد. در اصل ،Metadata "دادههايي درباره دادهها" يا "دادههايي است كه مفهوم دادهها را توصيف ميكنند". انواع مختلف Metadata در انبار دادهها وجود دارند. مثلا اطلاعاتي درباره منابع عملياتي، ساختار دادههاي DWH و كارهايي كه در حين ساخت، نگهداري و دستيبابي به DWH انجام ميشوند.