Download presentation
Presentation is loading. Please wait.
Published byIskender Zeybek Modified over 6 years ago
2
آمار مقدماتی و پیشرفته مدرس: دکتر بریم نژاد دانشیار واحد کرج
آمار مقدماتی و پیشرفته مدرس: دکتر بریم نژاد دانشیار واحد کرج
3
آمار چیست؟ آمار به عنوان يك موضوع علمي، امروزه شامل مفاهيم و روشهائي است كه در تمام پژوهشهايي كه مستلزم جمعآوري دادهها به وسيلة يك فرآيند آزمايش و مشاهده و انجام استنباط و نتيجهگيري به وسيلة تجزيه و تحليل اين دادهها هستند، اهميت بسيار دارند. آمار هنر و علم جمعآوري، تعبير و تجزيه و تحليل دادهها و استخراج تعميمهاي منطقي در مورد پديدههاي تحت بررسي است. معادل كلمة آمار در زبان انگليسي Statistics است كه از لحاظ تاريخي، از كلمة لاتين status مشتق شده و يكي از معاني كلمة اخير، دولت است. در طول چندين دهه، آمار فقط با بيان اطلاعات و مقادير عددي دربارة اقتصاد، جمعيت شناسي و اوضاع سياسي حاكم در يك كشور، سر و كار داشت. حتي امروز، بسياري از نشريات و گزارشهاي دولتي كه تودهاي از آمار و ارقام را در بردارند و تحت عناويني از قبيل « آمار توليد مزارع» و «آمار كارگران» منتشر ميشوند، معني اولية كلمة آمار را در ذهن زنده ميكنند. اكثر افراد معمولي هنوز اين تصور غلط را دربارة آمار دارند كه آن را منحصر به ستونهاي عددي سرگيجهآور و گاهي يك سري شكلهاي مبهوتكننده ميدانند. بنابراين، يادآوري اين نكته ضروري است كه نظريه و روشهاي جديد آماري، از حد ساختن جدولهاي اعداد و نمودارها بسيار فراتر رفتهاند. نمايشهاي عددي به صورت جنبهاي فرعي از آمار درآمدهاند.
4
ديدگاههاي زير را درمورد آمار بخوانيد. آيا علم آمار اينگونه است؟
ديدگاههاي زير را درمورد آمار بخوانيد. آيا علم آمار اينگونه است؟ دیدگاههایی در مورد آمار: تهيه آمار كاري وقتگير و زمان بر و اصولاً كسالتآور است. آمار گورستاني از اعداد و ارقام است كه در هر اداره و سازمان نمونهاي از آن پيدا ميشود. آمار مجموعهاي از روابط و فرمولهاي رياضي پيچيده و گيجكننده است. آمار شامل نمودارها و جدولهايي از اعداد است.
5
آمار فرايندي است كه در آن هر ده سال افرادي را به منازل فرستاده و اطلاعات خانوارها مانند تعداد فرزندان، سن افراد خانوار را از آنها كسب ميكنند. آمار ابزاري است كه بسياري با توسل به آن افكار عمومي را به نفع خود جلب ميكنند. آمار مفهومي است كه براي ثبت و نمايش اطلاعات عددي به كار ميرود، مانند تعداد بيكاران، كارمزد حمل كالا به وسيلة كشتي در 15 سال گذشته، جمعيت نواحي جنوب شهر تهران، تعداد افراد تلف شده در اثر شيوع يك بيماري يا مقدار مسافت طي شده در زمان معيني به وسيلة برندة مسابقة دو.
6
مثالهائي از مطالعات آماري:
مثالهای زیر، نشاندهندة مواردي نوعي هستند كه در آنها، فرايند كسب آگاهي در بررسي يك پديده شامل گردآوري و تجزيه و تحليل دادههاست و اين خود مستلزم استفاده از روشهاي آماري است. پرورش گياه : آزمايش پيوندزدن انواعي از گياهان كه از نظر ژنتيكي متفاوتند، به منظور توليد گياهان پيوندي پر محصول، مورد علاقة شديد متخصصان كشاورزي است. بهعنوان يك مثال ساده، فرض كنيد كه قرار است ميزان محصول دو نوع گياه پيوندي تحت آب و هوا و شرايط اقليمي مشخص با هم مقايسه شوند. تنها راه كسب اطلاع از ميزان باروري اين دو نوع گياه نسبت بهيكديگر عبارت است از پروراندن آنها در تعدادي از كرتها، گردآوردن دادهها دربارة ميزان محصول آنها و سپس تجزيه و تحليل دادههاي مزبور.
7
تشخيص بيماريها براي انجام موفقيتآميز معالجة بسياري از انواع سرطان با عمل جراحي، تشخيص بموقع بيماري از اهميت خاصي برخوردار است و از اينرو لازم است كه براي انجام معاينات پزشكي مرتباً به بيمارستان مراجعه شود. چون مراجعة مرتب به بيمارستان و انجام معاينات پزشكي گران و مشكل است، پزشكان در جستجوي نوعي روش تشخيص مؤثر بيماري هستند كه خود شخص بتواند آن را انجام دهد. براي ارزيابي قابليت يك روش جديد تشخيص بيماري برحسب درصد موفقيت آن در تشخيص درست موارد بيماري و اجتناب از تشخيصهاي اشتباه، روش موردنظر بايد روي افراد زيادي آزمايش شود و نتيجه با معاينات بيمارستاني مقايسه شود. برنامههاي تربيتي و آموزشي برنامهاي تربيتي وآموزشي كه براي انواع متقاضيان (از قبيل دانشجويان دانشگاه، كارگران كارخانه، گروههاي اقليت، افراد ناقصالعضو، كودكان عقبافتاده) در بسياري از زمينهها طرح ميشوند، دائماً مورد بررسي، ارزيابي و اصلاح قرار ميگيرند تا سودمندي آنها براي جامعه افزايش يابد. براي كسب اطلاع از كارائي برنامههاي مختلف در مقايسه با يكديگر، ضرورت دارد كه دادههائي دربارة موفقيتها يا رشد مهارت افرادي كه برنامه در مورد آنها اجرا ميگردد، گردآوري شود.
8
تحقيقات اجتماعي- اقتصادي:
در بسياري از قلمروهاي جامعهشناسي، اقتصاد، علوم سياسي. مطالعاتي در زمينههاي مربوط به رفاه اقتصادي گروههاي قومي گوناگون. هزينههاي مصرفكنندگان در سطوح مختلف درآمد و نظرات گوناگون در هنگام وضع يك قانون و زمينههايي نظير اينها انجام ميگيرد. اين مطالعات نوعاً بر مبناي دادههايي انجام ميگيرند كه از راه مصاحبه يا تماس با نمونهاي از افراد بهدست ميآيند، كه اين نمونه به وسيلة روشهاي آماري از كل جامعهاي كه قلمرو مطالعه را تشكيل ميدهد، انتخاب ميشوند. سپس اين دادهها مورد تجزيه و تحليل قرار ميگيرند و تغييراتي از موضوع مورد نظر به عمل ميآيد. بازاريابي: با گسترش صنايع مختلف و بحث بازار رقابتي در قرن بيست و یک بسياري از صنايع به دنبال يافتن روشهائي در شناسائي بازار و خواستههاي مشتري به طريق علمي گرديدهاند. نتايج حاصل همواره با استفاده از مطالعات آماري روي مشتريان و يا مراكزي كه مشتري با آنها در ارتباط است صورت ميپذيرد. بهعنوان مثال يك شركت توليدكنندة پودر لباسشوئي پس از تحقيق دربارة ميزان فروش فروشگاههاي يك منطقه سهم فروش پودر ... را درمييابد. پس از اعمال تبليغات جديد و به فاصلة زماني مناسب اينكار مجددا صورت گرفته و سهم افزايش فروش بررسي ميگردد. و يا در همين مقوله براي كسب اطلاع از اينكه در توليد مايع ظرفشوئي آيا از لحاظ مصرفكنندگان، بوي اسانس ليمو با توتفرنگي تفاوتي وجود دارد، از 400 نفر مصاحبه ميشود كه 145 نفربوي اسانس ليمو و بقيه توتفرنگي را ترجيح ميدهند. كنترل كيفيت: پيشرفتهاي آماري در بخش صنايع بيشتر مربوط به مسائل كنترل كيفي است. استفاده از مفهوم آزمون فرضهاي آماري در بحث كنترل حين توليد محصولات توليدي، استفاده از روشهاي نمونهكيري جهت پذيرش براي شناسائي محصول مطابق درخواست با استفاده از يك نمونه از محصول به جاي بازرسي صددرصد و استفاده از ابزارهاي ساده آماري در كنترل فرآيند آماري (Statistical Process Control ) مانند هيستوگرام، نمودار پراكنش، نمودار ميلهاي و استفاده از بحث طراحي آزمايشهاي مناسب و جمعآوري اطلاعات و بسياري روشهاي آماري كه به صور مختلف مورد استفاده واقع ميشوند بخشي از تلاش مسئولين كيفي صنايع را به خود اختصاص داده است.
9
آمارشناسها چه میکنند؟
جهان به سوی کمی شدن اطلاعات پیش می رود. در بسیاری از حرفهها و شغلها، تصمیمگیریها به اندازهگیریهای عددی و داده بستگی دارند. داده ها تنها شامل اعداد نیستند، بلکه اعداد خود حامل اطلاعاتی در مورد یک سیستم مشخص هستند و احتیاج دارند که در سیستم مربوطه تفسیر شوند. با توجه به این رشد در استفاده از دادهها، نیاز و تقاضا برای وجود آمارشناسهایی که در زمینههای زیر کارشناس باشند، احساس می شود: ارائه و تولید دادههای قابل اعتماد تجزیه و تحلیل دادهها به منظور روشن و واضح ساختن معنای آنها ارائه استنتاجهای عملی از دادهها آمارشناسها از تواناییهای کمّی، علم آمار و مهارتهای روابط عمومی و برقراری ارتباط برای حل بسیاری از مشکلات و مسایل موجود در جامعه استفاده میکنند. آمارشناسها در تعیین روشهای نمونهگیری و جمعآوری دادهها، نظارت بر اجرای مطالعه، پردازش دادهها و نظر دادن در مورد نتایج مطالعات بدستآمده کمک میکنند.
10
فعالیت آمارشناسها در زمینه مطالعه و بررسی نمونهای
فعالیت آمارشناسها در مراکز دولتی برخی زمینههای فعالیت برای آماریها در مراکز دولتی فعالیت آمارشناسها در زمینه پژوهشهای علمی فعالیت آمارشناسها در زمینه صنعت و تجارت برخی زمینههای فعالیت برای آماریها در صنعت و تجارت فعالیت آمارشناس ها در زمینه بهداشت، پزشکی و سلامت
11
مشخصههای شغلی آمارشناسها
استفاده از دادهها برای حل مشکلات و مسایل استفاده از دانش ریاضی و آمار خود در حل مشکلات اجتماعی، اقتصادی، پزشکی، زیست محیطی، سیاسی و ... کارکردن هم به صورت انفرادی و هم به صورت عضوی از یک گروه استفاده از علم ارتباطات در برقراری رابطه با متخصصین علوم دیگر و مشورت با آنها و ادامه دادن مستمر فعالیتهای آموزشی گسترش مرزها و قلمرو آمار و احتمال از طریق آموزش و تحقیق
12
سواد آماری چیست؟ سواد آماری یک توانایی/قابلیت است:
توانایی فکر کردن منتقدانه درمورد استدلالها با به کار بردن آمار به عنوان سند یا مدرک قابلیت خواندن و تفسیر دادهها، قابلیت فهم آنچه که خوانده میشود. توانایی فهم و تفسیر آمارهایی که هر فرد در زندگی روزمره با آنها سروکار دارد. توانایی استفاده صحیح از آمار توسط همه افراد جامعه سواد آماری، بر تصمیمگیریها با استفاده از آمار به عنوان سند و مدرک متمرکز شده است، همانگونه که سوادخواندن و نوشتن بر استفاده از کلمات به عنوان مدرک متمرکز شده است. سواد آماری بیشتر درمورد سؤالات است تا جواب ها. سوادآماری جوابهای زیادی ندارد. اما میتواند کمک کند تا سؤالات بهتری پرسش شود و در نتیجه تصمیمها و قضاوتهای بهتری صورت گیرد. سواد آماری یک هنر است، هنر تصمیمگرفتن و قضاوت کردن تحت شرایط نامطمئن.
13
با سواد آماری کیست؟ با سواد آماری کسی است که قادر باشد تفاوت بین رابطه معمولی و رابطه علت و معلولی را از یکدیگر تشخیص دهد. او کسی است که وقتی با جملاتی همانند جملات زیر روبرو میشود، درست یا غلط بودن جمله دوم را مدرکی مستند برای درست یا غلط بودن جمله سوم نداند: جمله اول: افرادیکه وزن بیشتری دارند بلندقدتر از افرادی هستند که وزن کمتری دارند. جمله دوم: وزن یک رابطه مثبت با قد دارد. جمله سوم: اگر شما وزن بیشتری بدست آورید، انتظار میرود که قدتان نیز بلندتر شود. واضح است که برای بزرگسالان جمله سوم غلط است. اما نمیتوان نتیجه گرفت که اگر جمله سوم غلط باشد آنگاه جمله دوم نیز غلط خواهد بود. درستی جمله دوم مدرکی است برای درستی جمله سوم، اما درستی جمله دوم برای اثبات درستی جمله سوم کافی نیست.
14
با سواد آماری کیست؟ (ادامه)
با سواد آماری کسی است که قادر باشد تفاوت بین عبارت “نسبت دادنی” را از عبارت “نسبت داده شده” تشخیص دهد . مثال90درصد خودکشی ها را افراد متاهل مرتکب می شوند. این آمار به افراد متاهل نسبت داده شده است، اما این بدین معنا نیست که اگر افراد ازدواج نکنند این نسبت کاهش خواهد یافت. با سواد آماری کسی است که فرق آماری که بر اساس نمونه به دست آمده را از پارامتر جمعیت تشخیص دهد. باسواد آماری کسی است که بتواند برداشت درستی از درصدها، میزان ها و نرخ ها داشته باشد مثال: درصد رانندهها در میان زنان همانند درصد راننده هایی که زن هستند، نیست. درصد بیمارانی که نتیجه آزمایش آنها در مورد نوعی بیماری مثبت است همانند درصد افرادی که نتیجه آزمایش مثبت دارند و بیمار هستند، نیست.
15
شیوههای جمعآوری اطلاعات
16
تعریف هر تیمار (متغیر) تاحد امکان به صورت ویژه
17
کدگذاری برای دادههای قیاسی یعنی تعیین عدد برای هر طبقه یا دسته
کدگذاری برای دادههای قیاسی یعنی تعیین عدد برای هر طبقه یا دسته. جنسیت زن 1 مرد 2
18
مشخص کردن روشن واحدهای اندازهگیری
وزن شما چقدر است؟ (برحسب کیلوگرم، پوند، گرم) دیشب چند ساعت تلویزیون تماشا کردید؟ (ساعت، دقیقه)
19
نوشتن سؤالات بدون اریب با اریب: آیا شما موافقید که افزایش مصرف کود باعث کاهش عملکرد میشود؟ بدون اریب: نظر شما در مورد مصرف کود بر عملکرد محصول چیست؟
20
سؤالات خود را در یک مطالعة پیلوت قبل از انجام مطالعة اصلی امتحان نمایید
(8 تا 10 مورد یا واحد از افراد، دانشآموزان، درختان و ...)
21
انواع دادهها
22
انواع دادهها دادههای معیاری دادههای قیاسی
23
دادههای قیاسی موضوعات و صفات مورد بررسی به طبقاتی بر اساس بعضی از صفات کیفی گروهبندی میشوند.
24
مثال: دادههای قیاسی رنگ مو نظر دانشجویان در مورد نحوة تدریس
بلوند، قهوهای، قرمز، سیاه، غیره نظر دانشجویان در مورد نحوة تدریس ناراحت، خنثی، خوشحال وضعیت سیگارکشیدن سیگاری، غیرسیگاری
25
طبقهبندی دادههای قیاسی به صورت: اسمی، ترتیبی و دوتایی
دادههای اسمی دادههای ترتیبی دودویی غیردودویی دودویی غیردودویی
26
دادههای اسمی یک نوع از دادههای قیاسی است که صفات در طبقههای غیرمرتب قرار میگیرند.
27
مثال: دادههای اسمی رنگ مو نژاد بلوند، قهوهای، مشکی، قرمز، غیره
هندی، افریقایی، آمریکایی، غیره
28
نوعی از دادههای قیاسی میباشند که رتبة آنها مهم است
دادههای ترتیبی نوعی از دادههای قیاسی میباشند که رتبة آنها مهم است
29
مثال: دادههای ترتیبی طبقه شدت بیماری نظر دانشجویان دربارة درس
خیلی کم، کم، متوسط، زیاد، خیلی زیاد شدت بیماری نظر دانشجویان دربارة درس
30
دادههای دودویی شکلی از دادههای قیاسی که تنها دارای دو طبقه هستند.
دادههای دودویی میتوانند یا اسمی یا ترتیبی باشند.
31
مثال: دادههای دودویی وضعیت سیگاری بودن حضور سیگاری، غیرسیگاری
حاضر، غایب
32
دادههای سنجشی اهداف مورد مطالعه بر اساس بعضی از صفات کمی قابل اندازهگیری میباشند. دادهها به صورت اعداد میباشند.
33
مثال: دادههای سنجشی سطح کلسترول قد سن میزان عملکرد
تعداد دانشجویانی که درکلاس دیر حاضر میشوند. زمان لازم برای انجام تکالیف درسی در منزل
34
دادههای سنجشی تقسیم میشوند به گسسته یا پیوسته Discrete or Continuous
دادههای سنجشی گسسته پیوسته
35
تنها مقادیر معینی را خواهند داشت (شکافی بین مقادیر ممکن وجود دارد)
دادههای سنجشی گسسته تنها مقادیر معینی را خواهند داشت (شکافی بین مقادیر ممکن وجود دارد) دادههای سنجشی پیوسته از نظر تئوریک، هر مقداری در درون یک فاصله را میتوان با ابزارهای اندازهگیری دقیق محاسبه نمود.
36
دادههای گسسته - شکاف بین مقادیر ممکن
دادههای پیوسته - از نظر تئوریکی هیچ شکافی بین مقادیر ممکن وجود ندارد
37
مثالها دادههایی با معیارهای گسسته
مثالها دادههایی با معیارهای گسسته نمرات آمار تعداد دانشجویانی که دیر به کلاس میآیند تعداد جرائمی که به مراکز پلیس گزارش شده است. تعداد دفعاتی که از یک کلمه استفاده میشود. عموماً دادههای گسسته قابل شمارش هستند.
38
مثالها: دادههای معیاری پیوسته
سطح کلسترول قد سن زمان لازم برای انجام تکالیف مدرسه عموماً دادههای پیوسته از اندازهگیری بدست میآیند
39
انواع دادههای جمعآوری شده در یک مطالعه تعیینکنندة نوع تحلیل آماری مورد استفاده میباشد
40
برای مثال ... دادههای قیاسی عموماً با استفاده از درصد (یا نسبتها) خلاصه میشوند. 11درصد دانشجویان دارای خالکوبی میباشند. 2٪، 33٪،39٪ و 26٪ دانشجویان درکلاس به ترتیب جدیدالورود، سال دوم، سال سوم و سال چهارم
41
و برای مثال ... دادههای معیاری به طور مثال با استفاده از متوسط (یا میانگین) خلاصه میشوند. متوسط وزن مردان در بین 250 دانشجوی درس آمار در پاییز 1387، 173 پوند است متوسط وزن زنان در بین 250 دانشجوی درس آمار در پاییز 1387، 138 پوند است
42
توصیف دادهها با اعداد معیارهای مکانی
آمار توصیفی توصیف دادهها با اعداد معیارهای مکانی
43
چه چیزی توصیف میشود؟ مکان یا مرکز دادهها چیست؟ (معیارهای مکانی)
دادهها چگونه تغییر میکنند؟ (معیارهای تغییرپذیری)
44
معیارهای مکانی میانگین میانه مد
45
میانگین نام دیگر متوسط اگر میانگین یک جمعیت را توصیف کنیم با نمایش داده میشود. اگر میانگین نمونه را توصیف کنیم با x-bar نمایش داده میشود. مناسب برای توصیف دادههای سنجشی به میزان زیادی تحتتأثیر مقادیر غیرمعمول که «برونهشت» یا outliers نام دارند، قرار میگیرد.
46
محاسبة میانگین نمونه فرمول:
یعنی جمع تمام دادهها و تقسیم به تعداد آنها
47
میانه نام دیگر برای صدک 50ام مناسب برای توصیف دادههای سنجشی
مناسب برای دادههای برونهشت، یعنی تحتتأثیر مقادیر غیرمعمول قرار نمیگیرد.
48
محاسبة میانة نمونه مرتب کردن دادهها از کوچک به بزرگ
اگر تعداد دادهها فرد باشد، میانه مقدار وسط میباشد. دادهها: دادههای مرتب شده: میانه
49
محاسبة میانة نمونه مرتب کردن دادهها از کوچک به بزرگ
اگر تعداد دادهها زوج باشد، میانه متوسط دو مقدار وسطی است دادهها : دادههای مرتب شده: میانه = (3+4)/2 = 3.5
50
مد مقادیری که بیشترین فراوانی را دارند.
یک مجموعه داده میتواند چندین مد داشته باشد برای تمام انواع داده مناسب است اما بیشتر برای دادههای قیاسی یا دادههای گسسته با تعداد اندکی از مقادیر ممکن مفید است.
51
Minitab:در برنامة N = تعداد دادهها میانة نمونه میانگین نمونه
Variable N Mean Median TrMean StDev SE Mean Phone Variable Minimum Maximum Q Q3 Phone N = تعداد دادهها میانة نمونه میانگین نمونه
52
مناسبترین معیارهای مکانی بستگی به شکل توزیع دادهها دارد
مناسبترین معیارهای مکانی بستگی به شکل توزیع دادهها دارد
53
مناسبترین معیارهای مکانی بستگی دارد به:
آیا دادهها متقارن هستند یا چوله آیا دادههای دارای یک مد هستند (unimodal) یا دارای چند مد (multimodal)
54
متقارن و یک نمایی
55
متقارن و یک نمایی
56
متقارن و یک نمایی Descriptive Statistics
Variable N Mean Median TrMean StDev SE Mean GPA Variable Minimum Maximum Q Q3 GPA
57
متقارن و دونمایی
58
متقارن و دونمایی Variable N Mean Median TrMean StDev
Males Females All Variable SE Mean Min Max Q Q3 Males Females All
59
متقارن و دونمایی
60
چوله به راست
61
چوله به راست
62
چوله به راست Descriptive Statistics
Variable N Mean Median TrMean StDev SE Mean CDs Variable Minimum Maximum Q Q3 CDs
63
چوله به چپ
64
چوله به چپ
65
چوله به چپ Variable N Mean Median TrMean StDev SE Mean
grades Variable Minimum Maximum Q Q3 grades
66
انتخاب معیار مناسب مکانی
اگر دادهها متقارن باشند، میانگین، میانه و مد، تقریباً برابر هستند. اگر دادههای دارای چند مد باشند، میانگین، میانه و یا مد را برای هر زیرگروه گزارش دهید. اگر دادهها چوله باشند، میانه را گزارش دهید.
67
توصیف دادهها با اعداد معیارهای تغییرپذیری
آمارهای توصیفی توصیف دادهها با اعداد معیارهای تغییرپذیری
68
چه چیزی توصیف میشود؟ مکان یا مرکز دادهها چیست؟
دادهها چگونه تغییر میکنند؟
69
تمام این معیارها تنها برای دادههای سنجشی مناسب هستند.
معیارهای تغییرپذیری دامنه دامنة بینچارکی واریانس و انحراف معیار ضریب تغییر تمام این معیارها تنها برای دادههای سنجشی مناسب هستند.
70
دامنه تفاوت بین بزرگترین و کوچکترین داده
به میزان زیادی تحت تأثیر برونهشتها قرار میگیرد. برای دادههای متقارن بدون هیچ برونهشتی مناسب است.
71
دامنه چیست؟
72
دامنه دامنه = 3.98 - 2.02 = 1.96 Descriptive Statistics
Variable N Mean Median TrMean StDev SE Mean GPA Variable Minimum Maximum Q Q3 GPA دامنه = = 1.96
73
دامنة بین چارکی تفاوت بین چارک سوم (درصد 75ام) و اولین چارک (درصد 25ام) یعنی نیمة وسطی دادهها IQR = Q3-Q1 برای مشاهدات برون هشت و کرانی کارا میباشد. برای دادههای چوله مناسب است.
74
دامنة بین چارکی چیست؟
75
دامنة بینچارکی IQR = 3.4675 - 2.6725 = 0.795 Descriptive Statistics
Variable N Mean Median TrMean StDev SE Mean GPA Variable Minimum Maximum Q Q3 GPA IQR = = 0.795
76
واریانس تفاوت بین هر داده با میانگین را بیابید.
این تفاوتها را به توان دو رسانده و با هم جمع کنید. به یکی کمتر از تعداد دادهها تقسیم کنید.
77
واریانس اگر واریانس جمعیت را اندازه بگیریم آن را با 2 نشان میدهیم.
اگر واریانس جمعیت را اندازه بگیریم آن را با 2 نشان میدهیم. اگر واریانس نمونه را اندازه بگیریم آن را با s2 نشان میدهیم. متوسط مربع انحراف دادهها از میانگین خود را اندازه میگیرد. به میزان زیادی تحتتأثیر برونهشتها میباشد. برای دادههای متقارن بهتر است. واحدها درجة دوم هستند.
78
انحراف معیار انحراف معیار نمونه ریشة دوم واریانس نمونه میباشد و بنابراین با s نشان داده میشود. واحدها، واحدهای اصلی هستند انحراف متوسط دادهها از میانگین خود را اندازه میگیرد. همچنین به میزان زیادی تحتتأثیر برونهشتها قرار دارد.
79
واریانس یا انحراف معیار چیست؟
(MPH)
80
واریانس یا انحراف معیار
Sex N Mean Median TrMean StDev SE Mean female male Minimum Maximum Q Q3 female male Females: s = mph and s2 = = mph2 Males: s = mph and s2 = = mph2
81
واریانس یا انحراف معیار چیست؟
82
واریانس یا انحراف معیار
Sex N Mean Median TrMean StDev SE Mean female male Sex Minimum Maximum Q Q3 female male Females: s = kph and s2 = = kph2 Males: s = kph and s2 = = kph2
83
ضریب تغییر نسبت انحراف معیار نمونه به میانگین نمونه ضربدر 100
معیار تغییرپذیری نسبی، یعنی تغییرپذیری نسبت به بزرگی دادهها بدون واحد است بنابراین برای مقایسة تفاوت بین دو گروه خوب است.
84
ضریب تغییر Females: CV = (11.32/91.23) x 100 = 12.4
Sex N Mean Median TrMean StDev SE Mean female male Minimum Maximum Q Q3 female male Females: CV = (11.32/91.23) x 100 = 12.4 Males: CV = (17.39/106.79) x 100 = 16.3
85
ضریب تغییر Females: CV = (18.86/152.05) x 100 = 12.4
Sex N Mean Median TrMean StDev SE Mean female male Sex Minimum Maximum Q Q3 female male Females: CV = (18.86/152.05) x 100 = 12.4 Males: CV = (28.98/177.98) x 100 = 16.3
86
مناسبترین معیار تغییرپذیری بستگی دارد به ...
شکل توزیع دادهها
87
انتخاب معیار مناسب تغییرپذیری
اگر دادهها متقارن باشند، بدون هیچ برونهشت جدی، از دامنه و انحراف معیار استفاده میشود. اگر دادهها چوله باشند، و یا دارای برونهشت باشند از دامنة بینچارکی استفاده میگردد. اگر در حال مقایسه تفاوت در بین دو مجموعه داده باشیم، از ضریب تغییر استفاده میگردد.
88
مجموعهای از قوانین احتمال
89
حادثه نتیجة یک مشاهده یا آزمایش یا توصیف بعضی از پیامدهای بالقوه
با این حروف نشان داده میشوند. A, B, C, …
90
احتمال بین صفر و 1 میباشد که نشاندهندة احتمال وقوع یک حادثه است.
یک حادثه با احتمال صفر، یک حادثة بیاثر است. یک حادثه با احتمال یک یک حادثة قطعی است. نزدیکتر به یک، احتمال وقوع حادثه بیشتر است. احتمال حادثة A را با P(A) نشان میدهند.
91
مثالها از حادثة پوچ: یک مرد باردار شود زن از سرطان پروستات بمیرد.
92
مثالهای از حادثههای قطعی
خورشید امشب غروب خواهد کرد. نیمسال به پایان خواهد رسید. یک نفر خواهد مرد.
93
سه راه برای تعیین احتمالات
روش فراوانی روش کلاسیک روش عقیدة شخصی
94
و مقدمهای بر توابع پیوسته چگالی احتمال ...
توزیع نرمال و مقدمهای بر توابع پیوسته چگالی احتمال ...
95
هیستوگرام درصد
96
هیستوگرام مساحت مستطیل = احتمال
97
کاهش اندازة فاصله ...
98
کاهش بیشتر اندازة فاصلهها ...
99
توابع پیوستة چگالی احتمال ...
منحنی توصیفکنندة احتمال هر محدودهای از مقادیر را کسب میکند. مثل: P(X > 120), P(X<100), P(110 < X < 120) مساحت زیر منحنی = احتمال کل مساحت زیر منحنی = 1 احتمال بدستآوردن یک عدد خاص 0 است. مثلاً P(X=120) = 0
100
نوع ویژهای از تابع چگالی احتمال پیوسته p.d.f
101
خصوصیات توزیع نرمال متقارن – منحنی زنگولهای
شکل منحنی بستگی به میانگین جمعیت و انحراف معیار دارد. مرکز توزیع است. وسعت منحنی بستگی به دارد. بیشتر مقادیر اطراف میانگین هستند اما بعضی از مقادیر کوچکتر و بعضی بزرگتر میباشند.
102
مثالهایی از متغیرهای تصادفی نرمال
عملکرد تولید کشاورزان در یک منطقه
103
احتمال بالای 75 چقدر است؟
104
سطح زیر منحنی = احتمال محاسبة جبری؟
شخصی این کار سخت را برای ما انجام داده است. ما تنها به یک جدول احتمالات برای هر توزیع نرمالی نیاز داریم. اما تعداد بینهایت توزیع نرمال وجود دارد (برای هر میانگین و انحراف معیاری یک توزیع) جواب استانداردکردن standardize میباشد.
105
استاندارد کردن ... مقدار x را از میانگین کم نموده و به انحراف معیار تقسیم کنید. نتیجه مقدار z میباشد. یعنی: Z = (X- )/ Z را نرمال استاندارد مینامند. میانگین آن 0 و انحراف معیاری برابر با 1 دارد. سپس از جدول احتمال برای z استفاده میشود.
106
استفاده از جدول z
107
احتمال بین 65 و 70 چیست؟
108
احتمال زیر 65 چیست؟
109
یادآوری! احتمالات محاسبهشده دقیق هستند تنها اگر فروض ایجادشده به طور واقعی درست باشند. وقتی محاسبات فوق را انجام میدهید، فرض شما این است که دادهها به طور نرمال توزیع شده باشند. همیشه این فرض را چک کنید! (بعداً یاد خواهیم گرفت)
110
آزمون فرضیه مقدمه
111
برای دانستن خصوصیات یک جمعیت بزرگتر، از یک نمونة تصادفی استفاده نمایید.
112
دو راه برای یادگیری در مورد یک جمعیت
فواصل اطمینان آزمون فرضیه
113
فواصل اطمینان اجازه دهید که با استفاده از دادههای نمونه، مقادیر جمعیت مانند میانگین یا نسبتهای واقعی را برآورد نماییم. مثال: متوسط واقعی زمانی که دانشجویان در آخر هفته مطالعه میکنند، چقدر است؟
114
آزمون فرضیه به ما اجازه دهید که با استفاده از دادههای نمونه، یک ادعا در مورد یک جمعیت را آزمون نماییم. مثلاً اینکه نسبتی از جمعیت یا میانگین جمعیت برابر با یک عدد است. مثال: آیا مقدار واقعی متوسط مطالعة دانشجویان در آخر هفته 20 دقیقه است؟
115
ایدة عمومی آزمون فرضیه یک فرض ابتدایی بسازید.
شواهد را جمعآوری کنید (دادهها) بر اساس شواهد موجود، تصمیم بگیرید که آیا فرض اولیه قابل قبول است یا خیر.
116
اجازه دهید که این فرضیه را نشان دهیم.
117
مثال آیا متوسط نمره 7/2 است؟
جمعیت 5 میلیون دانشجوی کالج آیا متوسط نمره 7/2 است؟ چقدر احتمال دارد که 100 دانشجو دارای متوسط نمرهای به اندازة 9/2 باشند اگر متوسط جمعیت 7/2 باشد؟ نمونة 100 دانشجو
118
تصمیمگیری آن محتمل یا غیرمحتمل است که ما شواهدی داشته باشیم که فرض اولیة ما را تأیید یا رد کند. (توجه: محتمل یا غیرمحتمل با محاسبة احتمال مشخص میشود) اگر محتمل باشد، آنگاه ما فرض اولیة خود را رد نمیکنیم. یعنی شواهد کافی برای چیز دیگر نداریم.
119
تصمیمگیری (ادامه) اگر غیرمحتمل باشد، آنگاه:
یا فرض اولیة ما درست است و ما یک حادثة غیرمعمول را تجربه میکنیم. یا فرض اولیة ما نادرست است. در آمار، اگر غیرمحتمل باشد، ما تصمیم به رد فرض اولیه میگیریم.
120
ایدة آزمون فرضیه اول دو فرضیه ارائه میکنیم، فرضیة صفر
the null hypothesis (“H0”) و فرضیة جایگزین and the alternative hypothesis (“HA”) H0: خوانده گناهکار نیست HA: خوانده گناهکار است
121
شناسایی فرضیهها فرضیه صفر همیشه نشاندهندة وضعیت موجود میباشد یعنی فرضیهای که نیازمند هیچ تغییری در رفتار جاری ندارد. فرضیه جایگزین، نتیجهای است که محقق سعی دارد آن را بدست آورد.
122
ادامة مثال سپس، شواهدی مانند اثر انگشت، لکههای خون، نمونههای مو، الیاف فرش، رد کفش، نمونههای دستخط و غیره جمعآوری میشود. در آمار، دادهها همان شواهد هستند.
123
ادامة مثال سپس فرض اولیه ساخته میشود
خوانده، بیگناه است تا وقتی که ثابت شود، گناهکار است. درآمار، ما همیشه فرض میکنیم فرضیة صفر درست است.
124
ادامة مثال سپس یک تصمیم بر اساس شواهد موجود بگیرید.
اگر شواهد کافی وجود داشت (ماورای شک منطقی)، فرضیة صفر رد میشود. (خوانده گناهکار است). اگر شواهد کافی وجود نداشته باشد، فرضیة صفر رد نمیشود (خوانده گناهکار نیست)
125
نکتة مهم هیچ تصمیمی مستلزم اثبات فرضیة صفر یا فرضیة جایگزین نمیباشد.
ما فقط اظهار میداریم که شواهد کافی برای حرکت در یک راه یا راه دیگر نداریم. این موضوع همیشه در آمار درست است، موضوع این نیست که ما چه تصمیمی میگیریم، همیشه شانس این وجود دارد که ما تصمیم اشتباه بگیریم.
126
آزمون فرضیه ادامة مقدمه ...
127
خطاهای قضاوت
128
خطاها در آزمون فرضیه
129
تعاریف: انواع خطا خطای نوع اول: فرضیة صفر رد شود درحالیکه درست است.
خطای نوع دوم: فرضیة صفر رد نشود، وقتی اشتباه است. همیشه شانس ایجاد یکی از این خطاها وجود دارد اما هدف ما باید حداقل کردن شانس وقوع این خطاها باشد.
130
جمعیت تعداد زیادی بزرگسال
مثال جمعیت تعداد زیادی بزرگسال آیا متوسط درجة حرارت بدن 6/98 درجه است؟ یا آن کمتر است؟ متوسط درجة حرارت بدن 80 نفر بزرگسال 4/98 درجه است. نمونه 80 نفر بزرگسال
131
مثال (ادامه) تعیین فرضیه فرضیة اولیه را = 98.6 بسازید.
H0: = 98.6 درجه HA: < 98.6 درجه فرضیة اولیه را = بسازید. جمعآوری دادهها: متوسط درجة حرارت بدن 80 نفر نمونه، 4/98 است. احتمال این که درجة حرارت بدن یک نمونة 80 نفره از بزرگسالان کمتر از 4/98 باشد، اگر دمای متوسط جمعیت 6/98 باشد، چه مقدار است؟
132
استفاده از p-value برای تصمیمگیری
نزدیک به صفر به معنای غیرمحتمل است. بنابراین اگر p-value کوچک باشد (به طور مثال کمتر از 05/0، آنگاه فرضیة صفر رد میشود.
133
p-value را عموماً با p نشان میدهند.
مثال (ادامه) p-value را به آسانی میتوان از نرمافزارهای آماری مانند MINITAB بدست آورد. Test of mu = vs mu < The assumed sigma = 0.600 Variable N Mean StDev SE Mean Z P Temp p-value را عموماً با p نشان میدهند.
134
مثال (ادامه) p-value برابر 0026/0 نشان میدهد که اگر دمای متوسط بدن در جمعیت 6/98 باشد، غیرمحتمل است که یک نمونة 80 نفره بزرگسال دارای دمای متوسط بدن 4/98 باشند. تصمیم: رد فرضیة صفر نتیجه اینکه دمای متوسط بدن کمتر از 6/98 میباشد.
135
چه نوع خطایی ممکن است برای ما پیش آید؟
خطای نوع اول در اینجا ادعا در این مورد است که متوسط دمای بدن کمتر از 6/98 است درحالیکه واقعاً اینگونه نیست. خطای نوع دوم در اینجا شکست در این ادعا که متوسط دمای بدن کمتر از 6/98 است درحالیکه واقعاً اینگونه است. ما فرضیة صفر را رد کردیم یعنی ادعا کردیم که دمای بدن کمتر از 6/98 است بنابراین ما ممکن است خطای نوع اول را داشته باشیم.
136
آزمون فرضیه برای میانگین یک جمعیت
137
مثال آیا متوسط نمره 7/2 است؟
جمعیت 5 میلیون دانشجوی کالج آیا متوسط نمره 7/2 است؟ چقدر احتمال دارد که 100 دانشجو دارای متوسط نمرهای به اندازة 9/2 باشند اگر متوسط جمعیت 7/2 باشد؟ نمونة 100 دانشجو
138
مقادیر p چقدر محتمل است که 100 دانشجو دارای میانگین نمرهای به اندازة 9/2 باشند اگر متوسط جمعیت 7/2 باشد؟
139
تعیین مقادیر P H0: μ = متوسط نمرات جمعیت = 2.7
HA: μ = متوسط نمرات جمعیت > 2.7 اگر 100 دانشجو دارای متوسط نمرهای برابر 9/2 با انحراف معیار 6/0 باشد، مقدار P برابر است با:
140
تصمیمگیری مقدار P کوچک است. غیرمحتمل است که ما نمونهای به اندازة 9/2 داشته باشیم اگر متوسط نمرات جمعیت 7/2 باشد. فرضیة صفر رد میشود. شواهد کافی وجود دارد که متوسط نمرات بزرگتر از 7/2 باشد.
141
اصطلاحات H0: μ = 2.7 در برابر HA: μ > 2.7
یک آزمون فرضیة دنبالة راست یا یک طرفه نامیده میشود چون مقدار P مربوط به دنبالة سمت راست است. Z = 3.33 را آمارة آزمون مینامند. اگر ما فکر کنیم که مقدار P ما کوچک است یعنی کوچکتر از 05/0 باشد، آنگاه احتمال اینکه ما یک خطای نوع اول بسازیم برابر 05/0 است. این مقدار را سطح معنیداری آزمون مینامند. ما میگوییم α=0.05 جاییکه α سطح معنیداری است.
142
جمعیت تعداد زیادی بزرگسال
مثال جمعیت تعداد زیادی بزرگسال آیا متوسط درجة حرارت بدن 6/98 درجه است؟ یا آن کمتر است؟ متوسط درجة حرارت بدن 80 نفر بزرگسال 4/98 درجه است. نمونه 80 نفر بزرگسال
143
مقادیر p چقدر محتمل است که 80 بزرگسال دارای یک دمای متوسط بدنی به اندازة 4/98 باشد اگر متوسط جمعیت 6/98 باشد؟
144
تعیین مقادیر P H0: μ = متوسط دمای بدن جمعیت = 98.6
HA: μ = متوسط دمای بدن جمعیت < 98.6 اگر 80 نفر بزرگسال دمای بدنشان 4/98 با انحراف معیار 6/0 باشد، مقدار P برابر است با:
145
تصمیمگیری مقدار P کوچک است، غیرمحتمل است که ما نمونهای به اندازة 4/98 بدست آوریم اگر متوسط دمای بدن در جمعیت 6/98 باشد. رد فرضیة صفر. شواهد کافی برای این نتیجه که متوسط دمای بدن کوچکتر از 6/98 میباشد وجود دارد.
146
اصطلاحات H0: μ = 98.6 در برابر HA: μ < 98.6
آزمون فرضیة با دنبالة چپ یا یک طرفه نامیده میشود، چونکه مقدار P مربوط به سمت چپ است. Z = آمارة آزمون میباشد اگر ما فکر کنیم که مقدار P کوچک است؛ یعنی کوچکتر از 02/0، آنگاه احتمال اینکه ما خطای نوع اول ایجاد کنیم برابر با 02/0 میباشد. یعنی سطح معنیداری برابرα = میباشد.
147
مثال آیا متوسط زمان صرف وقت برای مطالعه 20 دقیقه است؟
جمعیت دانشجویان آیا متوسط زمان صرف وقت برای مطالعه 20 دقیقه است؟ نمونة 64 دانشجو مقدار متوسط 17 دقیقه با انحراف معیار16 دقیقه.
148
مقادیر P چگونه محتمل است که 64 دانشجو، به طور متوسط حداقل 17 دقیقه و حداکثر 23 دقیقه صرف مطالعه کنند اگر متوسط جمعیت 20 دقیقه باشد؟
149
تعیین مقدار P H0: μ = متوسط وقت صرفشده = 20
HA: μ = متوسط وقت صرف شده # 20 اگر 64 دانشجوبه طور متوسط 17 دقیقه با انحراف معیار 16 دقیقه صرف مطالعه کنند، مقدار P برابر است با: و بنابراین P-value = × 2 = 0.134
150
تصمیمگیری مقدار P کوچک نیست. محتمل است که ما یک نمونه به کوچکی 17 دقیقه و به بزرگی 23 دقیقه داشته باشیم اگر مقدار متوسط صرف شده 20 دقیقه باشد. فرضیة صفر رد نمیشود. شواهد کافی برای اینکه بگوییم مقدار متوسط متفاوت از 20 دقیقه است وجود ندارد.
151
اصطلاحات H0: μ = 20 در برابر HA: μ # $20
آزمون فرضیة دو دنباله یا دو طرفه نامیده میشود چونکه مقدار P در هر دو طرف میباشد. Z = -1.5 آمارة آزمون میباشد چون ما در رد فرضیة صفر شکست خوردیم، ممکن است خطای نوع اول را داشته باشیم.
152
اگر دادهها به طور نرمال توزیع نشده باشند باید دارای یک نمونة بزرگ مثلاً n > 60 باشیم.
153
نکتة بسیار مهم مقدار P شما، صحیح نخواهد بود مگر اینکه فرضهای شما درست باشد. اگر شما نمونة کوچکی داشته باشید، باید ببینید آیا دادههای شما به طور نرمال توزیع شده است یا نه اگر دادهها به طور نرمال توزیع نشده باشند، شما باید یک نمونة بزرگ داشته باشید.
154
Testing Hypotheses Made about the Means of Two Populations
START Paired t test (samples must come from normal populations): Yes Are the two samples dependent? No where df = n - 1 z test (normal distribution): Do n1 and n2 both exceed 30? Yes No No Are both populations normally distributed? Use nonparametric methods Yes Reject After applying the F test, what do we conclude about ? separate variances t test (samples must come from normal populations) Fail to reject Pooled variances t test (samples must come from normal populations): where and
155
یادآوری عدم توجه به سطوح اندازه گیری در بکارگیری روشهای مختلف آماری اعم از آمار توصیفی یا استنباطی، اشتباه رایجی است که در بسیاری از تحقیقات به چشم میخورد. سطوح اسمی Nominal scale مقولات یک متغیر به صورت قراردادی کنار هم قرار میگیرند. زن یا مرد (همسانی یا ناهمسانی)
156
2. در سطح ترتیبی ordinal scale:
جهت تغییر از کم به زیاد یا از ضعیف به شدید است، بنابراین در این سطح علاوه بر همسانی یا ناهمسانی مقولات، شدت و ضعف و ترتیب آنها نیز مشخص میشود ولی چون فواصل بین مقولات مشخص نیست اعداد اختصاصیافته به آنها باز هم فاقد ارزش عددی است. یعنی نمیتوان گفت که فلانی سه برابر دیگری به تحصیل علاقه دارد.
157
3. سطح فاصلهای Interval Scale
در این سطح علاوه بر تعیین سطوح مختلف و ترتیب منطقی و واقعی بین مقادیر یک متغیر، فاصلۀ بین مقادیر متغیر فوق نیز مشخص میشود. به عنوان مثال میتوان گفت دانشجوئی که نمره 20 گرفته است به اندازۀ 10 نمره با دانشجوئی که نمرۀ 10 گرفته است فاصله دارد. در این مقیاس صفر مطلق وجود ندارد، مثلاً اگر دانشجوئی در درس آمار صفر گرفته باشد، نباید فرض کرد که اصولاً فاقد دانش آمار است
158
4. سطح نسبی Ratio Scale بالاترین و دقیق ترین سطح اندازهگیری است که علاوه بر تعیین سطوح و مقادیر یک متغیر و تعیین فاصله بین مقادیر یک متغیر، نسبتها نیز قابل محاسبه و بیان هستند و مبنای اندازهگیری نیز صفر مطلق است. مانند میزان درآمد یا حساب دانشجو - در این متغیر اگر حساب دانشجو صفر باشد واقعاً هیچ پولی در حساب او نیست زیرا این متغیر دارای صفر مطلق است و وجود صفر حقیقی به عنوان مبدأ اندازهگیری محقق را قادر میسازد تا از روشهای مختلف آماری استفاده کند.
159
قرینه(سطح توزیع) متقارن
یادآوری اسمی ترتیبی فاصلهای یا نسبتی شاخصهای مرکزی مد مد، میانه مد، میانه، میانگین شاخصهای پراکندگی فراوانی نسبی طبقات چارکبندی واریانس انحرافمعیار دامنه تغییرات قرینه(سطح توزیع) متقارن چولگی
160
تحلیل روابط بین متغیرها
آمار توصیفی تنها میتواند تصویری از جامعه مورد مطالعه ارائه دهد. اما قادر به بیان روابط بین متغیرها و تبیین متغیر یا متغیرهای وابسته نیست زیرا در این سطح محقق در هر مرحله تنها با یک متغیر سروکار دارد محقق در تحقیقات مختلف عمدتاً بدنبال تحلیل و تبیین دادهها و متغیرهای موردنظر است به همین دلیل سعی میکند با استفاده از آمار استنباطی به بررسی روابط بین متغیرها، تفاوت موجود در بین گروههای مورد مطالعه و یا تبیین متغیر وابسته از طریق متغیرهای مستقل و غیره بپردازد. 160
161
روابط بین متغیرها آیا ارتباطی بین دو یا چند متغیر وجود دارد؟ اگر جواب مثبت است، این ارتباط در چه سطحی است؟ آیا میتوان تغییرات یک متغیر را از طریق متغیر یا متغیرهای دیگر پیشبینی و تبیین کرد؟ پاسخ سؤال اول از طریق تکنیک همبستگی و سؤال دوم از طریق روش تحلیل رگرسیون امکانپذیر است.
162
در رابطه با تحلیل دومتغیره روابط بین متغیرها را میتوان از طریق 1) جداول توافقی 2) ضریب همبستگی اسپیرمن 3) ضریب همبستگی پیرسون و برای پیشگویی تغییرات یک متغیر از طریق متغیر دیگر از رگرسیون ساده بهره جست. در رابطه با جمعیت چند متغیره، روابط بین متغیرها از طریق 1) ضریب همبستگی چندگانه و 2) ضریب همبستگی جزئی و پیشگوئی تغییرات یک متغیر از طریق متغیرهای دیگر با استفاده از رگرسیون چندگانه امکانپذیر است.
163
در حاشیه: تفاوت عمدۀ همبستگی و رگرسیون
تفاوت رگرسیون با ضریب همبستگی در این است که رگرسیون بدنبال پیشبینی است در حالیکه ضریب همبستگی تنها میزان وابستگی دو متغیر را با هم بررسی میکند. در رگرسیون فرض بر این است که متغیر وابسته تصادفی و متغیرهای توضیحی دارای مقدار ثابت یا غیرتصادفی (در نمونهگیری تکراری) میباشند. در همبستگی فرض بر این است که هر دو متغیر تصادفی هستند. - ضریب همبستگی قادر به بیان روابط علی و معلولی بین متغیرها نیست.
164
جدول توافقی هدف از تشکیل یک جدول توافقی نشان دادن هر نوع رابطهای است که ممکن است بین دو متغیر وجود داشته باشد. در مثال حاضر متغیرهای کیفی، جنس (با سطوح مرد و زن) و رد کردن (با سطوح بله و خیر) میباشد. از روی جدول روشن میشود که در حقیقت رابطهای بین این دو متغیر وجود دارد. به طوری که واضحاً نسبت بیشتری از پاسخدهندگان زن، برنامه مورد نظر را رد میکنند رد کردن خیر بله 20 30 زن 40 10 مرد
165
ضرایب همبستگی مرتبط با متغیرهای اسمی
1. کایاسکوئر: یکی از آزمونهای ناپارامتری است. این آزمون توسط فیشر ارائه شد و قادر است تا به سنجش آماری معنیداری تفاوت بین فراوانیهای مشاهده شده و فراوانیهای مورد انتظار بدستآمده از جامعه بپردازد. این آزمون نشان میدهد که آیا تفاوت موجود بین مقادیر فوق از نظرآماری معنیدار است یا این تفاوت عمدتاً براساس شانس است.
166
شرایط استفاده از آزمون کایاسکوئر
دادههای مشاهدهشده باید به صورت تصادفی گردآوری شده باشند. کلیه موارد موجود در نمونه باید مستقل از هم باشند. حتیالامکان هیچ یک از خانههای جدول نباید کمتر از 10 باشند (البته برخی آماردانان تعداد 5 مورد را ذکر میکنند) تعداد نمونه باید به اندازۀ کافی بزرگ باشد. بهتر است حجم نمونه در اینگونه تجزیه و تحلیلها حداقل 50 مورد باشد. آماره کایاسکوئر میتواند برای یک متغیر اسمی و یک متغیر ترتیبی نیز بکار رود. (مثلاً عکس العمل چهار نوع کود یا چهار سطح از یک ماده شیمیائی در دو سطح خاک)
167
2. ضریب همبستگی چوپروف (T)
به منظور تعیین شدت وابستگی بین متغیرهای مورد مطالعه بکار گرفته میشود و مقدار آن همواره بین صفر و یک در نوسان است. این آزمون زمانیکه هر دو متغیر اسمی و یا یکی اسمی و دیگری ترتیبی باشد مورد استفاده قرار میگیرد. اما نباید تعداد سطر و ستون با هم برابر باشند به عبارت دیگر این ضریب برای جداول توافقی مستطیلی بکار گرفته میشود.
168
3. ضریب همبستگی فی phi به منظور بررسی شدت همبستگی بین دو متغیر اسمی که به صورت دووجهی و در قالب جدول توافقی میباشد مورد استفاده قرار میگیرد به همین دلیل در اینگونه موارد باید بجای استفاده از کایاسکوئر، از ضریب همبستگی فی استفاده نمود. تفاوت ضریب همبستگی فی با کایاسکوئر در این است که کایاسکوئر سطح معنیداری همبستگی بین متغیرها را تعیین میکند در حالیکه ضریب فی شدت همبستگی کایاسکوئر را نشان میدهند. این ضریب همانند کایاسکوئر تفسیر میگردد و مقدار آن همواره بین صفر و یک است.
169
4. ضریب همبستگی توافق پیرسون Pearson s coefficient contingency
170
5. ضریب کرامر: این ضریب برای تعیین میزان شدت همبستگی بین دو متغیر اسمی مورد استفاده قرار میگیرد و آنرا با نشان میدهند که مقدار آن همواره بین صفر و یک در نوسان است این ضریب در مقایسه با سایر ضرایب انعطاف بیشتری دارد به طوریکه هم برای جداول توافقی بیشتر از و هم برای جداول مستطیلی بکار میرود.
171
ضرائب همبستگی مرتبط با متغیرهای ترتیبی
172
1. ضریب همبستگی رتبهای کندال kendall s rank correlation coefficient
شاخص کندال حالت تقارن دارد به این معنا که متغیرها قرینه بوده و برای محقق مهم نیست که کدامیک از متغیرهای مورد مطالعه وابسته و کدامیک مستقل میباشد. این شاخص مشخص میکند که تا چه میزان افزایش یا کاهش در یک متغیر با افزایش یا کاهش در متغیر دیگر همراه است. مقدار ضریب کندال همواره بین 1- تا 1+ در نوسان است.
173
2. ضریب گاما Gamma coefficient
شاخص است که از طریق آن میتوان با آگاهی از پاسخهای یک متغیر پاسخها و نتایج متغیر دیگر را پیشگوئی کرد. گاما در واقع میزان کاهش خط را که در نتیجه آگاهی از پاسخ افراد در متغیر مستقل رخ میدهد مشخص میکند.
174
3. ضریب همبستگی رتبهای اسپیرمن Spearman Rank Correlation Coefficient
این ضریب زمانی مورد استفاده قرار میگیرد که دادهها به صورت رتبهای متوالی ناپیوسته (... و 3 و 2 و 1) باشد و یا این که مقادیر اصلی به رتبه تبدیل شوند. در صورتیکه دادهها با مقیاس فاصلهای یا نسبتی اندازهگیری شده باشند میتوان آنها را به رتبه تبدیل کرد و بعد ضریب همبستگی رتبهای اسپیرمن را محاسبه نمود. ضریب همبستگی اسپیرمن که آنرا با rs نمایش میدهند همواره بین 1+ و 1- در نوسان است و از لحاظ سطح سنجش نیز ترتیبی و از نوع متقارن میباشد به همین دلیل برای محقق مهم نیست که کدام متغیر مستقل و کدامیک وابسته باشد.
175
ضریب همبستگی مرتبط با متغیرهای فاصلهای یا نسبی
176
ضریب همبستگی پیرسون Pearson Correlation Coefficient
اگر این ضریب مثبت باشد به معنای آن است که تغییرات در برد و متغیر به طور هم جهت اتفاق میافتد و بالعکس.
177
-کندال تائو b (برای جداول توافقی مربع)
اسمی ترتیبی فاصلهای یا نسبی دوحالتی چندحالتی ضر یب فی لاندا ضریب چوپروف V کرامر لاندا - تتا V کرامر - ضریب فی لاندا ضریب کرامر ضریب توافقی پیرسون کرامر ضریب فی یا کرامر -کندال تائو b (برای جداول توافقی مربع) - کندال تائو c(برای جداول توافقی مستطیلی) - ضریب همبستگی رتبه ای اسپیرمن - گاما مقادیر فاصله ای به رتبه ای تبدیل و ضریب همبستگی رتبه ای اسپیرمن با کندال تائو محاسبه می شود ضریب همبستگی پیرسون
178
نکته: دو نکته در رابطه با ضریب همبستگی وجود دارد که توجه به آنها بسیار ضروری است. الف- وجود همبستگی بین دو متغیر به معنای این نیست که آنها دارای اثرات مساوی هستند و یا یکی علت دیگری است، زیرا ممکن است هر دو تحت تأثیر عامل دیگری باشند. به عنوان مثال اگر بین میزان غیبت از کار و رضایت شغلی رابطه متغیر وجود داشته باشد نمیتوان نتیجه گرفت که دلیل زیاد بودن غیبت عدم رضایت شغلی است زیرا ممکن است که غایب بودن خود باعث احساس عدم رضایت شغلی باشد و یا هر دو تحت تأثیر عامل دیگر قرار گرفته باشد. ب- همبستگی ساده نشان میدهد که بین دو متغیر چقدر ارتباط خطی وجود دارد.
179
انتخاب آزمون مناسب برای مقایسۀ میانگینها
چنانچه دادههای مربوط به متغیر وابسته از نوع کمی با مقیاس (فاصلهای یا نسبی) و دادههای متغیر مستقل یا گروهبندی از نوع کیفی با مقیاس (اسمی یا ترتیبی) باشد برای بررسی تفاوت ها میتوان به مقایسه میانگینها پرداخت و معنیداربودن تفاوتهای موجود بین طبقات یا گروهها را مورد بررسی قرار داد.
180
آزمونهای پارامتری آزمونهای t و F عمدهترین آزمونهای آماری برای مقایسۀ میانگین گروهها میباشند. از آنجا که گروههای مورد بررسی ممکن است مستقل با همبسته باشند بنابراین هر یک از آزمونهای فوق به دو بخش مستقل و همبسته تقسیم میشوند. تصمیمگیری در مورد اینکه در چه مواقعی باید از آزمونهای t یا F مستقل یا همبسته استفاده کرد مهمترین مسأله در تحلیل داده های کمی است.
182
پیشفرضهای آزمونهای پارامتری
آزمونهای پارامتری t و F را با پیش فرضهای زیر میتوان مورد استفاده قرار داد: مشاهدات از یک جامعه نرمال انتخاب شده باشند. اطلاعاتی که با هم مقایسه میشوند باید تقریباً واریانس یکسانی داشته باشند (در نمونههای بزرگ اگر واریانس یک گروه دو برابر دیگری باشد باز هم میتوان از آزمونهای پارامتری استفاده نمود) دادههای گردآوری شده دارای مقیاس فاصلهای یا نسبتی باشند. اگر اطلاعات جمعآوریشده این سه شرط را نداشت میتوان دادههای فوق را به غیر پارامتری تبدیل کرد و از روشهای آماری غیرپارامتری استفاده نمود. روش عمده تبدیل دادههای پارامتری به غیرپارامتری، رتبهبندی کردن آنها میباشد.
183
الف- آزمونt: اگر متغیرمستقل یا متغیرگروهبندی تنها دو گروه داشته باشد.
(اگر بخواهیم درآمد زنان و مردان را با هم مقایسه کنیم)
184
ب- آزمون F (تحلیل واریانس ANOVA)
اگر تعداد گروهها بیش از دو باشد. (اگر بخواهیم میزان درآمد گروههای شغلی کارگر، کارمند و کشاورز را با هم مقایسه کنیم) نکته: آزمون F تنها معنیداری تفاوت بین میانگین گروهها را مورد بررسی قرار میدهد اما مشخص نمیکند که این تفاوتها در بین کدامیک از گروههای مورد بررسی وجود دارد. به همین دلیل برای ایک که بدانیم تفاوتهای بدستآمده در بین کدامیک از طبقات وجود دارد و از این طریق مقایسهای بین گروهها انجام گیرد، باید از آزمون شفه (Scheffe test) یا LSD و یا از آمارههایی نظیر توکیTukey یا دانکن Duncan استفاده کرد. این آزمونها میانگین زوجها را با همدیگر به صورت دوبدو مقایسه کرده و وجود اختلاف معنیدار بین آنها را نشان میدهد.
185
این روش کل واریانس موجود در یک مجموعه از دادهها را به دو بخش تقسیم میکند.
بخشی از این واریانس ممکن است بخاطر شانس و تصادف حادث شده باشد و بخش دیگر ممکن است ناشی از دلایل یا عوامل خاصی باشد، از طرف دیگر واریانس موجود ممکن است ناشی از تفاوت بین گروههای مورد مطالعه و یا بخاطر تفاوت موجود در درون نمونهها حادث شده باشد. مهمترین اصل در تحلیل واریانس (ANOVA) آزمایش تفاوتهای موجود در بین میانگینهای جوامع یا گروههای مورد مطالعه از طریق بررسی میزان واریانس بین گروهها نسبت به واریانس درون گروههاست. در واریانس درون جامعه فرض بر این است که تفاوت بین مقدار نسبت به میانگین جامعه بخاطر شانس است در حالیکه در بررسی تفاوتهای بین جوامع و گروهها، فرض بر این است که تفاوت بین میانگین جامعه یا نمونۀ jام با میانگین کل به دلیل عوامل خاص میباشد. بنابراین زمانی که از تحلیل واریانس استفاده میشود فرض میگردد که هر یک از نمونهها از یک جامعه نرمال انتخاب شدهاند و هر یک از این جوامع نیز واریانس برابری دارند همچنین فرض میشود کلیه عوامل بجز عواملی که مورد مطالعه میباشند تحت کنترل هستند.
186
نکته: در تحلیل واریانس، اگر در بین میانگین گروههای مختلف تفاوت معنیداری وجود داشته باشد تنها از طریق ANOVA نمیتوان محل این تفاوتها را بدست آورد. اگر به مقایسۀ سه گروه A، B، C بپردازیم و تفاوت معنیداری در بین آنها وجود داشته باشد نمیتوانیم قضاوت کنیم که آیا این تفاوتها بین A و B است یا بین B و C یا بین A و C. در چنین مواقعی نباید از طریق آزمون t به مقایسه دوبدو گروهها پرداخت، زیرا هر قدر تعداد دفعاتی که آزمون t انجام میگیرد بیشتر باشد سطح اطمینان نتایج پائین میآید. (در این موارد باید از آزمونهائی مانند آزمون شفه، آزمون چنددامنه دانکن، آزمون توکی و آزمون استیودنت نیومن، کیول برحسب ضرورت استفاده کرد.
187
تحلیل واریانس یکطرفه: One-way Analysis of Variance اگر محقق تنها یک متغیر (درآمد) را انتخاب کند و بخواهد تفاوت بین طبقات یا گروههای مختلف را بررسی کند در این صورت از تحلیل واریانس یکطرفه استفاده میکند. تحلیل واریانس دوطرفه: Two way Analysis of Variance اگر محقق بخواهد اثر دو عامل را بر روی یک متغیر وابسته بررسی کند باید از تحلیل واریانس دوطرفه استفاده کند.
188
آزمونهای غیرپارامتری همانطوری که قبلاً نیز بحث گردید آزمونهای پارامتری علاوه بر این که نیاز به دادههائی از نوع فاصلهای دارند باید از برخی از پیش فرضهای اولیه نیز برخوردار باشند (نرمال بودن توزیع در جامعه و داشتن واریانس یکسان در مواردی که دو یا چند جامعه با هم مورد مقایسه قرار میگیرند و ...)
189
اما در آزمونهای غیرپارامتری چنین پیشفرضهائی مطرح نبوده و زمانی که دادهها در سطح اسمی و یا ترتیبی باشد و یا در صورتیکه گروههای مورد مطالعه از واریانس نابرابر و یا از چولگی برخوردار باشند باید از آزمونهای غیرپارامتری استفاده کرد. این آزمونها از ویژگیهائی برخوردار هستند که آنها را از آزمونهای پارامتری متمایز کرده است:
190
این آزمونها هیچکدام از پیشفرضهای مطرح شده در آزمونهای پارامتری، نظیر نرمال بودن جامعه و یا برابر بودن واریانس گروهها را مبنا قرار نمیدهد و حتی در صورت صادق نبودن مفروضات فوق در خصوص دادههای فاصلهای به منظور استفاده از آزمونهای پارامتری امکان تبدیل داده های فوق به دادههای غیرپارامتری و رتبهای و محاسبه آزمونهای ناپارامتری وجود دارد. از آنجا که در این آزمونها از مقادیر رتبهای و حتی دادههای اسمی استفاده میگردد، بنابراین محاسبۀ آنها کار سادهای است. این آزمونها در مقایسه با آزمونهای پارامتری از دقت بالائی برخوردار نمیباشند. دلیل آن این است که با تبدیل دادههای فاصلهای به مقادیر رتبهای، فواصل واقعی موجود در بین دادهها به فواصل یکسان بین رتبهها تبدیل شده و در این فرآیند بخشی از اطلاعات ناپدید میگردند به عبارت دیگر با تبدیل مقادیر اصلی و واقعی به مقادیر رتبهای، بدلی از واقعیت ساخته میشود و این بدل بدستآمده به جای واقعیت مورد تجزیه و تحلیل قرار میگیرد.
191
انتخاب آزمون غیرپارامتری مناسب
191
192
1. آزمون نشانه: زمانی که دادهها به صورت همبسته باشند مورد استفاده قرار میگیرد.
193
(زمانی که بخواهیم نظرات قبلی و بعدی افراد را مورد مقایسه قرار دهیم)
آزمون مک نمار: اغلب در مواردی بکار برده میشود که دادهها به صورت اسمی و مربوط به دو نمونه مرتبط بهم (Two related) یا همبسته باشند (زمانی که بخواهیم نظرات قبلی و بعدی افراد را مورد مقایسه قرار دهیم)
194
مثال1. ابتدا در مورد یک موضوع نظر افراد را به صورت موافق یا مخالف جویا میشویم پس از آن نسبت به برگزاری کلاس آموزشی اقدام میکنیم (یاجلسۀ توجیهی) و سپس دوباره نظر افراد را نسبت به موضوع جویا میشویم. در اینجا فرض صفر (Ho) این است که تفاوتی بین نظرات افراد در قبل و پس از اجرای برنامه (دورۀ آموزشی) وجود ندارد. مثال2. نظرات 1000 نفر درباره خرید و عدم خرید یک کالا قبل و بعد از برگزاری برنامه تبلیغاتی و معرفی کالا پرسیده شده است با این آزمون میتوان مشخص نمود که آیا برنامه تبلیغاتی در تغییر نگرش مشتریان مؤثر بوده است یا خیر.
195
3.آزمون ویلکاکسون Wilcoxon Test
در بسیاری از پژوهشهائی که نمونهها به صورت جفت شده و همبسته هستند ممکن است محقق بخواهد هم جهت تغییر و هم میزان تغییر را مورد بررسی قرار دهد، برای این منظور آزمون ویلکاکسون تست مناسبی است. داده های مورد استفاده در این آزمون حداقل باید در سطح ترتیبی باشند. مثال: نظر تعدادی از مشتریان در رابطه با دو نوع کالای مشابه اما با مارکهای متفاوت از نظر کیفیت محصول سؤال شده است.
196
4. آزمون فریدمن Fridman Test
آزمون فریدمن یکی از آزمونهای غیرپارامتری است این آزمون در واقع معادل آزمون F در روشهای پارامتری میباشد اما در اینجا برخلاف آزمون F، فرض توزیع نرمال و برابر بودن واریانس ضرورتی ندارد. این روش برای مقایسه سه گروه یا بیشتر از سه گروه همبسته بکار میرود. مثال: نظرات 30 نفر از فراگیران را درخصوص سه روش مختلف تدریس جویا شدهایم و پاسخها نیز از 1 (بسیار نامناسب) تا 5 (بسیار مناسب) امتیازبندی شدهاند.
197
5.آزمون کوکران یکی از روشهای ناپارامتری و درواقع تعمیمیافته آزمون مک نمار است با این تفاوت که این روش برای مواردی که تعداد گروهها یا تکرار سه یا بیشتر از سه باشد بکار میرود: دادههای این آزمون به صورت اسمی میباشد و وجود تفاوت بین نظرات افراد را مورد بررسی قرار میدهد. مثال: نظرات افراد نسبت به یک موضوع در زمانهای مختلف پرسیده میشود - قبل از برگزاری یک دورۀ آموزشی (موافقت – مخالفت) - بعد از برگزاری دوره (موافقت – مخالفت) - بعد از اجرای عملی محتویات دوره (موافقت – مخالفت)
198
6.آزمون من - ویتنی Mann – Whitney Test
برای مقایسه میانگینهای دو جامعه مستقل زمانی که دادهها به صورت رتبهای یا ترتیبی باشند مورد استفاده قرار میگیرد. مثال: فرض کنید دو گروه 30 نفره از فراگیران با دو روش متفاوت آموزش دیده و نتیجه ارزیابی آنها از دورههای فوق در قالب امتیازات 1 تا 5 گردآوری شده است.
199
7. آزمون کولموگروف - اسمیرنف Kolmogrov – Smirnov Test
چنانچه در بحث کایاسکوئر گفته شد اگر فراوانیهای مورد انتظار بیش از 20 درصد خانههای جدول، کمتر از 5 باشد، در این صورت نمیتوان از فرمول کایاسکوئر استفاده کرد، این مشکل معمولاً زمانی پیش میآید که حجم نمونه کمتر از 50 باشد و یا تعداد خانههای جدول بیشتر باشد. در چنین حالتی میتوان از تست کولموگرف - اسمیرنف استفاده کرد. اساس این آزمون مقایسه فراوانی تجمعی نسبی مشاهده شده با فراوانی تجمعی نسبی مورد انتظار میباشد.
200
8. آزمون کروسکال - والیس Kruskal – Wallis Test
این آزمون در واقع معادل تحلیل واریانس یکطرفه میباشد، اما برخلاف آن نیازی به مفروضات آن نظیر اینکه نمونهها از یک جامعۀ نرمال بدستآمده باشند و یا اینکه انحراف معیار یکسانی داشته باشند وجود ندارد. آزمون کروسکال والیس زمانی استفاده میشود که تعداد نمونهها بیش از دو گروه باشد. مثال: از 90 نفر دانشجو در سه رشته مختلف درخواست شد تا کیفیت برنامههای آموزشی دانشکده را ارزیابی کنند. امتیازات ارائه شده توسط افراد فوق از 1 (بسیار ضعیف) تا 5 (بسیار قوی) در نوسان بوده است. Ho: بین نظرات دانشجویان رشتههای مختلف تفاوت معنیداری وجود ندارد. این آزمون اگرچه وجود تفاوت بین نظرات گروههای مختلف را نشان میدهد اما مشخص نمیکند که این تفاوت در بین کدام یک از گروهها وجود دارد.
201
آزمون میانه: Median test
یکی دیگر از روشهای غیرپارامتری است که برای مقایسه سه یا بیشتر از سه گروه مورد استفاده قرار میگیرد. اطلاعات مورد نیاز در این روش باید در سطح رتبهای بوده و حتیالامکان دادهها همرتبه نباشند، زیرا اگر میانه مشترک بین گروهها جزو نمرات تکراری باشد در این صورت تشخیص تفاوت گروهها با مشکل مواجه میگردد. مثال: میخواهیم بدانیم آیا سرعت عمل کارگران سه شیفت مختلف یک کارگاه خیاطی با هم متفاوت است یا خیر؟ برای این کار تعداد شلوار دوخته شده توسط 40 کارگر (از سه شیفت مختلف) در یک هفته گردآوری شده است.
202
طبقهبندی روشهای تحلیل چندمتغیره
203
انتخاب روش مناسب برای تجزیه و تحلیل دادهها مهمترین قدم در تحلیل دادههای گردآوری شده محسوب میگردد.
متأسفانه به دلیل عدم آشنائی با منطق حاکم بر روشهای مختلف آماری چند متغیره، به اشتباه یکی به جای دیگری مورد استفاده قرار میگیرد و تکنیکهای مختلف به طور نابجا بکار گرفته میشوند.
204
به منظور آشنائی با نحوه بکارگیری روشهای چند متغیره در تجزیه و تحلیل دادهها، درخت تصمیمگیری برای استفادۀ اصولی و متناسب با نوع دادهها و هدف تجزیه و تحلیل ارائه شده است، این طبقهبندی بر مبنای سؤالات و مفروضات خاصی انجام گرفته است: آیا دادههای مورد نظر قابل تقسیم به متغیرهای مستقل و متغیرهای وابسته هستند؟ اگر چنین تقسیمبندی امکانپذیر است، چند متغیر از موارد فوق، متغیر وابسته میباشند؟ متغیرهای موجود در تجزیه و تحلیل در چه سطحی اندازهگیری شدهاند؟
205
پاسخ این سه سؤال محقق را در تصمیمگیری برای انتخاب مناسبترین تکنیک تجزیه و تحلیل چند متغیره کمک میکند. پاسخ سؤال اول مشخص میکند که آیا باید از تکنیکهای وابستگی (Dependenc Technique) استفاده نمود یا باید از تکنیکهای هم وابستگی (Interodependence Technique) بهره گرفت. روشهای وابستگی تکنیکهائی هستند که در آن یک یا چند متغیر به عنوان متغیرهای وابسته لحاظ شده و تغییرات آن براساس متغیرهای مستقل دیگر مورد بررسی و تبیین قرار میگیرد مانند روش رگرسیون چندگانه یا تحلیل واریانس چند متغیره و غیره. روشهای هم وابستگی تکنیکهائی هستند که در آن متغیرهای مستقل و وابسته وجود ندارد، بلکه در این روشها مجموعه متغیرها به طور همزمان و با هم مورد تجزیه و تحلیل قرار میگیرند. مانند روش تحلیل عاملی.
207
اگر موضوع مورد تجزیه و تحلیل دارای یک متغیر وابسته از نوع پارامتری باشد، روش مناسب برای تجزیه و تحلیل آن تحلیل رگرسیون چندگانه است. * چنانچه دادههای فوق دارای یک متغیر وابسته باشد اما متغیر فوق از نوع غیرپارامتری دووجهی باشد، روش مناسب رگرسیون لوجیستیک و تحلیل تشخیص چندگانه است. چنانچه متغیر وابسته غیرپارامتری چندوجهی باشد باید از تحلیل تشخیصی استفاده شود در تحلیل تشخیصی متغیر وابسته از نوع غیرپارامتری و متغیرهای مستقل از نوع پارامتری هستند. اما چنانچه متغیرهای وابسته و مستقل هر دو غیرپارامتری باشند روش مناسب برای تجزیه و تحلیل دادهها رگرسیون لوجیستیک میباشد. تحلیل مسیر روشی است که هم برای دادههای پارامتری و هم غیرپارامتری سازگار است. اگر متغیرهای مربوط به موضوع مورد بررسی دارای چند متغیر وابسته باشد در این صورت دو تکنیک دیگر برای تجزیه و تحلیل مناسب خواهند بود. اگر متغیرهای وابسته پارامتری باشند تحلیل واریانس چند متغیره یا تحلیل همبستگی کانونی مناسب خواهد بود اما اگر متغیرهای وابسته مورد نظر غیرپارامتری باشد میتوان از طریق تبدیل آنها به متغیرهای مجازی کدبندی شده به صورت (1، 0) از روش تحلیل کانونی استفاده کرد.
208
روشهای هموابستگی بر مبنای وجود یا عدم وجود متغیرهای وابسته مورد تجزیه و تحلیل قرار نمیگیرند زیرا در این روشها کلیۀ متغیرها به طور همزمان و با همدیگر بررسی میشوند این روشها از نظر پارامتری یا غیرپارامتری بودن دادهها به دو گروه جداگانه تقسیم میشوند. پارامتری: تکنیکهای تحلیل عاملی و تحلیل خوشهای غیرپارامتری: دادههای غیرپارامتری از طریق کدبندی متغیر مجازی (به صورت صفر و یک) قابل بکارگیری در روشهای تحلیل عاملی و تحلیل خوشهای هستند. از سوی دیگر هم دادههای پارامتری و هم غیرپارامتری قابل استفاده در تکنیک مقیاسبندی چندبعدی میباشند.
209
رگرسیون
210
جمعآوری دادهها سه روش اصلی برای جمعآوری دادهها:
مطالعات قبلی بر اساس دادههای تاریخی مطالعة مشاهدهای طرح آزمایشی (بهترین حالت)
211
کاربرد رگرسیون توصیف دادهها برآورد پارامترها پیشبینی و تخمین کنترل
212
نقش کامپیوتر تحلیل رگرسیون نیازمند استفادة هنرمندانه و هوشمندانه از کامپیوتر است. SAS, SPSS, S-plus, R, MATLAB, …
213
رگرسیون و مدل سازی تحلیل رگرسیون: یک تکنیک آماری برای بررسی و مدلسازی ارتباط بین متغیرها کاربردها: مهندسی، علوم فیزیکی و شیمیایی، اقتصاد، مدیریت، علوم زیستی و بیولوژیکی و علوم اجتماعی تحلیل رگرسیون شاید گستردهترین تکنیک آماری مورد استفاده میباشد.
214
تحلیل رگرسیون این امکان را برای محقق فراهم میکند تا تغییرات متغیر وابسته را از طریق متغیرهای مستقل پیشبینی و سهم هر یک از متغیرهای مستقل را در بین متغیر وابسته تعیین کند.
215
تحلیل رگرسیون و ضریب همبستگی
رگرسیون رابطۀ نزدیکی با ضریب همبستگی دارد، بدین معنا که برای انجام رگرسیون باید ضریب همبستگی را محاسبه کرد. اگر میان متغیرهای مورد مطالعه همبستگی وجود داشت تنها در این صورت است که میتوانیم از رگرسیون برای آزمون فرضیههای تحقیق استفاده نمائیم.
216
تحلیل رگرسیون مفهوم رگرسیون برای اولین بار توسط فرانسیس گالتون در سال 1877 مورد استفاده قرار گرفت. او در مطالعه خود نشان داد که قد کودکان متولد شده از والدین بلندقامت گرایش به برگشت به متوسط قد افراد دارد. وی در یک مقالۀ مشهور اظهار داشت: اگرچه تمایل برای والدین بلندقد به داشتن فرزندان بلند قد و نیز والدین کوتاه قد به داشتن فرزندان کوتاه قد وجود دارد اما متوسط قد بچههای والدین متعلق به هر طبقة قدی معین به طرف متوسط قد در کل جامعه برگشت یا گرایش دارد (Regress)
217
تعبیر نوین تحلیل رگرسیون
تعبیر جدید رگرسیون کاملاً متفاوت از حالت قبل است به طور کلی میتوان گفت: تحلیلهای رگرسیون به مطالعۀ وابستگی یک متغیر (متغیر وابسته) به یک یا چند متغیر دیگر (متغیر توضیحی) میپردازد که با تخمین یا پیشبینی مقدار متوسط یا میانگین مقادیر متغیر نوع اول در حالتی که مقادیر متغیر نوع دوم معلوم یا معین شده باشند (در نمونهگیری تکراری) صورت میپذیرد.
218
رسم خط رگرسیون
219
تحلیل رگرسیون در مقام مقایسه با تحلیل رابطۀ علیت
هرچند تحلیلهای رگرسیون وابستگی یک متغیر به سایر متغیرها را بررسی میکند اما الزاماً بیانگر حالت علیت نمیباشد. بنا به گفته کندال و استوارت یک رابطۀ آماری هرچند قوی و واضح هرگز نمیتواند پایۀ ارتباط علی (سببی) قرار بگیرد. ایدههای ما از علیت باید خارج از حیطۀ آمار و مالاً از تئوری یا غیر آن حاصل شود. مثلاً نمیتوان گفت که بارندگی به عملکرد محصول وابسته است.
220
تفاوت عمدۀ همبستگی و رگرسیون
در رگرسیون فرض بر این است که متغیر وابسته تصادفی و متغیرهای توضیحی دارای مقدار ثابت یا غیرتصادفی (در نمونهگیری تکراری) میباشند. در همبستگی فرض بر این است که هر دو متغیر تصادفی هستند. ضریب همبستگی قادر به بیان روابط علّی و معلولی بین متغیرها نیست.
221
اگر وابستگی متغیری تنها بر روی یک متغیر توضیحی بررسی شود، چنین بررسی به عنوان تحلیل رگرسیون ساده یا دو متغیره معروف است. اگر وابستگی یک متغیر بر روی بیش از یک متغیر توضیحی بررسی گردد، تحت عنوان رگرسیون مرکب معرفی میگردد.
222
رگرسیون خطی و غیرخطی خطیبودن از نظر متغیرها خطیبودن از نظر پارامترها
223
جزء استوکاستیک (تصادفی) تابع رگرسیون جامعه
جزء تصادفی جامعه ( ) نماینده یا جانشینی برای تمامی متغیرهای حذف شده یا فراموششده که بر متغیر وابسته اثر میگذارند ولی در مدل رگرسیون وجود ندارند (یا به دلایل گوناگون نمیتوانند در مدل گنجانده شوند).
224
اهميت جزء اخلال استوکاستیک و تعبیر آن
جزء استوکاستیک نمایندهای برای تمامی متغیرهائی است که از مدل حذف شده اما مجموعاً بر y اثر میگذارد حال سؤال این است که چرا این متغیرها صریحاً در مدل معرفی نمیشوند؟ به بیان دیگر چرا یک مدل رگرسیونی مرکب با تمام متغیرهای ممکن بسط داده نمیشوند. دلایل فراوانی وجود دارد: ممکن است تئوری ناقص باشد یعنی از تأثیرگذاری بعضی از متغیرها بر متغیر وابسته بیاطلاع باشیم. ممکن است راجع به بعضی از متغیرها دادههای اندکی داشته باشیم. جمعآوری داده در مورد بعضی از متغیرها به نسبت تأثیر آنها در مدل ممکن است بسیار زیاد باشد. به دلیل ماهیت تصادفی بودن متغیر وابسته، توضیح کامل آن ممکن نیست و جزء اخلال میتواند آنرا منعکس کند. ممکن است در اندازهگیری خطا صورت گرفته باشد. با تأسی به قاعدۀ اُکام (توصیف راجع به پدیدهها حتی الامکان ساده در نظر گرفته شود، و اینکه خلاف آن ثابت نشده است) مطلوب است مدل رگرسیون را تا حد ممکن سادهتر بگیریم.
225
تخمین مدل رگرسیون دو متغیره
روش حداقل مربعات معمولی Ordinary Least Square (OLS) برطبق فروض اصلی، روش حداقل مربعات چند خاصیت بسیار جالب آماری دارد که یکی از مشهورترین و قویترین روشهای تحلیل رگرسیون را به وجود آورده است (این روش به کارل فردریک گوس، ریاضیدان نامی آلمان نسبت داده میشود).
226
مشاهدات
227
نمودار پراکندگی
228
قاعدۀ کلی حداقل مربعات
229
تخمين زنندههای حداقل مربعات
روش حداقل مربعات، تخمینهای منحصر بفردی از و را که کوچکترین مقدار ممکن را به نمونه ارائه شده بدهد، مهیا میسازد. تخمين زنندههای حداقل مربعات
230
اين تخمينزنندهها خصوصیات جالبی دارند که عبارتند از:
منحصراً برحسب مقادیر قابل مشاهده بیان میشوند (مثلاً و در یک نمونه) این تخمینزنها، تخمینزنهای نقطهای هستند یعنی در نمونه داده شده با هر تخمینزن فقط مقدار منحصر به فردی (نقطه) برای پارامتر جامعۀ مربوطه ارائه میکند (بنابراین خط رگرسیون را میتوان به آسانی برازش نمود)
231
فرضیات اساس روش حداقل مربعات
اگر هدف ما تنها تخمین و باشد، روش OLS کافی است اما به یاد داریم که در تحلیل رگرسیون هدف تنها بدستآوردن و نیست بلکه هدف استنتاجاتی دربارۀ و واقعی میباشد. برای رسیدن به این هدف نه تنها باید شکل تبعی مدل را تعیین کنیم بلکه باید فرضیات معینی دربارۀ چگونگی بوجودآمدن و را نیز مطرح سازیم: اين معادله نشان میدهد که هم به و هم به بستگی دارد. بنابراین تا زمانی که ندانیم و چگونه بدست میآیند هیچ راهی برای دستیابی به استنتاجات آماری دربارۀ و همچنین و نخواهیم داشت. از این رو فرضیات مبتنی بر متغیر و جزء خطا برای تفسیر معتبری از تخمینهای رگرسیون اهمیت دارند.
232
آنچه به عنوان مدل رگرسیون خطی عمومی، گوسی، کلاسیک یا استاندارد معروف میباشد، مبتنی بر فرضیات زیر است: فرض1: میانگین ui ها صفر است اين فرض بيان ميكند كه مقدار میانگین ui ها برحسب Xi مفروض صفر است.
233
فرض2: عدم وجود خودهمبستگی بین uها
234
فرض 3: یکسانی (همسانی) واریانس Ui ها
این فرض بیان میکند که جامعۀ Y متناظر با مقادیر مختلف X واریانس یکسان دارند.
235
در مقابل این حالت شکل زیر، واریانس شرطی جامعۀ y همراه با افزایش مقدارX افزایش می یابد، این حالت به ناهمسانی واریانس و یا ناهمسانی در پراکندگی معروف است.
236
فرض4: کوواریانس صفر بین و Ui , Xi
فرض نمودیم که x و u (که میتواند تأثیر تمام متغیرهای حذف شده را نشان دهد) دارای تأثیرات جمعپذیر و مجزا بر y میباشند اما اگر X و u همبسته باشند. تشخیص تأثیر خاص و مجزای هر کدامشان بر y ممکن نیست. بنابراین اگر X و u به طور مثبت همبستگی داشته باشند X با افزایش u افزایش و با کاهش u کاهش مییابد به همین شکل اگر X و u به طور منفی همبسته باشند X با افزایش u کاهش و با کاهش u افزایش مییابد و به هر ترتیب جداکردن تأثیر X و u بر Y مشکل است.
237
فرض5: مدل رگرسیون دقیقاً تصریح شده است (عدم وجود خطای تصریح یا تورش)
فرض5: مدل رگرسیون دقیقاً تصریح شده است (عدم وجود خطای تصریح یا تورش) سؤالات فوق بسیار مهمند چراکه با حذف متغیرهای اصلی از مدل، انتخاب شکل تبعی غلط و یا مطرح کردن فرضهای آماری نادرست دربارۀ متغیرهای مدل، اعتبار تفسیر رگرسیون تخمینزده شده، زیر سؤال خواهد رفت.
238
از میان تمامی فرضها، این فرض انعطافناپذیرترین و شاید در نظر اول دارای کمترین محل اعراب باشد.
یک مدل رگرسیون در یک تحقیق با تصریح مدل آن در رابطه با پدیدههای مورد نظر شروع میشود. بعضی از سؤالات مهم که در تصریح مدل پدید میآیند عبارتند از: چه متغیرهائی باید در مدل جای گیرند؟ شکل تبعی مدل چیست؟ آیا این مدل از نظر پارامترها خطی است یا از نظر متغیرها و یا هردو؟ فرضهای احتمالی ارائه شده در مورد، Yi و Xi و ui های درون مدل چه میباشند؟
239
متأسفانه در عمل، شخص به ندرت از متغیرهای صحیحی که باید در مدل منظور شود، شکل تبعی صحیح و یا فرض احتمالی صحیح در مورد متغیرهای وارد شده در مدل اطلاع دارد. بنابراین در عمل کارشناس از بعضی قضاوتها در انتخاب تعدادی از متغیرهای واردنشده در مدل یا شکل تبعی مدل استفاده کرده و برخی فرضها را در مورد ماهیت تصادفی متغیرهای مشمول در مدل پیش میکشد و در انتخاب مدل صحیح برای تحلیل تجربی تا حدی مستلزم آزمون و خطاست.
240
پراکندگی منحنی فیلیپس
241
منحنی فیلیپس
242
خصوصیات تخمینزنندههای حداقل مربعات: قضیۀ گوس- مارکف
یک تخمینزن 2 را زمانی میتوان بهترین تخمینزن بدون تورش خطی (BLUE) از 2 دانست که: تخمینزن خطی باشد. یعنی تابعی خطی از یک متغیر تصادفی مانند متغیر وابستهYدر مدل رگرسیون باشد. تخمینزن بدون تورش باشد تخمينزن در بین تمام تخمینزنندههای بدون تورش خطی، حداقل واریانس را داشته باشد (تخمینزن بدون تورش با حداقل واریانس به تخمینزن کارا معروف است).
243
The Gauss-Markov Theorem: are the best linear unbiased estimators (BLUE).
244
قضیۀ گوس- مارکف با توجه به فرضهای مدل کلاسیک رگرسیون خطی، تخمینزنندههای حداقل مربعات در بین تخمینزنندههای خطی، بدون تورش و دارای حداقل واریانس یعنی BLUE میباشند.
245
ضرائب تعیین r2 (معیار خوبی برازش) و ضریب همبستگی r2
ضریب همبستگی: r میتواند مثبت یا منفی باشد. این کمیت بین دو مقدار 1+ و 1- میباشد. این کمیت ماهیتاً قرینه میباشد یعنی ضریب همبستگی بین x و y یعنی rxy معادل ضریب همبستگی بین y و x (ryx) است. این کمیت مستقل از مبدأ و مقیاس اندازهگیری است. اگر x و y از لحاظ آماری مستقل باشند ضریب همبستگی بین آنها صفر است و r = 0 به این معنا نیست که دو متغیر مستقلند (قسمتh شکل صفحه بعد) این کمیت صرفاً معیاری جهت همبستگی خطی یا وابستگی خطی است و برای توصیف ارتباطات غیرخطی قابل استفاده نیست. بنابراین در قسمت h Y=X2 بیانگر یک ارتباط دقیق است اما میزان r معادل صفر است. هرچندکه r معیار همبستگی خطی بین دو متغیر است ولی همانطور که قبلاً اشاره شد بیانگر هیچگونه رابطۀ علت و معلولی نمیباشد.
246
الگوهای همبستگی
247
ضریب تعیین در زمینۀ رگرسیون، r2 معیار پرمعناتری از r است چرا که r2 نسبت تغییرات متغیر وابسته توضیح داده شده به وسیلۀ متغیرهای توضیحی را ارائه میدهد درحالیکه r فاقد چنین خصوصیتی است. به علاوه تعبیرr (R=) در یک مدل رگرسیون مرکب زیر سؤال میباشد.
248
کوشش برای حداکثرکردن R2 گاهی محققان سعی در حداکثرکردن R2 دارند یعنی انتخاب مدلی که بالاترین R2 را به دست میدهد اما انجام این کار ممکن است خطرناک باشد زیرا در تحلیل رگرسیون هدف ما آن نیست که تنها یک R2 بالا به دست آوریم. بلکه هدف بدست آوردن تخمینهای قابل اطمینانی از ضرائب حقیقی رگرسیون جامعۀ اصلی و استنباط آماری دربارۀ آنهاست. در تحلیلهای تجربی بدست آوردن یک R2 بسیار بالا چندان معمول نبوده بلکه حتی گاهی برخی از ضرائب تخمینزده شدۀ رگرسیون از لحاظ آماری بیمعنی بوده یا دارای علامتهائی برخلاف انتظارات قبلی هستند. بنابراین محقق باید دقت بیشتری دربارۀ ارتباط منطقی یا تئوریکی متغیرهای توضیحی یا متغیر وابسته و معنیداری آماری آنها داشته باشد. اگر R2 بالا بدست آوریم خوب خواهد بود اما اگر R2 پایین باشد این امر به معنی بدی مدل نمیباشد.
249
فرض نرمال: مدل رگرسیون خطی نرمال کلاسیک
فرض نرمال: مدل رگرسیون خطی نرمال کلاسیک
250
توزیع احتمالی اجزاء اخلال ui
برای کاربرد روش حداقل مربعات معمولی (OLS) در مدل کلاسیک رگرسیون خطی، هیچ فرضی در مورد توزیع احتمالی جزء اخلال ui ارائه نکردیم. تنها فروضی که در مورد ui مدنظر قرار گرفت عبارت بودند از اینکه اجزا مذکور دارای امید صفر، عدم همبستگی و واریانس ثابت هستند.
251
اگر هدف ما تنها تخمین پارامترها باشد در اینصورت روش OLS کافی خواهد بود اما تأکید بر تخمین تنها یکی از جنبههای استنتاج آماری است و جنبۀ دیگر آزمون فرضیه میباشد. از آنجا که هدفمان هم تخمین پارامترها و هم آزمون فرضیه است، لذا احتیاج به تعیین توزیع احتمالی جزء اخلال ui خواهیم داشت.
252
فرض نرمال بودن ميانگین واریانس کوواریانس ui ، uj
253
طبق قضیۀ مشهور آماری حدی مرکزی میتوان نشان داد که اگر با تعداد زیادی از متغیرهای مستقل و تصادفی که دارای توزیع احتمالی یکسانی هستند مواجه باشیم، در این صورت به استثناء چند حالت خاص، با افزایش تعداد متغیرها به سمت بینهایت توزیع مجموع آنها به سمت توزیع نرمال میل میکند.
254
خصوصیت تخمینزنندههای OLS تحت فرض نرمال بودن
بدون تورش هستند دارای حداقل واریانس هستند سازگاری: یعنی همانطور که حجم نمونه به سمت بینهایت افزایش مییابد، تخمینزنندهها نیز به مقادیر جامعهشان نزدیک میشوند به طور نرمال توزیع شده است عبارت از توزیع کایدو با درجۀ آزادی (N-2) تبعیت میکند. و مستقل از توزیع شدهاند. و در گروه تخمینزنندههای بدون تورش خطی یا غیرخطی دارای حداقل واریانس هستند. بنابراین میتوان گفت که تخمینزنندههای حداقل مربعات بهترین تخمینزنندههای بدون تورش (BLUE) هستند.
256
رگرسیون دومتغیره: تخمین فاصلهای و آزمون فرضیه
رگرسیون دومتغیره: تخمین فاصلهای و آزمون فرضیه
257
فاصلة اطمینان از آنجائیکه فاصلۀ اطمینان تصادفی است، احتمالهای بدست آمده میبایست در معنای درازمدت فهمیده شوند، یعنی نمونهگیری تکراری به طور مشخصتر به این معنی است که: اگر در نمونهگیری تکراری، فواصل اطمینان براساس احتمال به تعداد زیاد ساخته شوند آنگاه در درازمدت به طور متوسط چنین فواصلی در مورد از تعداد کل موارد، مقدار حقیقی پارامتر را در بر میگیرند.
258
آزمون فرضیه و انتخاب سطح معنیداری
خطای نوع اول: احتمال ردکردن فرضیۀ درست. خطای نوع دوم: احتمال قبول فرضیۀ نادرست. براساس هزینۀ هر کدام از خطاهای فوق، محقق اقدام به انتخاب سطح معنیداری خواهد نمود.
259
نقض فروض مدل کلاسیک مدل کلاسیک رگرسیون خطی نرمال براساس چند فرض ساده شده به شرح زیر است: فرض1: میانگین شرطی جزء اخلال جامعه مشروط به مقادیر مفروض متغیرهای توضیحی (xها) صفر است. فرض2: واریانس شرطی ui ثابت یا همسان است. فرض3: خودهمبستگی در اجزا اخلال وجود ندارد. فرض4: متغیرهای توضیحی غیرتصادفیاند. حتی اگر تصادفی هم باشند، مستقل از اجزا اخلال ui توزیع شدهاند. فرض5: بین متغیرهای توضیحی (xها) همخطی مرکب وجود ندارد. فرض6: ui ها به طور طبیعی با میانگین و واریانس داده شده در فروض 1 و 2 توزیع شدهاند. فرض7: مدل رگرسیون به طور صحیح تصریح شده است، یعنی تورش تصریح وجود ندارد.
260
با این فروض دیدیم که تخمینزنهای حداقل مربعات معمولی (OLS) ضرائب رگرسیون، بهترین تخمینزنهای بدون تورش خطی BLUE میباشند. فروض 1، 4 و 6 را به دلایل زیر به طور مفصل مورد بحث قرار نخواهیم داد: فرض1: امید صفر جزء اخلال: اگر این فرض تأمین شود نمیتوان عرض از مبدأ اصلی را تخمین زد و چون در بسیاری از حالتهای کاربردی، جزء عرض از مبدأ اهمیت ناچیزی دارد چندان تأثیری نخواهد داشت. فرض4: حالت تصادفیبودن متغیرهای توضیحی: اگر xها با وجود تصادفیبودن به طور مستقل از uها توزیع شوند آنگاه برای تمام مقاصد کاربردی، xها را میتوان غیراستوکاستیک فرض کرد. فرض6: نرمال بودن u: اگر هدف ما صرفاً تخمین باشد، این فرض ضروری نیست. فرض نرمال بودن به منظور آزمون فرضیه و پیشبینی بسیار مهم است.
261
همخطی Multicollinearity
یکی از فروض مدل کلاسیک رگرسیون خطی این است که هیچگونه همخطی مرکب بین متغیرهای توضیحی موجود در مدل وجود ندارد. x2 x3 10 50 15 75 18 90 24 120 30 150 توجه داشته باشید که همخطی تنها ارتباطات خطی بین متغیرهای x را شامل میشود و ارتباطات غیرخطی بین آنها را در بر نمیگیرد. اگر همخطی وجود داشته باشد ضرائب رگرسیونی متغیرهای x نامعین و انحراف معیارشان بینهایت است. (همخطیکامل) همخطی ویژگیهای BLUE بودن تخمینها را نقض نمیکند.
262
نتایج عملی همخطی الف- بزرگی واریانس و کوواریانسهای تخمینزنهای OLS
ب- فواصل اعتماد عریضتر: احتمال قبول شدن یک فرضیۀ غلط (مثلاً خطای نوع دوم) ج- نسبتهای غیرمعنادار r: مقادیر t کوچک میشوند و فرضیۀ صفر به معنای صفربودن پارامترهای جامعۀ واقعی مورد قبول واقع میشود. د- R2 بالا اما تعداد اندک نسبتهای معنادار. هـ- حساسیت تخمینزنهای OLS و خطای معیار آنها نسبت به تغییرات اندک در دادهها
263
کشف همخطی الف- در همخطی سؤال از درجه است نه از نوع. تمایز معناداری بین حضور و عدم حضور همخطی وجود ندارد، بلکه تمایز بین درجات گوناگون آن است. از آنجایی که همخطی به شرایط متغیرهای توضیحی برمیگردد که فرض شده غیرتصادفی باشند لذا این حالت شکلی از نمونه است نه جامعه بنابراین ماآزمون برای همخطی صورت نمیدهیم، بلکه میتوان درجهاش را در نمونۀ مشخص اندازهگیری نمود. ب- 1. R2 بالا اما تعداد کم نسبتهای t معنیدار 2. همبستگی شدید بین دوبدو متغیرهای توضیحی 3. امتحان ضرائب جزئی 4. رگرسیونهای معین 5. ریشۀ مشخصه (Eigenvalue) و شاخص وضعیت (Condition Index) در برنامۀ SAS از ریشۀ مشخصه و شاخص وضعیت برای تشخیص همخطی استفاده میکنند.
264
رفع مشکل همخطی: قاعدۀ محکم و دقیقی جهت چارهجوئی مشکل وجود ندارد، چراکه همخطی الزاماً یک مشکل نمونهای است. اطلاعات قبلی (تئوریکی) ترکیب کردن دادههای مقطعی و سریهای زمانی (دادههای مرکب) حذف متغیرها و تورش تصریح تبدیل متغیرها دادههای جدید یا اضافی (افزایش حجم نمونه)
265
با افزایش یک متغیر (درآمد) متوسط متغیر دیگر (پسانداز) افزایش مییابد.
ناهمسانی واریانس Heteroscedasticity یکی از مهمترین فروض مدل رگرسیون خطی کلاسیک این است که اجزاء اخلال ui که بر تابع رگرسیون جامعه ظاهر میشوند، دارای واریانس همسان هستند. با افزایش یک متغیر (درآمد) متوسط متغیر دیگر (پسانداز) افزایش مییابد. «ناهمسانی واریانس»
266
نتایج کاربرد روش OLS در شرایط وجود ناهمسانی واریانس
اگر فرض ناهمسانی را جایگزین فرض همسانی نمائیم تخمینزن هنوز BLUE هست اما دیگر کارا یا بهترین نیست و دارای حداقل واریانس نیز نمیباشد در این حالت از روش تخمین معروف به حداقل مربعات تعمیمیافته (GLS) استفاده مینمائیم. نتایج کاربرد روش OLS در شرایط وجود ناهمسانی واریانس فاصلۀ اطمینان براساس بیش از حد لازم بزرگ خواهد شد و در نتیجه آزمونهای t و F احتمالاً نتیج غلطی به ما خواهند داد.
267
کشف ناهمسانی واریانس روش ترسیمی: ابتدا رگرسیون را براساس فرض عدم ناهمسانی تحلیل کرده و سپس مجذور باقیماندههای تخمینزده شده ei2 را مورد بررسی قرار داد تا ببینیم چه الگوی سیستماتیک و منظمی را نشان میدهند. واریانس جزء اخلال به طور خطی یا متغیر x مربوط است. 2. آزمون پارک: پارک روش گرافیکی را در قالب فرمول بیان داشته است. 3. آزمون گلدفلد- کوانت آزمون گلچس آزمون بروج پاگانت آزمون وایت
268
خودهمبستگی یکی از فروض مهم مدل کلاسیک این است که خودهمبستگی سریالی بین اجزاء اخلالی که در تابع رگرسیون جامعه وارد میشود وجود ندارد. ماهیت خودهمبستگی: همبستگی بین اعضای سریهای مشاهداتی است که در زمان (سریهای زمانی) یا مکان (دادههای مقطعی) ردیف شدهاند. اگر محصول در یک فصل کم باشد دلیلی بر کم بودن محصول در فصل دیگر نمیباشد (عدم خودهمبستگی)
269
تخمین OLS در حالت وجود خودهمبستگی
در حالت خودهمبستگی تخمینزن GLS خصوصیت BLUE داشته و تخمینزن OLS چنین خصوصیتی ندارد. تخمینزن OLS از اطلاعات موجود بیشترین استفاده را میکند. درحالت وجود خودهمبستگی نیز همانند حالت ناهمسانی، تخمینزنهای OLS خطی و بدون تورش و لذا سازگارند ولی کارا نیستند (یعنی حداقل واریانس را ندارند) فواصل اعتماد بزرگتر از حالت معمول خواهد بود (OLS نسبت به GLS)
270
تخمین OLS بدون در نظر گرفتن خودهمبستگی
احتمالاً واریانس باقیمانده مقدار واقعی سیگما به توان دو را کمتر از حد تخمین میزند. در نتیجه R2 بیش از حد تخمین زده میشود. آزمونهای معنیداری t و F معتبر نیستند و اگر آنها را بکار ببریم نتایج بسیار غلطی در مورد معنیداری آماری ضرایب تخمینزده شدۀ رگرسیون بهدست خواهیم آورد.
271
کشف خودهمبستگی: -روش ترسیمی -آزمون تسلسل -آزمون دوربین واتسون : مشهورترین آزمون تشخیص همبستگی سریالی است DW فروض زیربنایی آزمون D.W 1.مدل رگرسیون دارای جزء عرض از مبدأ است 2. متغیرهای توضیحی غیرتصادفی هستند 3. اجزاء اخلال به وسیلۀ الگوی خود رگرسیونی مرتبۀ اول حاصل میشوند. 4. مدل رگرسیون شامل مقادیر با وقفهای از متغیر وابسته به عنوان یکی از متغیرهای توضیحی نیست. 5. هیچ مشاهدۀ مفقودهای در دادهها وجود ندارد.
272
تصریح مدل یکی از فروض کلاسیک، تصریح مدل بود به عبارت دیگر فرض بر این بود که تورش یا خطای تصریح در مدل وجود ندارد. این موضوع بسیار گسترده و پیچیده میباشد و بسیاری از مباحث آن بالاتر از سطح مفروض ما میباشد. این قسمت دربرگیرندة مسائل زیر است: مدل خوب یا صحیح متضمن چه خصوصیاتی است؟ فرض کنید که یک مدل صحیح برای تحلیل یک مسألة خاص ارائه شده است اما به علت در دسترس نبودن آمار و ارقام، سهلانگاری، ملاحظات هزینهای یا سستی، مدل متفاوتی را بکار بردیم و بنابراین نسبت به مدل صحیح مرتکب خطای تصریح شدهایم. حال سؤال این است که در عمل وقوع چه نوعی از شکلهای مختلف خطاهای تصریح وجود دارد؟ نتایج انواع مختلف خطای تصریح کدامند؟ طرق کشف این نوع خطاها کدامند؟ اگر به ارتکاب خطای تصریح پی بردیم چه راههایی برای دستیابی و برگشت به مدل صحیح وجود دارد؟ در 5 مورد بالا فرض بر این بود که یک مدل صحیح وجود دارد و ما مایل به دانستن مشکلات عارض شده در اثر کاربرد مدل دیگری بودیم اما اگر اصلا ندانیم که کدام مدل صحیح است دچار خطای تعیین غلط مدل می شویم که با خطای نوع قبلی یعنی خطای تصریح متفاوت است.
273
خصوصیات یک مدل خوب قلت منطقی متغیرهای توضیحی: یک فرضیه (مدل) زمانی با ارزش و مهم خواهد بود که مقدار زیادی از تغییرات را به وسیلة تعداد کمی از متغیرها بتوان توضیح داد. قابلیت تشخیص: برای مجموعه داده های معین، پارامترهای تخمین زده شده باید مقادیر منحصر بفردی را به دست دهند به عبارت دیگر تنها یک تخمین برای هر پارامتر مشخص به دست آید. خوبی برازش: سازگاری با تئوری قدرت تعمیم دهی و پیشنگری: تنها آزمون مناسب برای اعتبار یک فرضیه (مدل) مقایسة پیش بینی آن با تجارب است.
274
انواع خطای تصریح حذف یک متغیر مهم واردکردن متغیر غیرلازم
درنظر گرفتن یک شکل تبعی غلط خطای در اندازه گیری
275
نتایج خطای تصریح حذف یک متغیر مهم: لحاظ کردن یک متغیر نامربوط
ضرایب رگرسیون اشتباه برآورد می شوند (تورشدار، ناسازگار) واریانس جزء اخلال اشتباه تخمین زده می شود. نهایتاً فاصلة اطمینان و آزمون فرضیه نتایج گمراه کننده ای را راجع به معنادار بودن آماری پارامترهای تخمین زده شده به دست می دهند. لحاظ کردن یک متغیر نامربوط تخمینها ناتور و ناسازگارند واریانس خطا درست برآورد می شود. آزمون فرضیه و فاصلة اعتماد معتبر می باشند. به طور کلی ضرایب برآوردشده غیرکارا هستند یعنی واریانس آنها عموماً بزرگتر از واریانسهای ضرایب حقیقی می باشند. (دقت کم در استنتاجهای احتمالی پارامترها) (احتمال ایجادشدن مشکل همخطی را نیز زیاد می کند) (درجة آزادی را کم می کند)
276
آزمونهای کشف خطای تصریح
کشف وجود متغیرهای غیرلازم آزمون معنادار بودن ضریب متغیر اضافه (آزمون F) آزمونهای راجع به متغیرهای حذف شده و شکل تبعی غلط استفاده از باقیمانده ها (ملاحظة گرافیک این باقیمانده ها) آزمون Reset رمزی آزمون نسبت راستنمایی آزمون والد آزمون ضریب لاگرانژ آزمون هاسمن
277
استفاده از باقیماندهها (ملاحظة گرافیک این باقیماندهها)
278
رگرسیون بر روی متغیرهای موهومی
در بسیاری از تحلیلهای رگرسیونی، متغیر وابسته نه تنها تحتتأثیر متغیرهای کمی (مثل تولید، میزان کود مصرفی،...) با مقیاسهای متداول است، بلکه از متغیرهای ماهیتاً کیفی (جنس، نژاد، ...) نیز تبعیت میکند. نظر به اینکه متغیرهای کیفی عموماً دلالت بر وجود یا عدم وجود کیفیت یا صفتی دارند، لذا یک روش برای کمی کردن این صفات،درنظر گرفتن متغیرهای ساختگی با قبول دو مقدار ضفر و یک میباشد که صفر بیانگر عدم وجود آن صفت و یک حاکی از وجود آن میباشد. به این ترتیب متغیرهایی که این مقادیر صفر و یک را اختیار میکنند، متغیرهای موهومی (Dummy Variable) نام دارند. اسامی دیگر این متغیرها عبارتند از متغیرهای دلالتکننده بر یک صفت، متغیرهای دوتایی، متغیرهای طبقهای، متغیرهای کیفی، متغیرهای منقسم به دو، متغیرهای مجازی.
279
متغیرهای موهومی به همان سادگی متغیرهای کمی در تحلیل رگرسیونی به کار میروند.
اگر چنانچه یک مدل رگرسیونی تنها بر حسب متغیرهای توضیحی موهومی یا کیفی بیان شده باشند، آن را مدل آنالیز واریانس مینامند. در بیشتر تحقیقات اقتصادی، معمولاً یک مدل رگرسیون شامل چندین متغیر توضیحی میباشد که تعدادی از آنها کمی و بقیه کیفی میباشند، این گونه مدلهای رگرسیونی که شامل دو نوع متغیرهای کمی و کیفی هستند را مدلهای آنالیز کوواریانس (ACOV) مینامند. قاعدةکلی برای تعداد متغیرهای موهومی: چنانچه متغیر کیفی موردنظر دارای m طبقه باشد، آنگاه بایستی فقط به تعداد m-1 متغیر موهومی در مدل منظور شود در غیر اینصورت در دام متغیر موهومی گرفتار خواهیم شد (همان حالت ایجاد همخطی کامل بین متغیرهای موهومی)
280
رگرسیون بر روی یک متغیر کمی و یک متغیر کیفی با بیش از دو طبقه
پيش بيني تلفات برداشت گندم و تحليل داده ها به روش مدل متغيرهاي موهومي (کد مقاله653) احسان مصدری[1] ، محمد حسین عدالت[2] ، محمد جواد خلیلی[3] ، حمید طاهرپور کلانتری[4] مجموعه مقالات پنجمین کنگرة ملی مهندسی ماشینهای کشاوزی و مکانیزاسیون
281
مدل متغيرهاي موهومي گونه اي از مدل هاي رگرسيوني است که بوسيله آن مي توان اثر متغيرهاي کيفي را بر روي متغير وابسته سنجيد. اين مدل ها مي توانند فقط از متغيرهاي موهومي (کيفي) تشکيل شده باشد که در اين صورت آن را مدل آناليز واريانس مي نامند و يا مي تواند ترکيبي از متغيرهاي موهومي و کمي باشد که در اين صورت آن را مدل آناليز کوواريانس مي نامند. در اين مدل تمام متغيرهاي کيفي را بايستي با استفاده از روش مناسب به صورت صفر و يک تبديل کرد. براي تخمين مدل در اين مطالعه از يک تابع خطي به شکل زير استفاده شده است. که در ان نشان دهنده متغيرهاي مستقل و نشان دهنده متغير وابسته و مقادير و ضرايبي است که در پي تخمين زدن هستيم. اين مدل با استفاده از روش OLS به راحتي قابل تخمين است .اما شيوه تفسير ضرايب متغيرهاي موهومي متفاوت خواهد بود. متغيرهاي مستقل وارد شده در اين مدل جهت تخمين رابطه ريزش شامل منطقه، واريته گندم، مدل کمباين، نوع کشت، عملکرد، عمر کمباين، تاريخ برداشت و ساعت برداشت ميباشد. متغير وابسته درصد ريزش است که حاصل جمع ربزش عمليات برداشت و ريزش طبيعي محصول ميباشد.
282
متغير منطقه داراي چهار حالت مشهد، تربت جام، خواف و تايباد مي باشد که از اين ميان منطقه مشهد به عنوان وضعيت پايه انتخاب شده و ساير مناطق به ترتيب با متغير هاي Torbatjam، Khaf و Taybad وارد الگو مي شود. در اين صورت چنانچه مقادير هر سه ناحيه برابر صفر باشد نشان دهنده شهرستان مشهد، اگر متغير Torbatjam برابر يک باشد و ساير متغيرها صفر باشند نشان دهنده تربت جام و اگر متغير Khaf برابر يک باشد و ساير متغيرها صفر باشد نشان دهنده شهرستان خواف و در نهايت اگر متغير Taybad برابر با يک و ساير متغير ها صفر باشد نشان دهنده شهرستان تايباد خواهد بود. به عبارت ساده تر براي هر شهرستان يک متغير کيفي تعريف شده است که مقدار يک، نشان دهنده برداشت در آن شهرستان و مقدار صفر نشان دهنده برداشت در يک شهرستان ديگر مي باشد. براي هر مشاهده حداکثر يک متغير برابر با يک مي شود و ساير مناطق صفر است. همانطور که قبلا گفته شد اگر مقدار هر سه متغير صفر باشد نشان دهنده شهرستان پايه يعني مشهد است.
283
به همين ترتيب براي واريته گندم که شامل چهار رقم فلات، روشن، سرداري و گاسكوژن است، واريته فلات به عنوان واريته پايه انتخاب شده و ارقام روشن، سرداري و گاسکوژن به وسيله متغيرهاي کيفي Roshan ، Sardary و Gaskojen وارد الگو شده است. مدل هاي کمباين شامل جاندير و سهند S68 است که به وسيله يک متغير کيفي با نام Model وارد الگو شده است. مقدار يک نشان دهنده استفاده از کمباين جاندير و مقدار صفر نشان دهنده کمباين S68 است. نوع کشت شامل دو وضعيت آبي و ديم است که به وسيله متغير Abideym مشخص شده است مقدار يک نشان دهنده کشت آبي و مقدار صفر نشان دهنده کشت ديم است. به اين ترتيب متغيرهاي مستقل کيفي شامل منطقه، واريته گندم، نوع کشت و مدل کمباين وارد الگو ميشوند، ساير متغيرها شامل عمر کمباين، تاريخ برداشت و ساعت برداشت متغيرهاي کمي هستند که به ترتيب با نام هاي Omr ، Tarikh ، Saat معرفي ميشوند. متغير Omr برحسب سال، متغير Tarikh برحسب شماره روز از ابتداي سال 84 و متغير Saat برحسب فاصله زماني از ساعت 12 شب که مقداري بين صفر تا يک مي باشد در نظر گرفته شده است. معنيداري کلي رگرسيوني با استفاده از آزمون F و معني داري ضرايب با استفاده از آزمون t بررسي ميشود.
284
رگرسیون بر روی متغیر وابستة موهومی
در مدلهای رگرسیونی دارای متغیر موهومی، این فرض ضمنی وجود داشت که متغیرهای توضیحی میتوانند کمی، کیفی یا ترکیبی از آن دو باشند. در حالیکه متغیر به هر حال بایستی قابل اندازهگیری کمی باشد. در این قسمت مدلهای رگرسیونی مورد نظر قرار میگیرند که در آنها متغیر وابسته یا تابع، خود ماهیتاً بیانگر دو گروه است که هر یک مقادیر 0 و 1 را اختیار میکنند.
285
عموماًًًًً برای تخمین این مدلها سه روش وجود دارد:
مدل احتمال خطی linear probability model (LPM) مدل لاجیت (Logit) مدل پروبیت (Probit)
286
مدلهای معادلات همزمان
287
بسیاری از روابط آماری به وسیلة مدلهای تک معادلهای قابل تبیین هستند
بسیاری از روابط آماری به وسیلة مدلهای تک معادلهای قابل تبیین هستند. در این مدلها یک متغیر (متغیر وابسته) به عنوان تابعی خطی از یک یا چند متغیر دیگر (متغیرهای توضیحی) درنظر گرفته میشوند. به این ترتیب به طور ضمنی فرض بر این است که رابطة علْی (درصورت وجود بین دو متغیر x و y یکطرفه میباشد یعنی متغیرهای توضیحی حکم علت و متغیر وابسته حکم معلول را دارا میباشد. اما مواردی وجود دارد که با جریانی دوطرفه از رابطة علی بین متغیرها مواجهیم یعنی یک متغیر در عین تأثیرگذاری بر متغیر(های) دیگر، از آن (آنها) نیز تأثیر میپذیرد. بدیهی است در این حالت، تحلیل رگرسیونی قبل (OLS) برای مطالعة چنین وضعی مناسب نخواهد بود چرا که دو متغیر متقابلاً بهم وابستهاند. به عبارت دیگر در این حالت به دو معادله احتیاج خواهیم داشت و همین ضرورت است که ما را متوجه مبحث معادلات همزمان میکند.
288
در این حالت از روشهای زیر استفاده میشود:
اگر در این حالت از سایر معادلات در سیستم چشمپوشی نماییم و پارامترهای هر معادله را به وسیلة روشی مانند حداقل مربعات معمولی تخمین بزنیم، این تخمینها نه تنها تورشدار بلکه ناسازگار نیز خواهند بود چون یکی از فروض قاطع روش OLS ، داشتن توزیع مستقل متغیرهای توضیحی از جزء اخلال استوکاستیک است که در معادلات همزمان نقض میشود. در این حالت از روشهای زیر استفاده میشود: روش حداقل مربعات دو مرحله (2SLS) روش حداقل مربعات سهمرحلهای (3SLS) روش حداقل مربعات سه مرحلهای تکراری (I3SLS) روش حداکثر راستنمایی روش حداکثر راستنمایی با اطلاعات محدود (LIML) روش سیستمی حداکثر راستنمایی با اطلاعات کامل (FIML)
289
تحلیل مسیر در حوزة مطالعات اجتماعي و اقتصادي، روشهاي تحليل چندمتغيرة زيادي وجود دارند كه به بررسي اثرات و روابط بين متغيرهاي مورد مطالعه ميپردازند. اين روشها عمدتاًً اثرات مستقيم يك متغير بر متغير ديگر را مورد بررسي قرار ميدهد. اما در اين ميان تحليل مسير از جمله تكنيكهاي چندمتغيره است كه علاوه بر بررسي اثرات مستقيم متغيرهاي مستقل بر متغير وابسته، اثرات غيرمستقيم اين متغيرها را نيز مدنظر قرار ميدهد و روابط بين متغيرها را مطابق با واقعيتهاي موجود در تحليل وارد ميكند و با بيان منطقي، روابط و همبستگي مشاهدهشدة بين آنها را تفسير ميكند.
290
خاستگاه تحلیل مسیر توسط Sewell Wright توسعه یافت.
Formulated in series of papers published in 1918, 1921, 1934, 1960 برای استخراج اثرات مستقیم و غیرمستقیم در بین متغیرها ایجاد شد. تحلیل مسیر با ارتباطات تبعی در بین متغیرها سرو کار دارد.
291
اصل اساسی موردنظر در تحلیل مسیر این است که هر ضریب همبستگی بین دو متغیر را میتوان به مجموعهای از مسیرها تجزیه کرد. استفاده از تکنیک تحلیل مسیر مستلزم قبول پیشفرضی است مبنی بر اینکه روابط بین متغیرهایی که حداقل در مقیاس شبهفاصلهای هستند به طور خطی با افزایش متغیرها اضافه میگردد. هر متغیر وابسته بر اساس اثرات متغیرهای قبلی در دیاگرام مسیر و متغیر باقیمانده مورد تحلیل و تبیین قرار میگیرد.
292
همبستگی = اثرات مستقیم + اثرات غیرمستقیم
تجزیة همبستگی همبستگی = اثرات مستقیم + اثرات غیرمستقیم
293
بيان رسمي تئوري در قالب مدل ساختاري
براي ساختن يك مدل در بحث تحليل مسير، ده شرط مطرح شده است كه به كمك آنها، امكان تجزيه و تحليل علّي فراهم ميگردد. درده شرط موردبحث، هفت شرط اول مدل تئوريكي مناسبي را براي تجزيه و تحليل و استنتاج علّي فراهم ميسازد: بيان رسمي تئوري در قالب مدل ساختاري وجود منطق تئوريكي براي فرضيههاي علّي معيننمودن نظم علّي مشخصنمودن جهت روابط علّي نوشتن معادلات توابع مشخصنمودن مرزهاي مدل ثبات مدل ساختاري عملياتيكردن متغيرها تأييد تجربي معادلات كاركردي برازش مدل ساختاري با دادههاي تجربي
294
درتحليل مسيري به منظور بررسي روابط علت و معلولي بين متغيرها لازم است براي عيني شدن آنها و جلوگيري ازبروز اشتباهات، ازنمودارهاي مسيري استفاده نمودكه اين كار را ميتوان طي مراحل زيرنشان داد: الف- تعيين متغيرها: پيش از هرچيز بايد هريك از متغيرهاي مورد بررسي به لحاظ نقشي كه در سيستم ايفا مينمايند، مشخص شده باشند. ازاين نظر دو نوع متغير وجوددارد: متغيربرونزا: به متغيرهايي از مجموعة متغيرهاي مورد بررسي اطلاق ميگردد كه تحتتأثير ساير متغيرها قرار نداشته باشند. متغيرهايدرونزا: به متغيرهايي ازمجموعه متغيرهاي موردبررسي اطلاق ميگردد كه تحتتأثير يك يا چند متغير ديگر قرارداشته باشند.
295
انواع مدلهای مسیری در تحليل مسيري با دو نوع مدل سروكار داريم (آذر، 1380): 1- مدلهاي بازگشتي: به مدلهايي گفته ميشود كه در بين هيچ يك از متغيرهاي مورد بررسي، رابطة دوطرفه يا متقابل وجود نداشته باشد. 2- مدلهايغيربازگشتي: يعني مدلهايي كه درآنها رابطة بين برخي ازمتغيرها به صورت دوطرفه باشد.
296
مدلهای مسیری بازگشتی ارتباطات علی یکطرفه میباشند.
297
مدل غیربازگشتی ارتباطات علی دوطرفه هستند
298
معنی مدلهای مسیری فرض بر این است که مدلهای مسیری نشاندهندة فرضیههای علّی میباشند. یک مدل مسیری معنیدار به معنی علیت نمیباشد. بلکه با استفاده از دادههای تجربی از یک مدل برای آزمون علیت استفاده نمود.
299
اثرات غیرمستقیم و مستقیم
دو راهی که یک متغیر پیشبینیکننده ممکن است بر یک منغیر واکنش تأثیر بگذارد. اول یک اثر مستقیم متغیر x بر روی متغیر y x1 y دوم یک اثر غیرمستقیم متغیر x بر روی y از طریق یک متغیر پیشبینیکنندة دیگر.
300
نمودار مسیر درونداد در مطالعة رضایت شغلی
303
بر پایه این مدل ملاحظه میکنیم که:
بنابر آنچه گفته شد، پیکانها نشاندهندۀ پیوندهای علی مورد انتظار بین متغیرهاست این مدل از چپ به راست حرکت میکند تا از حجیت علی متغیرهائی را که به چپ نزدیکتر هستند را منعکس سازد، هر معرف نماد یک مسیر علی و بنابراین یک ضریب مسیر است که باید محاسبه شود. بر پایه این مدل ملاحظه میکنیم که: سن بر رضایت شغلی هم اثر مستقیم (P1 ) و هم اثر غیرمستقیم دارد. سن به گونه مستقیم بر درآمد اثر میگذارد (P5) که به نوبه خود در رضایت اثر دارد (P6) و بر خودفرمانی نیز اثر میگذارد (P2) که خود بر درآمد اثر مستقیم دارد (P4) و به نوبه خود رضایت را زیر نفوذ قرار میدهد (P6). علاوه بر این، خودفرمانی نیز بر رضایت شغلی هم اثر مستقیم (P3)، هم از طریق تأثیر بر درآمد (P4) بر آن اثر غیرمستقیم دارد (P6) سرانجام، درآمد بر رضایت اثر مستقیم دارد (P6) اما بر آن اثر غیرمستقیم ندارد.
304
مشاهده میشود که درآمد، خودفرمانی و رضایت شغلی دارای پیکانهای دیگریاند که مبدأ آنها خارج از حیطه آن متغیرهاست که مستقیم به آنها وصل شدهاند این پیکانها معرف واریانس تبیین نشده برای هر متغیر میباشند بنابراین پیکان e1 به خودفرمانی (P7) بیانگر مقدار واریانس خودفرمانی است که از سوی سن، تبیین نمیشود. پیکان e2 به رضایت شغلی (P8) معرف مقداری از خطای ناشی از رضایت شغلی است که از سوی سن، خودفرمانی و درآمد توجیه نمیشود. سرانجام پیکان e3 به درآمد (P9) معرف مقداری از واریانس درآمد است که از سوی سن و خودفرمانی تبیین نشده است. این سه جملۀ خطا نشاندهندۀ این واقعیت است که متغیرهای دیگری وجود دارند که بر خودفرمانی و درآمد و رضایت شغلی اثر دارند اما در این نمودار مسیر گنجانده نشده است.
305
تحلیل مسیر اساساً با برآورد مقدار اتصالات بین متغیرها و کاربرد این برآوردها به منظور بدست آوردن اطلاعاتی دربارۀ فرایندهای علی زیربنائی سروکار دارد، هرچند این برآوردها را میتوان از طریق روشهای گوناگونی بدست آورد اما سادهترین راه برای محاسبۀ آنها، کاربرد روش رگرسیون معمولی است مشروط بر آن که مفروضههای رگرسیون بهویژه این مفروضه که متغیر پسماند در معادلۀ ساختاری با متغیرهای تبیینکننده در آن معادله ناهمبسته است برقرار باشد برای بدستآوردن برآوردهای ضرائب اصلی مسیر کافی است هر متغیر وابسته (درونزا) به متغیرهائی که مستقیماً تحت تأثیر آن است بازگشت داده شود. به بیان دیگر برای برآوردهای هر یک از مسیرهای مشخص شده، ضرائب استانداردشده رگرسیون (یا ضرائب مسیر) محاسبه میشود. این ضرائب از طریق برقراری معادلههای ساختاری یعنی معادلههائی که ساختار روابط مفروض در یک مدل را مشخص میسازد به دست میآیند.
306
بدین ترتیب، برای نمودار مسیر شکل لازم است سه معادله ساختاری، یکی برای خودفرمانی، یکی برای رضایت شغلی و یکی برای درآمد (هر یک به عنوان متغیر وابسته و متغیرهائی که در معادله آمده به عنوان متغیر وابسته) محاسبه شود. e1 + (سن) x1 = خودفرمانی e2 + (درآمد) x3 + (خودفرمانی) x2 + (سن) x1 = رضایت شغلی e3 + (خودفرمانی) x2 + (سن) x1 = درآمد
307
بدین ترتیب، برای نمودار مسیر شکل لازم است سه معادله ساختاری، یکی برای خودفرمانی، یکی برای رضایت شغلی و یکی برای درآمد (هر یک به عنوان متغیر وابسته و متغیرهائی که در معادله آمده به عنوان متغیر وابسته) محاسبه شود. e1 + (سن) x1 = خودفرمانی e2 + (درآمد) x3 + (خودفرمانی) x2 + (سن) x1 = رضایت شغلی e3 + (خودفرمانی) x2 + (سن) x1 = درآمد ضریب استاندارد برای سن در معادله (1) مقدار 2P: ضرائب سن، خودفرمانی و درآمد در معادله (2) به ترتیب مقادیر 1P ، 2P و 3P ؛ و سرانجام ضرائب سن و خودفرمانی در معادله (3) به ترتیب مقادیر 5P و 4P را به دست می دهد. بنابراین به منظور محاسبه ضرایب مسیر، ضرورت دارد سه معادله را به عنوان معادلههای رگرسیون چندمتغیری در نظر بگیریم و ضرائب حاصل از آنها ضرائب مسیر را بهدست میدهد.
308
از مقادیر عرض از مبدأ در هر مورد صرفنظر و سه جمله خطا از طریق ریشه دوم
. از مقادیر عرض از مبدأ در هر مورد صرفنظر و سه جمله خطا از طریق ریشه دوم محاسبه میشود. باید توجه داشت که چون به منظور تکمیل مسیرها لازم است همه ضرائب مسیر محاسبه شود بنابراین نباید از روش رگرسیون گام به گام استفاده شود.
311
چون ضرایب مسیر ضرایب استاندارد هستند، این امکان وجود دارد که آنها را به گونة مستقیم با هم مقایسه کنیم. میتوان دید که سن اثر مستقیم اما بسیار کوچک و منفی در رضایت شغلی دارد در حالیکه اثر غیرمستقیم آن مثبت و قابل توجه است.
312
بسیاری از پژوهشگران مایلند اثر کلی یک متغیر را بر متغیر دیگر محاسبه کنند برای مثال اثر کلی سن بر رضایت شغلی از طریق جمع اثر مستقیم (08/0 -) با مجموع آثار غیرمستقیم آن به دست میآيد. آثار غیرمستقیم از طریق حاصلضرب ضرائب هر مسیر سن به رضایت شغلی به طریق زیر محاسبه میشود: برای مسیرهای سن به درآمد به رضایت شغلی 27/0 = (47/0 ×57/0) برای مسیرهای سن به خودفرمانی به رضایت شغلی 16/0 = (58/0 × 28/0) برای مسیرهای سن به خودفرمانی به درآمد به رضایت شعلی 03/0 = (47/0 ×22/0 × 28/0) بنابراین جمع آثار عیرمستقیم سن بر رضایت شغلی 46/0 = 03/0 + 16/0 + 27/0 میباشد. و برای اثر کلی سن بر رضایت شغلی باید اثر مستقیم آن را با کل آثار غیرمستقیم آن جمع کنیم که حاصل آن برابر با 38/0 = 46/0 + 08/0 – خواهد بود. این تمرین نشان داد که اثر غیرمستقیم سن بر رضایت هماهنگ با اثر مستقیم آن نیست زیرا اثر مستقیم آن نزدیک به صفر و اثر غیرمستقیم آن مثبت است.
314
برخی اوقات، جهت علی بین همه متغیرها را در نمودار مسیر نمیتوان تعیین کرد. برای مثال، چنان که در شکل مشاهده میشود خودفرمانی و ماهیت کار همبستهاند، یعنی بین آنها ارجحیت علی یکی بر دیگری وجود ندارد، و اتصال بین آنها به وسیله یک پیکان دوسره نشان داده شده است. هر متغیر دارای یک اثر مستقیم (P5 و P4)، و یک اثر غیرمستقیم بر غیبت از طریق رضایت شغلی است: خودفرمانی به رضایت (P1) و رضایت به غیبت (P3)؛ ماهیت کار به رضایت (P2) و رضایت به غیبت (P3). به منظور محاسبه ضرایب لازم، نیاز به ضریب r پیرسون برای خودفرمانی و ماهیت کار و نیز نیاز به ضرایب استانداردشده دو معادله زیر داریم: e1 + (ماهیت کار) x2 + (خودفرمانی) x1 + a= رضایت e2 + (رضایت) x3 + (ماهیت کار) x2 + (خودفرمانی) x1 = غیبت
315
پس از آن میتوانیم کل آثار علی را هم برای متغیرهای خودفرمانی و ماهیت کار، و هم برای رضایت محاسبه و با هم مقایسه کنیم. اثر کلی میتواند از جمع اثر مستقیم با کل آثار غیرمستقیم تشکیل شود. اثر کلی این سه متغیر بر غیبت عبارت است از: (p3)(p1) + (p5) = اثر کلی خودفرمانی (p3)(p2) + (p4) = اثر کلی ماهیت کار p3= اثر کلی رضایت شغلی
316
مدل غیربازگشتی
317
اگر این وضعیت وجود داشته باشد ...
تفسیر ارتباطات X1 بازگشتی و علی وابسته به x4 میباشد X1 ممکن است به طور غیرمستقیم از طریق x4 به 4 وابسته باشد X4 ممکن است به طور غیرمستقیم از طریق x1 به 1 وابسته باشد 1 ممکن است به 4 وابسته باشد. اگر این وضعیت وجود داشته باشد ... فروض OLS نقض میشوند. در رگرسیون به روش OLS فرض بر ایت است که ارتباطات یکطرفه بوده و جملات خطا از یکدیگر مستقل میباشند.
318
در اینحالت باید از روش 2SLS یا روش حداقل مربعات دومرحلهای استفاده نمود.
319
تحلیل عاملی Factor Analysis
320
تحليل عاملي از تعدادی فنون آماری ترکیب شده و هدف آن ساده تر کردن مجموعههای پیچیدة دادههاست
321
تعریف ماتریس همبستگی ماتریس همبستگی مجموعهای از ضرایب همبستگی بین تعدادی از متغیرها است: فرض بر این است که هر متغیر با خودش همبستگی کامل دارد(عناصری که در قطرهای ماتریس همبستگی قرار میگیرند در فهم و تفسیر تحلیلهای عاملی مهم هستند). زواید زیادی در ماتریس وجود دارد، بدین معنا که هر ضریب دوبار در ماتریس ظاهر میشود. تحلیل عاملی برای سادهکردن چنین ماتریسهایی طراحی شده است در یک ماتریس بزرگ از همبستگیها، منطقی است بپرسیم که چه چیزی ممکن است این همبستگیها را تبیین کند.
322
تعریف عامل: اساساً عامل، بعد یا سازهای است که روابط بین مجموعهای متغیرها را به صورت خلاصه مطرح میکند بنا به عقیدة رویس (1963)، عامل، سازهای است که عملاً از روی (یا بوسیلة) بارهای عاملیاش تعریف میشود. تعریف بارهای عاملی: همبستگی یک متغیر با یک عامل را بار عاملی گویند. فرض کنید کجموعهای از آزمونهای توانایی و پیشرفت تحصیلی را تحلیل عاملی کردهایم. این مثال، سه عامل را در یک نوع تحلیل عاملی از تواناییها نشان میدهد. عاملهای دیگری نیز ممکن است وجود داشته باشد اما اینها ماهیت عوامل و بارهای عاملی را بهتر توضیح میدهند. عامل3 عامل2 عامل1 متغیر 44/0 63/0 82/0 هوش 51/0 35/0 78/0 هوشبهر غیرشفاهی 21/0 64/0 68/0 لغات ... 17/0 32/0 تاریخ 12/0 43/0 25/0 مهندسی 60/0 09/0 49/0 فرانسه
323
فایده تحلیل عاملی به رغم اینکه میدانیم تحلیل عاملی برای خلاصهکردن ماتریسهای همبستگی به کار برده میشود، هنوز یک سؤال مهم باقی است و آن این است که با تحلیل عاملی چه کارهایی را میتوان انجام داد و این فن چگونه میتواند سودمند واقع گردد؟ برای پاسخ به این پرسش، باید به این نکته توجه کرد که هنگام کاربرد این روش باید بین تحلیل اکتشافی (exploratory) و تأییدی (confirmatory) تمایز قائل شد.
324
تحلیل عاملی اکتشافی: یک مثال
هدف از تحلیل عاملی اکتشافی، بررسی یک حوزه (field) برای کشف ابعاد یا سازههای اصلی آن حوزه است. به همین علت بود که اسپیرمن (1904) تحلیل عاملی را در حوزه تواناییهای انسان بوجود آورد. او سعی کرد به این سؤال که چرا بین تواناییهای انسان همیشه همبستگی مثبتی وجود دارد پاسخ دهد. (در تحلیل عاملی تواناییها، این موضوع صورتبندی مثبت نامیده میشود بدین معنا که تمام همبستگیهای ماتریس همبستگی، مثبت است). به طور کلی در تحلیل عاملی اکتشافی، قاعده بر این است که محققان تا حدامکان متغیرهای بسیاری را وارد تحلیل کنند تا ببینند کدام یک از آنها روی عامل موردنظر بار عاملی دارند
325
تحلیل عاملی تأییدی در ابتدا تحلیل عاملی صرفاً یک روش آماری اکتشافی بود اما اخیراً این امکان بوجود آمده که با استفاده از تحلیل عاملی، فرضآزمایی کرد. این روش که بوسیلة یورس کوگ (1973) ابداع شده، تحلیل تأییدی نامیده میشود.
326
اشکالات وارده بر تحلیل عاملی
ایراد اصلی وارد بر تحلیل عاملی این است که بینهایت راه حل ریاضی معادل وجود دارد. تحلیلگران عاملی غالباً در تعیین مهمترین علامتهای یک حوزه با هم اختلاف دارند. تکرار تحلیلهای عاملی دشوار است.
327
انجام تحلیل عاملی يكي از آمارههايي كه محقق از طريق آن قادر به تعيين و تشخيص مناسببودن دادهها براي تحليل عاملي ميباشد، آزمون KMO ميباشد كه مقدار آن همواره بين 0 و 1 درنوسان است. درصورتيكه مقدار KMO كمتر از 5/0 باشد، دادهها براي تحليل عاملي مناسب نخواهند بود. اگرمقدار آن بين 5/0 تا 69/0 باشد، ميتوان با احتياط بيشتري به تحليل عاملي پرداخت. اما درصورتيكه مقدار آن بزرگتر از 7/0 باشد، همبستگيهاي موجود در بين دادهها براي تحليلعاملي مناسب خواهند بود. Kaiser-Meyer-Olkin
328
دررابطه با حجم نمونه نيز بايد تأكيد كرد كه تعداد نمونه نبايد كمتر از 50 مورد باشد و ترجيحاً حجم نمونه را بايد به بيش از 100 مورد افزايش داد. اولين تصميم در بكارگيري تحليل عاملي، محاسبة ماتريس همبستگي است. براي اينكار بايد مشخص شود كه آيا هدف، محاسبة همبستگي بين متغيرهاست يا بين پاسخگويان، اگر هدف مطالعه، تلخيص متغيرها باشد. در اين صورت بايد همبستگي بين متغيرها محاسبه شود. اين روش يكي از تكنيكهاي عمومي و پركاربرد در مطالعات ميباشد كه به تحليل عاملي نوع R معروف است.
329
در تحليل عاملي مدلهاي مختلفي وجود دارد كه از ميان آنها دو روش
تحليل مؤلفههاي اصلي و تحليل عاملي مشترك از پركاربردترين اين روشهاست. مدل تحليل مؤلفههاي اصلي زماني مورد استفاده قرار ميگيرد؛ كه هدف محقق تلخيص متغيرها و دستيابي به تعداد محدودي عامل براي اهداف پيشبيني باشد.
Similar presentations
© 2025 SlidePlayer.com. Inc.
All rights reserved.