Presentation is loading. Please wait.

Presentation is loading. Please wait.

آمار مقدماتی و پیشرفته مدرس: دکتر بریم نژاد دانشیار واحد کرج

Similar presentations


Presentation on theme: "آمار مقدماتی و پیشرفته مدرس: دکتر بریم نژاد دانشیار واحد کرج"— Presentation transcript:

1

2 آمار مقدماتی و پیشرفته مدرس: دکتر بریم نژاد دانشیار واحد کرج
آمار مقدماتی و پیشرفته مدرس: دکتر بریم نژاد دانشیار واحد کرج

3 آمار چیست؟ آمار به عنوان يك موضوع علمي، امروزه شامل مفاهيم و روش‌هائي است كه در تمام پژوهش‌هايي كه مستلزم جمع‌آوري داده‌ها به وسيلة يك فرآيند آزمايش و مشاهده و انجام استنباط و نتيجه‌گيري به وسيلة تجزيه و تحليل اين داده‌ها هستند، اهميت بسيار دارند. آمار هنر و علم جمع‌آوري، تعبير و تجزيه و تحليل داده‌ها و استخراج تعميم‌هاي منطقي در مورد پديده‌هاي تحت بررسي است. معادل كلمة آمار در زبان انگليسي Statistics است كه از لحاظ تاريخي، از كلمة لاتين status مشتق شده و يكي از معاني كلمة اخير، دولت است. در طول چندين دهه، آمار فقط با بيان اطلاعات و مقادير عددي دربارة اقتصاد، جمعيت شناسي و اوضاع سياسي حاكم در يك كشور، سر و كار داشت. حتي امروز، ‌بسياري از نشريات و گزارشهاي دولتي كه توده‌اي از آمار و ارقام را در بر‌دارند و تحت عناويني از قبيل « آمار توليد مزارع» و «آمار كارگران» منتشر مي‌شوند، معني اولية كلمة آمار را در ذهن زنده مي‌كنند. اكثر افراد معمولي هنوز اين تصور غلط را دربارة آمار دارند كه آن را منحصر به ستون‌هاي عددي سرگيجه‌آور و گاهي يك سري شكل‌هاي مبهوت‌كننده مي‌دانند. بنابراين، يادآوري اين نكته ضروري است كه نظريه و روش‌هاي جديد آماري، از حد ساختن جدول‌هاي اعداد و نمودارها بسيار فراتر رفته‌اند. نمايش‌هاي عددي به صورت جنبه‌اي فرعي از آمار درآمده‌اند.

4 ديدگاه‌هاي زير را درمورد آمار بخوانيد. آيا علم آمار اينگونه است؟
ديدگاه‌هاي زير را درمورد آمار بخوانيد. آيا علم آمار اينگونه است؟ دیدگاه‌هایی در مورد آمار: تهيه آمار كاري وقت‌گير و زمان بر و اصولاً كسالت‌آور است. آمار گورستاني از اعداد و ارقام است كه در هر اداره و سازمان نمونه‌اي از آن پيدا مي‌شود. آمار مجموعه‌اي از روابط و فرمول‌هاي رياضي پيچيده و گيج‌كننده است. آمار شامل نمودارها و جدولهايي از اعداد است.

5 آمار فرايندي است كه در آن هر ده سال افرادي را به منازل فرستاده و اطلاعات خانوارها مانند تعداد فرزندان، سن افراد خانوار را از آنها كسب مي‌كنند. آمار ابزاري است كه بسياري با توسل به آن افكار عمومي را به نفع خود جلب مي‌كنند. آمار مفهومي است كه براي ثبت و نمايش اطلاعات عددي به كار مي‌رود، مانند تعداد بيكاران، كارمزد حمل كالا به وسيلة كشتي در 15 سال گذشته، جمعيت نواحي جنوب شهر تهران، تعداد افراد تلف شده در اثر شيوع يك بيماري يا مقدار مسافت طي شده در زمان معيني به وسيلة برندة مسابقة‌ دو.

6 مثال‌هائي از مطالعات آماري:
مثالهای زیر، نشان‌دهندة‍ مواردي نوعي هستند كه در آنها، فرايند كسب آگاهي در بررسي يك پديده شامل گردآوري و تجزيه و تحليل داده‌هاست و اين خود مستلزم استفاده از روشهاي آماري است. پرورش گياه : آزمايش پيوندزدن انواعي از گياهان كه از نظر ژنتيكي متفاوتند، به‌ منظور توليد گياهان پيوندي پر محصول، مورد علاقة شديد متخصصان كشاورزي است. به‌عنوان يك مثال ساده، فرض كنيد كه قرار است ميزان محصول دو نوع گياه پيوندي تحت آب و هوا و شرايط اقليمي مشخص با هم مقايسه شوند. تنها راه كسب اطلاع از ميزان باروري اين دو نوع گياه نسبت به‌يكديگر عبارت است از پروراندن آنها در تعدادي از كرتها، گردآوردن داده‌ها دربارة ميزان محصول آنها و سپس تجزيه و تحليل داده‌‌هاي مزبور.

7 تشخيص بيماري‌ها براي انجام موفقيت‌آميز معالجة بسياري از انواع سرطان با عمل جراحي، تشخيص بموقع بيماري از اهميت خاصي برخوردار است و از اين‌رو لازم است كه براي انجام معاينات پزشكي مرتباً به بيمارستان مراجعه شود. چون مراجعة مرتب به بيمارستان و انجام معاينات پزشكي گران و مشكل است، پزشكان در جستجوي نوعي روش تشخيص مؤثر بيماري هستند كه خود شخص بتواند آن را انجام دهد. براي ارزيابي قابليت يك روش جديد تشخيص بيماري برحسب درصد موفقيت آن در تشخيص درست موارد بيماري و اجتناب از تشخيص‌هاي اشتباه، روش مورد‌نظر بايد روي افراد زيادي آزمايش شود و نتيجه با معاينات بيمارستاني مقايسه شود. برنامه‌هاي تربيتي و آموزشي برنامه‌اي تربيتي وآموزشي كه براي انواع متقاضيان (از قبيل دانشجويان دانشگاه، كارگران كارخانه، گروه‌هاي اقليت، افراد ناقص‌العضو، كودكان عقب‌افتاده) در بسياري از زمينه‌ها طرح مي‌شوند، دائماً مورد بررسي، ارزيابي و اصلاح قرار مي‌گيرند تا سودمندي آنها براي جامعه افزايش يابد. براي كسب اطلاع از كارائي برنامه‌هاي مختلف در مقايسه با يكديگر، ضرورت دارد كه داده‌هائي دربارة موفقيت‌ها يا رشد مهارت افرادي كه برنامه در مورد آنها اجرا مي‌گردد، گردآوري شود.

8 تحقيقات اجتماعي‌- اقتصادي:
در بسياري از قلمروهاي جامعه‌شناسي، اقتصاد، علوم سياسي. مطالعاتي در زمينه‌هاي مربوط به رفاه اقتصادي گروه‌هاي قومي گوناگون. هزينه‌هاي مصرف‌كنندگان در سطوح مختلف درآمد و نظرات گوناگون در هنگام وضع يك قانون و زمينه‌هايي نظير اينها انجام مي‌گيرد. اين مطالعات نوعاً بر مبناي داده‌هايي انجام مي‌گيرند كه از راه مصاحبه يا تماس با نمونه‌اي از افراد به‌دست مي‌آيند، كه اين نمونه به ‌وسيلة روشهاي آماري از كل جامعه‌اي كه قلمرو مطالعه را تشكيل مي‌دهد، انتخاب مي‌شوند. سپس اين داده‌ها مورد تجزيه و تحليل قرار مي‌گيرند و تغييراتي از موضوع مورد نظر به عمل مي‌آيد. بازاريابي: با گسترش صنايع مختلف و بحث بازار رقابتي در قرن بيست و یک بسياري از صنايع به دنبال يافتن روش‌هائي در شناسائي بازار و خواسته‌هاي مشتري به طريق علمي گرديده‌اند. نتايج حاصل همواره با استفاده از مطالعات آماري روي مشتريان و يا مراكزي كه مشتري با آنها در ارتباط است صورت مي‌پذيرد. به‌عنوان مثال يك شركت توليدكنندة پودر لباسشوئي پس از تحقيق دربارة ميزان فروش فروشگاه‌هاي يك منطقه سهم فروش پودر ... را درمي‌يابد. پس از اعمال تبليغات جديد و به فاصلة زماني مناسب اين‌كار مجددا صورت گرفته و سهم افزايش فروش بررسي مي‌گردد. و يا در همين مقوله براي كسب اطلاع از اينكه در توليد مايع ظرفشوئي آيا از لحاظ مصرف‌كنندگان، بوي اسانس ليمو با توت‌فرنگي تفاوتي وجود دارد، از 400 نفر مصاحبه مي‌شود كه 145 نفربوي اسانس ليمو و بقيه توت‌فرنگي را ترجيح مي‌دهند. كنترل كيفيت: پيشرفتهاي آماري در بخش صنايع بيشتر مربوط به مسائل كنترل كيفي است. استفاده از مفهوم آزمون فرض‌هاي آماري در بحث كنترل حين توليد محصولات توليدي، استفاده از روش‌هاي نمونه‌كيري جهت پذيرش براي شناسائي محصول مطابق درخواست با استفاده از يك نمونه از محصول به جاي بازرسي صددرصد و استفاده از ابزارهاي ساده آماري در كنترل فرآيند آماري (Statistical Process Control ) مانند هيستوگرام، نمودار پراكنش، نمودار ميله‌اي و استفاده از بحث طراحي آزمايش‌هاي مناسب و جمع‌آوري اطلاعات و بسياري روش‌هاي آماري كه به صور مختلف مورد استفاده واقع مي‌شوند بخشي از تلاش مسئولين كيفي صنايع را به خود اختصاص داده است.

9 آمارشناس‌ها چه می‌کنند؟
جهان به سوی کمی شدن اطلاعات پیش می رود. در بسیاری از حرفه‌ها و شغل‌ها، تصمیم‌گیری‌ها به اندازه‌گیریهای عددی و داده بستگی دارند. داده ها تنها شامل اعداد نیستند، بلکه اعداد خود حامل اطلاعاتی در مورد یک سیستم مشخص هستند و احتیاج دارند که در سیستم مربوطه تفسیر شوند. با توجه به این رشد در استفاده از داده‌ها، نیاز و تقاضا برای وجود آمارشناس‌هایی که در زمینه‌های زیر کارشناس باشند، احساس می شود:  ارائه و تولید داده‌های قابل اعتماد  تجزیه و تحلیل داده‌ها به منظور روشن و واضح ساختن معنای آنها  ارائه استنتاج‌های عملی از داده‌ها آمارشناس‌ها از توانایی‌های کمّی، علم آمار و مهارتهای روابط عمومی و برقراری ارتباط برای حل بسیاری از مشکلات و مسایل موجود در جامعه استفاده می‌کنند. آمارشناس‌ها در تعیین روش‌های نمونه‌گیری و جمع‌آوری داده‌ها، نظارت بر اجرای مطالعه، پردازش داده‌ها و نظر دادن در مورد نتایج مطالعات بدست‌آمده کمک می‌کنند.

10 فعالیت آمارشناس‌ها در زمینه مطالعه و بررسی نمونه‌ای
فعالیت آمارشناس‌ها در مراکز دولتی برخی زمینه‌های فعالیت برای آماری‌ها در مراکز دولتی فعالیت آمارشناس‌ها در زمینه پژوهش‌های علمی فعالیت آمارشناس‌ها در زمینه صنعت و تجارت برخی زمینه‌های فعالیت برای آماری‌ها در صنعت و تجارت فعالیت آمارشناس ها در زمینه بهداشت، پزشکی و سلامت

11 مشخصه‌های شغلی آمارشناس‌ها
استفاده از داده‌ها برای حل مشکلات و مسایل استفاده از دانش ریاضی و آمار خود در حل مشکلات اجتماعی، اقتصادی، پزشکی، زیست محیطی، سیاسی و ... کارکردن هم به صورت انفرادی و هم به صورت عضوی از یک گروه استفاده از علم ارتباطات در برقراری رابطه با متخصصین علوم دیگر و مشورت با آنها و ادامه دادن مستمر فعالیتهای آموزشی گسترش مرزها و قلمرو آمار و احتمال از طریق آموزش و تحقیق

12 سواد آماری چیست؟ سواد آماری یک توانایی/قابلیت است:
توانایی فکر کردن منتقدانه درمورد استدلال‌ها با به کار بردن آمار به عنوان سند یا مدرک قابلیت خواندن و تفسیر داده‌ها، قابلیت فهم آنچه که خوانده می‌شود. توانایی فهم و تفسیر آمارهایی که هر فرد در زندگی روزمره با آنها سروکار دارد. توانایی استفاده صحیح از آمار توسط همه افراد جامعه سواد آماری، بر تصمیم‌گیری‌ها با استفاده از آمار به عنوان سند و مدرک متمرکز شده است، همانگونه که سوادخواندن و نوشتن بر استفاده از کلمات به عنوان مدرک متمرکز شده است. سواد آماری بیشتر درمورد سؤالات است تا جواب ها. سوادآماری جوابهای زیادی ندارد. اما می‌تواند کمک کند تا سؤالات بهتری پرسش شود و در نتیجه تصمیم‌ها و قضاوت‌های بهتری صورت گیرد. سواد آماری یک هنر است، هنر تصمیم‌گرفتن و قضاوت کردن تحت شرایط نامطمئن.

13 با سواد آماری کیست؟ با سواد آماری کسی است که قادر باشد تفاوت بین رابطه معمولی و رابطه علت و معلولی را از یکدیگر تشخیص دهد.  او کسی است که وقتی با جملاتی همانند جملات زیر روبرو می‌شود، درست یا غلط بودن جمله دوم را مدرکی مستند برای درست یا غلط بودن جمله سوم نداند: جمله اول: افرادی‌که وزن بیشتری دارند بلندقد‌تر از افرادی هستند که وزن کمتری دارند. جمله دوم: وزن یک رابطه مثبت با قد دارد. جمله سوم: اگر شما وزن بیشتری بدست آورید، انتظار می‌رود که قدتان نیز بلندتر شود. واضح است که برای بزرگسالان جمله سوم غلط است. اما نمی‌توان نتیجه گرفت که اگر جمله سوم غلط باشد آنگاه جمله دوم نیز غلط خواهد بود. درستی جمله دوم مدرکی است برای درستی جمله سوم، اما درستی جمله دوم برای اثبات درستی جمله سوم کافی نیست.

14 با سواد آماری کیست؟ (ادامه)
با سواد آماری کسی است که قادر باشد تفاوت بین عبارت “نسبت دادنی” را از عبارت “نسبت داده شده” تشخیص دهد . مثال90درصد خودکشی ها را افراد متاهل مرتکب می شوند. این آمار به افراد متاهل نسبت داده شده است، اما این بدین معنا نیست که اگر افراد ازدواج نکنند این نسبت کاهش خواهد یافت. با سواد آماری کسی است که فرق آماری که بر اساس نمونه به دست آمده را از پارامتر جمعیت تشخیص دهد. باسواد آماری کسی است که بتواند برداشت درستی از درصدها، میزان ها و نرخ ها داشته باشد مثال: درصد راننده‌ها در میان زنان همانند درصد راننده هایی که زن هستند، نیست. درصد بیمارانی که نتیجه آزمایش آنها در مورد نوعی بیماری مثبت است همانند درصد افرادی که نتیجه آزمایش مثبت دارند و بیمار هستند، نیست.

15 شیوه‌های جمع‌آوری اطلاعات

16 تعریف هر تیمار (متغیر) تاحد امکان به صورت ویژه

17 کدگذاری برای داده‌های قیاسی یعنی تعیین عدد برای هر طبقه یا دسته
کدگذاری برای داده‌های قیاسی یعنی تعیین عدد برای هر طبقه یا دسته. جنسیت زن 1 مرد 2

18 مشخص کردن روشن واحدهای اندازه‌گیری
وزن شما چقدر است؟ (برحسب کیلوگرم، پوند، گرم) دیشب چند ساعت تلویزیون تماشا کردید؟ (ساعت، دقیقه)

19 نوشتن سؤالات بدون اریب با اریب: آیا شما موافقید که افزایش مصرف کود باعث کاهش عملکرد می‌شود؟ بدون اریب: نظر شما در مورد مصرف کود بر عملکرد محصول چیست؟

20 سؤالات خود را در یک مطالعة پیلوت قبل از انجام مطالعة اصلی امتحان نمایید
(8 تا 10 مورد یا واحد از افراد، دانش‌آموزان، درختان و ...)

21 انواع داده‌ها

22 انواع داده‌ها داده‌های معیاری داده‌های قیاسی

23 داده‌های قیاسی موضوعات و صفات مورد بررسی به طبقاتی بر اساس بعضی از صفات کیفی گروه‌بندی می‌شوند.

24 مثال: داده‌های قیاسی رنگ مو نظر دانشجویان در مورد نحوة تدریس
بلوند، قهوه‌ای، قرمز، سیاه، غیره نظر دانشجویان در مورد نحوة تدریس ناراحت، خنثی، خوشحال وضعیت سیگارکشیدن سیگاری، غیرسیگاری

25 طبقه‌بندی داده‌های قیاسی به صورت: اسمی، ترتیبی و دوتایی
داده‌های اسمی داده‌های ترتیبی دودویی غیردودویی دودویی غیردودویی

26 داده‌های اسمی یک نوع از داده‌های قیاسی است که صفات در طبقه‌های غیرمرتب قرار می‌گیرند.

27 مثال: داده‌های اسمی رنگ مو نژاد بلوند، قهوه‌ای، مشکی، قرمز، غیره
هندی، ‌افریقایی، آمریکایی، غیره

28 نوعی از داده‌های قیاسی می‌باشند که رتبة آنها مهم است
داده‌های ترتیبی نوعی از داده‌های قیاسی می‌باشند که رتبة آنها مهم است

29 مثال: داده‌های ترتیبی طبقه شدت بیماری نظر دانشجویان دربارة‌ درس
خیلی کم، کم، متوسط، زیاد، خیلی زیاد شدت بیماری نظر دانشجویان دربارة‌ درس

30 داده‌های دودویی شکلی از داده‌های قیاسی که تنها دارای دو طبقه هستند.
داده‌های دودویی می‌توانند یا اسمی یا ترتیبی باشند.

31 مثال: داده‌های دودویی وضعیت سیگاری بودن حضور سیگاری، غیرسیگاری
حاضر، غایب

32 داده‌های سنجشی اهداف مورد مطالعه بر اساس بعضی از صفات کمی قابل اندازه‌گیری می‌باشند. داده‌ها به صورت اعداد می‌باشند.

33 مثال: داده‌های سنجشی سطح کلسترول قد سن میزان عملکرد
تعداد دانشجویانی که درکلاس دیر حاضر می‌شوند. زمان لازم برای انجام تکالیف درسی در منزل

34 داده‌‌های سنجشی تقسیم می‌شوند به گسسته یا پیوسته Discrete or Continuous
داده‌های سنجشی گسسته پیوسته

35 تنها مقادیر معینی را خواهند داشت (شکافی بین مقادیر ممکن وجود دارد)
داده‌های سنجشی گسسته تنها مقادیر معینی را خواهند داشت (شکافی بین مقادیر ممکن وجود دارد) داده‌های سنجشی پیوسته از نظر تئوریک، هر مقداری در درون یک فاصله را می‌توان با ابزارهای اندازه‌گیری دقیق محاسبه نمود.

36 داده‌های گسسته - شکاف بین مقادیر ممکن
داده‌های پیوسته - از نظر تئوریکی هیچ شکافی بین مقادیر ممکن وجود ندارد

37 مثال‌ها داده‌هایی با معیارهای گسسته
مثال‌ها داده‌هایی با معیارهای گسسته نمرات آمار تعداد دانشجویانی که دیر به کلاس می‌آیند تعداد جرائمی که به مراکز پلیس گزارش شده است. تعداد دفعاتی که از یک کلمه استفاده می‌شود. عموماً داده‌های گسسته قابل شمارش هستند.

38 مثال‌ها: داده‌های معیاری پیوسته
سطح کلسترول قد سن زمان لازم برای انجام تکالیف مدرسه عموماً داده‌های پیوسته از اندازه‌گیری بدست می‌آیند

39 انواع داده‌های جمع‌آوری شده در یک مطالعه تعیین‌کنندة نوع تحلیل آماری مورد استفاده می‌باشد

40 برای مثال ... داده‌های قیاسی عموماً با استفاده از درصد (یا نسبت‌ها) خلاصه می‌شوند. 11درصد دانشجویان دارای خالکوبی می‌باشند. 2٪، 33٪،39٪ و 26٪ دانشجویان درکلاس به ترتیب جدیدالورود، سال دوم، سال سوم و سال چهارم

41 و برای مثال ... داده‌های معیاری به طور مثال با استفاده از متوسط (یا میانگین) خلاصه می‌شوند. متوسط وزن مردان در بین 250 دانشجوی درس آمار در پاییز 1387، 173 پوند است متوسط وزن زنان در بین 250 دانشجوی درس آمار در پاییز 1387، 138 پوند است

42 توصیف داده‌ها با اعداد معیارهای مکانی
آمار توصیفی توصیف داده‌ها با اعداد معیارهای مکانی

43 چه چیزی توصیف می‌شود؟ مکان یا مرکز داده‌ها چیست؟ (معیارهای مکانی)
داده‌ها چگونه تغییر می‌کنند؟ (معیارهای تغییرپذیری)

44 معیارهای مکانی میانگین میانه مد

45 میانگین نام دیگر متوسط اگر میانگین یک جمعیت را توصیف کنیم با  نمایش داده می‌شود. اگر میانگین نمونه را توصیف کنیم با x-bar نمایش داده می‌شود. مناسب برای توصیف داده‌های سنجشی به میزان زیادی تحت‌تأثیر مقادیر غیرمعمول که «برون‌هشت» یا outliers نام دارند، قرار می‌گیرد.

46 محاسبة میانگین نمونه فرمول:
یعنی جمع تمام داده‌ها و تقسیم به تعداد آنها

47 میانه نام دیگر برای صدک 50ام مناسب برای توصیف داده‌های سنجشی
مناسب برای داده‌های برون‌هشت، یعنی تحت‌تأثیر مقادیر غیرمعمول قرار نمی‌گیرد.

48 محاسبة میانة نمونه مرتب کردن داده‌ها از کوچک به بزرگ
اگر تعداد داده‌ها فرد باشد، میانه مقدار وسط می‌باشد. داده‌ها: داده‌های مرتب شده: میانه

49 محاسبة میانة نمونه مرتب کردن داده‌ها از کوچک به بزرگ
اگر تعداد داده‌ها زوج باشد، میانه متوسط دو مقدار وسطی است داده‌ها : داده‌های مرتب شده: میانه = (3+4)/2 = 3.5

50 مد مقادیری که بیشترین فراوانی را دارند.
یک مجموعه داده می‌تواند چندین مد داشته باشد برای تمام انواع داده مناسب است اما بیشتر برای داده‌های قیاسی یا داده‌های گسسته با تعداد اندکی از مقادیر ممکن مفید است.

51 Minitab:در برنامة N = تعداد داده‌ها میانة نمونه میانگین نمونه
Variable N Mean Median TrMean StDev SE Mean Phone Variable Minimum Maximum Q Q3 Phone N = تعداد داده‌ها میانة نمونه میانگین نمونه

52 مناسبترین معیارهای مکانی بستگی به شکل توزیع داده‌ها دارد
مناسبترین معیارهای مکانی بستگی به شکل توزیع داده‌ها دارد

53 مناسبترین معیارهای مکانی بستگی دارد به:
آیا داده‌ها متقارن هستند یا چوله آیا داده‌های دارای یک مد هستند (unimodal) یا دارای چند مد (multimodal)

54 متقارن و یک نمایی

55 متقارن و یک نمایی

56 متقارن و یک نمایی Descriptive Statistics
Variable N Mean Median TrMean StDev SE Mean GPA Variable Minimum Maximum Q Q3 GPA

57 متقارن و دونمایی

58 متقارن و دونمایی Variable N Mean Median TrMean StDev
Males Females All Variable SE Mean Min Max Q Q3 Males Females All

59 متقارن و دونمایی

60 چوله به راست

61 چوله به راست

62 چوله به راست Descriptive Statistics
Variable N Mean Median TrMean StDev SE Mean CDs Variable Minimum Maximum Q Q3 CDs

63 چوله به چپ

64 چوله به چپ

65 چوله به چپ Variable N Mean Median TrMean StDev SE Mean
grades Variable Minimum Maximum Q Q3 grades

66 انتخاب معیار مناسب مکانی
اگر داده‌ها متقارن باشند، میانگین، میانه و مد، تقریباً برابر هستند. اگر داده‌های دارای چند مد باشند، میانگین، میانه و یا مد را برای هر زیرگروه گزارش دهید. اگر داده‌ها چوله باشند، میانه را گزارش دهید.

67 توصیف داده‌ها با اعداد معیارهای تغییرپذیری
آمارهای توصیفی توصیف داده‌ها با اعداد معیارهای تغییرپذیری

68 چه چیزی توصیف می‌شود؟ مکان یا مرکز داده‌ها چیست؟
داده‌ها چگونه تغییر می‌کنند؟

69 تمام این معیارها تنها برای داد‌ه‌های سنجشی مناسب هستند.
معیارهای تغییرپذیری دامنه دامنة بین‌چارکی واریانس و انحراف معیار ضریب تغییر تمام این معیارها تنها برای داد‌ه‌های سنجشی مناسب هستند.

70 دامنه تفاوت بین بزرگترین و کوچکترین داده
به میزان زیادی تحت تأثیر برون‌هشت‌ها قرار می‌گیرد. برای داده‌های متقارن بدون هیچ برون‌هشتی مناسب است.

71 دامنه چیست؟

72 دامنه دامنه = 3.98 - 2.02 = 1.96 Descriptive Statistics
Variable N Mean Median TrMean StDev SE Mean GPA Variable Minimum Maximum Q Q3 GPA دامنه = = 1.96

73 دامنة بین چارکی تفاوت بین چارک سوم (درصد 75ام) و اولین چارک (درصد 25ام) یعنی نیمة وسطی داده‌ها IQR = Q3-Q1 برای مشاهدات برون هشت و کرانی کارا می‌باشد. برای داده‌های چوله مناسب است.

74 دامنة بین چارکی چیست؟

75 دامنة بین‌چارکی IQR = 3.4675 - 2.6725 = 0.795 Descriptive Statistics
Variable N Mean Median TrMean StDev SE Mean GPA Variable Minimum Maximum Q Q3 GPA IQR = = 0.795

76 واریانس تفاوت بین هر داده با میانگین را بیابید.
این تفاوت‌ها را به توان دو رسانده و با هم جمع کنید. به یکی کمتر از تعداد داده‌ها تقسیم کنید.

77 واریانس اگر واریانس جمعیت را اندازه بگیریم آن را با 2 نشان می‌دهیم.
اگر واریانس جمعیت را اندازه بگیریم آن را با 2 نشان می‌دهیم. اگر واریانس نمونه را اندازه بگیریم آن را با s2 نشان می‌دهیم. متوسط مربع انحراف داده‌ها از میانگین خود را اندازه می‌گیرد. به میزان زیادی تحت‌تأثیر برون‌هشت‌ها می‌باشد. برای داده‌های متقارن بهتر است. واحدها درجة دوم هستند.

78 انحراف معیار انحراف معیار نمونه ریشة دوم واریانس نمونه می‌باشد و بنابراین با s نشان داده می‌شود. واحدها، واحدهای اصلی هستند انحراف متوسط داده‌ها از میانگین خود را اندازه می‌گیرد. همچنین به میزان زیادی تحت‌تأثیر برون‌هشت‌ها قرار دارد.

79 واریانس یا انحراف معیار چیست؟
(MPH)

80 واریانس یا انحراف معیار
Sex N Mean Median TrMean StDev SE Mean female male Minimum Maximum Q Q3 female male Females: s = mph and s2 = = mph2 Males: s = mph and s2 = = mph2

81 واریانس یا انحراف معیار چیست؟

82 واریانس یا انحراف معیار
Sex N Mean Median TrMean StDev SE Mean female male Sex Minimum Maximum Q Q3 female male Females: s = kph and s2 = = kph2 Males: s = kph and s2 = = kph2

83 ضریب تغییر نسبت انحراف معیار نمونه به میانگین نمونه ضربدر 100
معیار تغییرپذیری نسبی، یعنی تغییرپذیری نسبت به بزرگی داده‌ها بدون واحد است بنابراین برای مقایسة تفاوت بین دو گروه خوب است.

84 ضریب تغییر Females: CV = (11.32/91.23) x 100 = 12.4
Sex N Mean Median TrMean StDev SE Mean female male Minimum Maximum Q Q3 female male Females: CV = (11.32/91.23) x 100 = 12.4 Males: CV = (17.39/106.79) x 100 = 16.3

85 ضریب تغییر Females: CV = (18.86/152.05) x 100 = 12.4
Sex N Mean Median TrMean StDev SE Mean female male Sex Minimum Maximum Q Q3 female male Females: CV = (18.86/152.05) x 100 = 12.4 Males: CV = (28.98/177.98) x 100 = 16.3

86 مناسبترین معیار تغییرپذیری بستگی دارد به ...
شکل توزیع داده‌ها

87 انتخاب معیار مناسب تغییرپذیری
اگر داده‌ها متقارن باشند، بدون هیچ برون‌هشت جدی، از دامنه و انحراف معیار استفاده می‌شود. اگر داده‌ها چوله باشند، و یا دارای برون‌هشت باشند از دامنة بین‌چارکی استفاده می‌گردد. اگر در حال مقایسه تفاوت در بین دو مجموعه داده باشیم، از ضریب تغییر استفاده می‌گردد.

88 مجموعه‌ای از قوانین احتمال

89 حادثه نتیجة یک مشاهده یا آزمایش یا توصیف بعضی از پیامدهای بالقوه
با این حروف نشان داده می‌شوند. A, B, C, …

90 احتمال بین صفر و 1 می‌باشد که نشاندهندة احتمال وقوع یک حادثه است.
یک حادثه با احتمال صفر، یک حادثة بی‌اثر است. یک حادثه با احتمال یک یک حادثة قطعی است. نزدیکتر به یک، احتمال وقوع حادثه بیشتر است. احتمال حادثة A را با P(A) نشان می‌دهند.

91 مثال‌ها از حادثة پوچ: یک مرد باردار شود زن از سرطان پروستات بمیرد.

92 مثال‌های از حادثه‌های قطعی
خورشید امشب غروب خواهد کرد. نیمسال به پایان خواهد رسید. یک نفر خواهد مرد.

93 سه راه برای تعیین احتمالات
روش فراوانی روش کلاسیک روش عقیدة شخصی

94 و مقدمه‌ای بر توابع پیوسته چگالی احتمال ...
توزیع نرمال و مقدمه‌ای بر توابع پیوسته چگالی احتمال ...

95 هیستوگرام درصد

96 هیستوگرام مساحت مستطیل = احتمال

97 کاهش اندازة فاصله ...

98 کاهش بیشتر اندازة فاصله‌ها ...

99 توابع پیوستة چگالی احتمال ...
منحنی توصیف‌کنندة احتمال هر محدوده‌ای از مقادیر را کسب می‌کند. مثل: P(X > 120), P(X<100), P(110 < X < 120) مساحت زیر منحنی = احتمال کل مساحت زیر منحنی = 1 احتمال بدست‌آوردن یک عدد خاص 0 است. مثلاً P(X=120) = 0

100 نوع ویژه‌ای از تابع چگالی احتمال پیوسته p.d.f

101 خصوصیات توزیع نرمال متقارن – منحنی زنگوله‌ای
شکل منحنی بستگی به میانگین جمعیت  و انحراف معیار  دارد. مرکز توزیع  است. وسعت منحنی بستگی به  دارد. بیشتر مقادیر اطراف میانگین هستند اما بعضی از مقادیر کوچکتر و بعضی بزرگتر می‌باشند.

102 مثال‌هایی از متغیرهای تصادفی نرمال
عملکرد تولید کشاورزان در یک منطقه

103 احتمال بالای 75 چقدر است؟

104 سطح زیر منحنی = احتمال محاسبة جبری؟
شخصی این کار سخت را برای ما انجام داده است. ما تنها به یک جدول احتمالات برای هر توزیع نرمالی نیاز داریم. اما تعداد بینهایت توزیع نرمال وجود دارد (برای هر میانگین و انحراف معیاری یک توزیع) جواب استانداردکردن standardize می‌باشد.

105 استاندارد کردن ... مقدار x را از میانگین  کم نموده و به انحراف معیار تقسیم کنید. نتیجه مقدار z می‌باشد. یعنی: Z = (X- )/ Z را نرمال استاندارد می‌نامند. میانگین آن  0 و انحراف معیاری برابر با 1 دارد. سپس از جدول احتمال برای z استفاده می‌شود.

106 استفاده از جدول z

107 احتمال بین 65 و 70 چیست؟

108 احتمال زیر 65 چیست؟

109 یادآوری! احتمالات محاسبه‌شده دقیق هستند تنها اگر فروض ایجادشده به طور واقعی درست باشند. وقتی محاسبات فوق را انجام می‌دهید، فرض شما این است که داده‌ها به طور نرمال توزیع شده باشند. همیشه این فرض را چک کنید! (بعداً یاد خواهیم گرفت)

110 آزمون فرضیه مقدمه

111 برای دانستن خصوصیات یک جمعیت بزرگتر، از یک نمونة تصادفی استفاده نمایید.

112 دو راه برای یادگیری در مورد یک جمعیت
فواصل اطمینان آزمون فرضیه

113 فواصل اطمینان اجازه دهید که با استفاده از داده‌های نمونه، مقادیر جمعیت مانند میانگین یا نسبت‌های واقعی را برآورد نماییم. مثال: متوسط واقعی زمانی که دانشجویان در آخر هفته مطالعه می‌کنند، چقدر است؟

114 آزمون فرضیه به ما اجازه دهید که با استفاده از داده‌های نمونه، یک ادعا در مورد یک جمعیت را آزمون نماییم. مثلاً اینکه نسبتی از جمعیت یا میانگین جمعیت برابر با یک عدد است. مثال: آیا مقدار واقعی متوسط مطالعة دانشجویان در آخر هفته 20 دقیقه است؟

115 ایدة عمومی آزمون فرضیه یک فرض ابتدایی بسازید.
شواهد را جمع‌آوری کنید (داده‌ها) بر اساس شواهد موجود، تصمیم بگیرید که آیا فرض اولیه قابل قبول است یا خیر.

116 اجازه دهید که این فرضیه را نشان دهیم.

117 مثال آیا متوسط نمره 7/2 است؟
جمعیت 5 میلیون دانشجوی کالج آیا متوسط نمره 7/2 است؟ چقدر احتمال دارد که 100 دانشجو دارای متوسط نمره‌ای به اندازة 9/2 باشند اگر متوسط جمعیت 7/2 باشد؟ نمونة 100 دانشجو

118 تصمیم‌گیری آن محتمل یا غیرمحتمل است که ما شواهدی داشته باشیم که فرض اولیة ما را تأیید یا رد کند. (توجه: محتمل یا غیرمحتمل با محاسبة احتمال مشخص می‌شود) اگر محتمل باشد، آنگاه ما فرض اولیة خود را رد نمی‌کنیم. یعنی شواهد کافی برای چیز دیگر نداریم.

119 تصمیم‌گیری (ادامه) اگر غیرمحتمل باشد، آنگاه:
یا فرض اولیة ما درست است و ما یک حادثة غیرمعمول را تجربه می‌کنیم. یا فرض اولیة ما نادرست است. در آمار، اگر غیرمحتمل باشد، ما تصمیم به رد فرض اولیه می‌گیریم.

120 ایدة آزمون فرضیه اول دو فرضیه ارائه می‌کنیم، فرضیة صفر
the null hypothesis (“H0”) و فرضیة جایگزین and the alternative hypothesis (“HA”) H0: خوانده گناهکار نیست HA: خوانده گناهکار است

121 شناسایی فرضیه‌ها فرضیه صفر همیشه نشاندهندة وضعیت موجود می‌باشد یعنی فرضیه‌ای که نیازمند هیچ تغییری در رفتار جاری ندارد. فرضیه جایگزین، نتیجه‌ای است که محقق سعی دارد آن را بدست‌ آورد.

122 ادامة مثال سپس، شواهدی مانند اثر انگشت، لکه‌های خون، نمونه‌های مو، الیاف فرش، رد کفش، نمونه‌های دستخط و غیره جمع‌آوری می‌شود. در آمار، داده‌ها همان شواهد هستند.

123 ادامة مثال سپس فرض اولیه ساخته می‌شود
خوانده، بیگناه است تا وقتی که ثابت شود، گناهکار است. درآمار، ما همیشه فرض می‌کنیم فرضیة صفر درست است.

124 ادامة مثال سپس یک تصمیم بر اساس شواهد موجود بگیرید.
اگر شواهد کافی وجود داشت (ماورای شک منطقی)، فرضیة صفر رد می‌شود. (خوانده گناهکار است). اگر شواهد کافی وجود نداشته باشد، فرضیة صفر رد نمی‌شود (خوانده گناهکار نیست)

125 نکتة مهم هیچ تصمیمی مستلزم اثبات فرضیة صفر یا فرضیة جایگزین نمی‌باشد.
ما فقط اظهار می‌داریم که شواهد کافی برای حرکت در یک راه یا راه دیگر نداریم. این موضوع همیشه در آمار درست است، موضوع این نیست که ما چه تصمیمی می‌گیریم، همیشه شانس این وجود دارد که ما تصمیم اشتباه بگیریم.

126 آزمون فرضیه ادامة مقدمه ...

127 خطاهای قضاوت

128 خطاها در آزمون فرضیه

129 تعاریف: انواع خطا خطای نوع اول: فرضیة صفر رد شود درحالیکه درست است.
خطای نوع دوم: فرضیة صفر رد نشود، وقتی اشتباه است. همیشه شانس ایجاد یکی از این خطاها وجود دارد اما هدف ما باید حداقل کردن شانس وقوع این خطاها باشد.

130 جمعیت تعداد زیادی بزرگسال
مثال جمعیت تعداد زیادی بزرگسال آیا متوسط درجة حرارت بدن 6/98 درجه است؟ یا آن کمتر است؟ متوسط درجة حرارت بدن 80 نفر بزرگسال 4/98 درجه است. نمونه 80 نفر بزرگسال

131 مثال (ادامه) تعیین فرضیه فرضیة اولیه را  = 98.6 بسازید.
H0:  = 98.6 درجه HA:  < 98.6 درجه فرضیة اولیه را  = بسازید. جمع‌آوری داده‌ها: متوسط درجة حرارت بدن 80 نفر نمونه، 4/98 است. احتمال این که درجة حرارت بدن یک نمونة 80 نفره از بزرگسالان کمتر از 4/98 باشد، اگر دمای متوسط جمعیت 6/98 باشد، چه مقدار است؟

132 استفاده از p-value برای تصمیم‌‌گیری
نزدیک به صفر به معنای غیرمحتمل است. بنابراین اگر p-value کوچک باشد (به طور مثال کمتر از 05/0، آنگاه فرضیة صفر رد می‌شود.

133 p-value را عموماً با p نشان می‌دهند.
مثال (ادامه) p-value را به آسانی می‌توان از نرم‌افزارهای آماری مانند MINITAB بدست آورد. Test of mu = vs mu < The assumed sigma = 0.600 Variable N Mean StDev SE Mean Z P Temp p-value را عموماً با p نشان می‌دهند.

134 مثال (ادامه) p-value برابر 0026/0 نشان می‌دهد که اگر دمای متوسط بدن در جمعیت 6/98 باشد، غیرمحتمل است که یک نمونة 80 نفره بزرگسال دارای دمای متوسط بدن 4/98 باشند. تصمیم: رد فرضیة صفر نتیجه اینکه دمای متوسط بدن کمتر از 6/98 می‌باشد.

135 چه نوع خطایی ممکن است برای ما پیش آید؟
خطای نوع اول در اینجا ادعا در این مورد است که متوسط دمای بدن کمتر از 6/98 است درحالیکه واقعاً اینگونه نیست. خطای نوع دوم در اینجا شکست در این ادعا که متوسط دمای بدن کمتر از 6/98 است درحالیکه واقعاً اینگونه است. ما فرضیة صفر را رد کردیم یعنی ادعا کردیم که دمای بدن کمتر از 6/98 است بنابراین ما ممکن است خطای نوع اول را داشته باشیم.

136 آزمون فرضیه برای میانگین یک جمعیت

137 مثال آیا متوسط نمره 7/2 است؟
جمعیت 5 میلیون دانشجوی کالج آیا متوسط نمره 7/2 است؟ چقدر احتمال دارد که 100 دانشجو دارای متوسط نمره‌ای به اندازة 9/2 باشند اگر متوسط جمعیت 7/2 باشد؟ نمونة 100 دانشجو

138 مقادیر p چقدر محتمل است که 100 دانشجو دارای میانگین نمره‌ای به اندازة 9/2 باشند اگر متوسط جمعیت 7/2 باشد؟

139 تعیین مقادیر P H0: μ = متوسط نمرات جمعیت = 2.7
HA: μ = متوسط نمرات جمعیت > 2.7 اگر 100 دانشجو دارای متوسط نمره‌ای برابر 9/2 با انحراف معیار 6/0 باشد، مقدار P برابر است با:

140 تصمیم‌گیری مقدار P کوچک است. غیرمحتمل است که ما نمونه‌ای به اندازة 9/2 داشته باشیم اگر متوسط نمرات جمعیت 7/2 باشد. فرضیة صفر رد می‌شود. شواهد کافی وجود دارد که متوسط نمرات بزرگتر از 7/2 باشد.

141 اصطلاحات H0: μ = 2.7 در برابر HA: μ > 2.7
یک آزمون فرضیة دنبالة راست یا یک طرفه نامیده می‌شود چون مقدار P مربوط به دنبالة سمت راست است. Z = 3.33 را آمارة آزمون می‌نامند. اگر ما فکر کنیم که مقدار P ما کوچک است یعنی کوچکتر از 05/0 باشد، آنگاه احتمال اینکه ما یک خطای نوع اول بسازیم برابر 05/0 است. این مقدار را سطح معنی‌داری آزمون می‌نامند. ما می‌گوییم α=0.05 جاییکه α سطح معنی‌داری است.

142 جمعیت تعداد زیادی بزرگسال
مثال جمعیت تعداد زیادی بزرگسال آیا متوسط درجة حرارت بدن 6/98 درجه است؟ یا آن کمتر است؟ متوسط درجة حرارت بدن 80 نفر بزرگسال 4/98 درجه است. نمونه 80 نفر بزرگسال

143 مقادیر p چقدر محتمل است که 80 بزرگسال دارای یک دمای متوسط بدنی به اندازة 4/98 باشد اگر متوسط جمعیت 6/98 باشد؟

144 تعیین مقادیر P H0: μ = متوسط دمای بدن جمعیت = 98.6
HA: μ = متوسط دمای بدن جمعیت < 98.6 اگر 80 نفر بزرگسال دمای بدن‌شان 4/98 با انحراف معیار 6/0 باشد، مقدار P برابر است با:

145 تصمیم‌گیری مقدار P کوچک است، غیرمحتمل است که ما نمونه‌ای به اندازة 4/98 بدست آوریم اگر متوسط دمای بدن در جمعیت 6/98 باشد. رد فرضیة صفر. شواهد کافی برای این نتیجه که متوسط دمای بدن کوچکتر از 6/98 می‌باشد وجود دارد.

146 اصطلاحات H0: μ = 98.6 در برابر HA: μ < 98.6
آزمون فرضیة با دنبالة چپ یا یک طرفه نامیده می‌شود، چونکه مقدار P مربوط به سمت چپ است. Z = آمارة آزمون می‌باشد اگر ما فکر کنیم که مقدار P کوچک است؛ یعنی کوچکتر از 02/0، آنگاه احتمال اینکه ما خطای نوع اول ایجاد کنیم برابر با 02/0 می‌باشد. یعنی سطح معنی‌داری برابرα = می‌باشد.

147 مثال آیا متوسط زمان صرف وقت برای مطالعه 20 دقیقه است؟
جمعیت دانشجویان آیا متوسط زمان صرف وقت برای مطالعه 20 دقیقه است؟ نمونة 64 دانشجو مقدار متوسط 17 دقیقه با انحراف معیار16 دقیقه.

148 مقادیر P چگونه محتمل است که 64 دانشجو، به طور متوسط حداقل 17 دقیقه و حداکثر 23 دقیقه صرف مطالعه کنند اگر متوسط جمعیت 20 دقیقه باشد؟

149 تعیین مقدار P H0: μ = متوسط وقت صرف‌شده = 20
HA: μ = متوسط وقت صرف شده # 20 اگر 64 دانشجوبه طور متوسط 17 دقیقه با انحراف معیار 16 دقیقه صرف مطالعه کنند، مقدار P برابر است با: و بنابراین P-value = × 2 = 0.134

150 تصمیم‌گیری مقدار P کوچک نیست. محتمل است که ما یک نمونه به کوچکی 17 دقیقه و به بزرگی 23 دقیقه داشته باشیم اگر مقدار متوسط صرف شده 20 دقیقه باشد. فرضیة صفر رد نمی‌شود. شواهد کافی برای اینکه بگوییم مقدار متوسط متفاوت از 20 دقیقه است وجود ندارد.

151 اصطلاحات H0: μ = 20 در برابر HA: μ # $20
آزمون فرضیة دو دنباله یا دو طرفه نامیده می‌شود چونکه مقدار P در هر دو طرف می‌باشد. Z = -1.5 آمارة آزمون می‌باشد چون ما در رد فرضیة صفر شکست خوردیم، ممکن است خطای نوع اول را داشته باشیم.

152 اگر داده‌ها به طور نرمال توزیع نشده باشند باید دارای یک نمونة بزرگ مثلاً n > 60 باشیم.

153 نکتة بسیار مهم مقدار P شما، صحیح نخواهد بود مگر اینکه فرض‌های شما درست باشد. اگر شما نمونة کوچکی داشته باشید، باید ببینید آیا داده‌های شما به طور نرمال توزیع شده است یا نه اگر داده‌ها به طور نرمال توزیع نشده باشند، شما باید یک نمونة بزرگ داشته باشید.

154 Testing Hypotheses Made about the Means of Two Populations
START Paired t test (samples must come from normal populations): Yes Are the two samples dependent? No where df = n - 1 z test (normal distribution): Do n1 and n2 both exceed 30? Yes No No Are both populations normally distributed? Use nonparametric methods Yes Reject After applying the F test, what do we conclude about ? separate variances t test (samples must come from normal populations) Fail to reject Pooled variances t test (samples must come from normal populations): where and

155 یادآوری عدم توجه به سطوح اندازه گیری در بکارگیری روشهای مختلف آماری اعم از آمار توصیفی یا استنباطی، اشتباه رایجی است که در بسیاری از تحقیقات به چشم می‌خورد. سطوح اسمی Nominal scale مقولات یک متغیر به صورت قراردادی کنار هم قرار می‌گیرند. زن یا مرد (همسانی یا ناهمسانی)

156 2. در سطح ترتیبی ordinal scale:
جهت تغییر از کم به زیاد یا از ضعیف به شدید است، بنابراین در این سطح علاوه بر همسانی یا ناهمسانی مقولات، شدت و ضعف و ترتیب آنها نیز مشخص می‌شود ولی چون فواصل بین مقولات مشخص نیست اعداد اختصاص‌یافته به آنها باز هم فاقد ارزش عددی است. یعنی نمی‌توان گفت که فلانی سه برابر دیگری به تحصیل علاقه دارد.

157 3. سطح فاصله‌ای ‌Interval Scale
در این سطح علاوه بر تعیین سطوح مختلف و ترتیب منطقی و واقعی بین مقادیر یک متغیر، فاصلۀ بین مقادیر متغیر فوق نیز مشخص می­شود. به عنوان مثال می­توان گفت دانشجوئی که نمره 20 گرفته است به اندازۀ 10 نمره با دانشجوئی که نمرۀ 10 گرفته است فاصله دارد. در این مقیاس صفر مطلق وجود ندارد، مثلاً اگر دانشجوئی در درس آمار صفر گرفته باشد، نباید فرض کرد که اصولاً فاقد دانش آمار است

158 4. سطح نسبی Ratio Scale بالاترین و دقیق ترین سطح اندازه‌گیری است که علاوه بر تعیین سطوح و مقادیر یک متغیر و تعیین فاصله بین مقادیر یک متغیر، نسبت‌ها نیز قابل محاسبه و بیان هستند و مبنای اندازه‌گیری نیز صفر مطلق است. مانند میزان درآمد یا حساب دانشجو - در این متغیر اگر حساب دانشجو صفر باشد واقعاً هیچ پولی در حساب او نیست زیرا این متغیر دارای صفر مطلق است و وجود صفر حقیقی به عنوان مبدأ اندازه‌گیری محقق را قادر می‌سازد تا از روشهای مختلف آماری استفاده کند.

159 قرینه‌(سطح توزیع) متقارن
یادآوری اسمی ترتیبی فاصله‌ای یا نسبتی شاخص‌های مرکزی مد مد، میانه مد، میانه، میانگین شاخص‌های پراکندگی فراوانی نسبی طبقات چارک‌بندی واریانس انحراف‌معیار دامنه تغییرات قرینه‌(سطح توزیع) متقارن چولگی

160 تحلیل روابط بین متغیرها
آمار توصیفی تنها می‌تواند تصویری از جامعه مورد مطالعه ارائه دهد. اما قادر به بیان روابط بین متغیرها و تبیین متغیر یا متغیرهای وابسته نیست زیرا در این سطح محقق در هر مرحله تنها با یک متغیر سروکار دارد محقق در تحقیقات مختلف عمدتاً بدنبال تحلیل و تبیین داده‌ها و متغیرهای موردنظر است به همین دلیل سعی می‌کند با استفاده از آمار استنباطی به بررسی روابط بین متغیرها، تفاوت موجود در بین گروه‌های مورد مطالعه و یا تبیین متغیر وابسته از طریق متغیرهای مستقل و غیره بپردازد. 160

161 روابط بین متغیرها آیا ارتباطی بین دو یا چند متغیر وجود دارد؟ اگر جواب مثبت است، این ارتباط در چه سطحی است؟ آیا می‌توان تغییرات یک متغیر را از طریق متغیر یا متغیرهای دیگر پیش‌بینی و تبیین کرد؟ پاسخ سؤال اول از طریق تکنیک همبستگی و سؤال دوم از طریق روش تحلیل رگرسیون امکان‌پذیر است.

162 در رابطه با تحلیل دومتغیره روابط بین متغیرها را می‌توان از طریق 1) جداول توافقی 2) ضریب همبستگی اسپیرمن 3) ضریب همبستگی پیرسون و برای پیشگویی تغییرات یک متغیر از طریق متغیر دیگر از رگرسیون ساده بهره جست. در رابطه با جمعیت چند متغیره، روابط بین متغیرها از طریق 1) ضریب همبستگی چندگانه و 2) ضریب همبستگی جزئی و پیشگوئی تغییرات یک متغیر از طریق متغیرهای دیگر با استفاده از رگرسیون چندگانه امکان‌پذیر است.

163 در حاشیه: تفاوت عمدۀ همبستگی و رگرسیون
تفاوت رگرسیون با ضریب همبستگی در این است که رگرسیون بدنبال پیش‌بینی است در حالیکه ضریب همبستگی تنها میزان وابستگی دو متغیر را با هم بررسی می‌‌کند. در رگرسیون فرض بر این است که متغیر وابسته تصادفی و متغیرهای توضیحی دارای مقدار ثابت یا غیرتصادفی (در نمونه‌گیری تکراری) می‌باشند. در همبستگی فرض بر این است که هر دو متغیر تصادفی هستند. - ضریب همبستگی قادر به بیان روابط علی و معلولی بین متغیرها نیست.

164 جدول توافقی هدف از تشکیل یک جدول توافقی نشان دادن هر نوع رابطه‌ای است که ممکن است بین دو متغیر وجود داشته باشد‌. در مثال حاضر متغیر‌های کیفی، جنس (با سطوح مرد و زن) و رد کردن (با سطوح بله و خیر) می‌باشد.  از روی جدول روشن می‌شود که در حقیقت رابطه‌ای بین این دو متغیر وجود دارد. به طوری که واضحاً نسبت بیشتری از پاسخ‌دهندگان زن، برنامه مورد نظر را رد می‌کنند رد کردن خیر بله 20 30 زن 40 10 مرد

165 ضرایب همبستگی مرتبط با متغیرهای اسمی
1. کای‌اسکوئر: یکی از آزمون‌های ناپارامتری است. این آزمون توسط فیشر ارائه شد و قادر است تا به سنجش آماری معنی‌داری تفاوت بین فراوانیهای مشاهده شده و فراوانی‌های مورد انتظار بدست‌آمده از جامعه بپردازد. این آزمون نشان می‌دهد که آیا تفاوت موجود بین مقادیر فوق از نظرآماری معنی‌دار است یا این تفاوت عمدتاً براساس شانس است.

166 شرایط استفاده از آزمون کای‌اسکوئر
داده‌های مشاهده‌شده باید به صورت تصادفی گردآوری شده باشند. کلیه موارد موجود در نمونه باید مستقل از هم باشند. حتی‌الامکان هیچ یک از خانه‌های جدول نباید کمتر از 10 باشند (البته برخی آماردانان تعداد 5 مورد را ذکر می­کنند) تعداد نمونه باید به اندازۀ کافی بزرگ باشد. بهتر است حجم نمونه در اینگونه تجزیه و تحلیلها حداقل 50 مورد باشد. آماره کای‌اسکوئر می‌تواند برای یک متغیر اسمی و یک متغیر ترتیبی نیز بکار رود. (مثلاً عکس العمل چهار نوع کود یا چهار سطح از یک ماده شیمیائی در دو سطح خاک)

167 2. ضریب همبستگی چوپروف (T)
به منظور تعیین شدت وابستگی بین متغیرهای مورد مطالعه بکار گرفته می‌شود و مقدار آن همواره بین صفر و یک در نوسان است. این آزمون زمانیکه هر دو متغیر اسمی و یا یکی اسمی و دیگری ترتیبی باشد مورد استفاده قرار می‌گیرد. اما نباید تعداد سطر و ستون با هم برابر باشند به عبارت دیگر این ضریب برای جداول توافقی مستطیلی بکار گرفته می‌شود.

168 3. ضریب همبستگی فی phi به منظور بررسی شدت همبستگی بین دو متغیر اسمی که به صورت دووجهی و در قالب جدول توافقی می‌باشد مورد استفاده قرار می‌گیرد به همین دلیل در اینگونه موارد باید بجای استفاده از کای‌اسکوئر، از ضریب همبستگی فی استفاده نمود. تفاوت ضریب همبستگی فی با کای‌اسکوئر در این است که کای‌اسکوئر سطح معنی‌داری همبستگی بین متغیرها را تعیین می‌کند در حالیکه ضریب فی شدت همبستگی کای‌اسکوئر را نشان می‌دهند. این ضریب همانند کای‌اسکوئر تفسیر می‌گردد و مقدار آن همواره بین صفر و یک است.

169 4. ضریب همبستگی توافق پیرسون Pearson s coefficient contingency

170 5. ضریب کرامر: این ضریب برای تعیین میزان شدت همبستگی بین دو متغیر اسمی مورد استفاده قرار می‌گیرد و آنرا با نشان می‌دهند که مقدار آن همواره بین صفر و یک در نوسان است این ضریب در مقایسه با سایر ضرایب انعطاف بیشتری دارد به طوریکه هم برای جداول توافقی بیشتر از و هم برای جداول مستطیلی بکار می‌رود.

171 ضرائب همبستگی مرتبط با متغیرهای ترتیبی

172 1. ضریب همبستگی رتبه‌ای کندال kendall s rank correlation coefficient
شاخص کندال حالت تقارن دارد به این معنا که متغیرها قرینه بوده و برای محقق مهم نیست که کدامیک از متغیرهای مورد مطالعه وابسته و کدامیک مستقل می‌باشد. این شاخص مشخص می‌کند که تا چه میزان افزایش یا کاهش در یک متغیر با افزایش یا کاهش در متغیر دیگر همراه است. مقدار ضریب کندال همواره بین 1- تا 1+ در نوسان است.

173 2. ضریب گاما Gamma coefficient
شاخص است که از طریق آن می‌توان با آگاهی از پاسخهای یک متغیر پاسخ‌ها و نتایج متغیر دیگر را پیشگوئی کرد. گاما در واقع میزان کاهش خط را که در نتیجه آگاهی از پاسخ افراد در متغیر مستقل رخ می‌دهد مشخص می‌کند.

174 3. ضریب همبستگی رتبه‌ای اسپیرمن Spearman Rank Correlation Coefficient
این ضریب زمانی مورد استفاده قرار می‌گیرد که داده‌ها به صورت رتبه‌ای متوالی ناپیوسته (... و 3 و 2 و 1) باشد و یا این که مقادیر اصلی به رتبه تبدیل شوند. در صورتیکه داده‌ها با مقیاس فاصله‌ای یا نسبتی اندازه‌گیری شده باشند می‌توان آنها را به رتبه تبدیل کرد و بعد ضریب همبستگی رتبه‌ای اسپیرمن را محاسبه نمود. ضریب همبستگی اسپیرمن که آنرا با rs نمایش می‌دهند همواره بین 1+ و 1- در نوسان است و از لحاظ سطح سنجش نیز ترتیبی و از نوع متقارن می‌باشد به همین دلیل برای محقق مهم نیست که کدام متغیر مستقل و کدامیک وابسته باشد.

175 ضریب همبستگی مرتبط با متغیرهای فاصله‌ای یا نسبی

176 ضریب همبستگی پیرسون Pearson Correlation Coefficient
اگر این ضریب مثبت باشد به معنای آن است که تغییرات در برد و متغیر به طور هم جهت اتفاق می‌افتد و بالعکس.

177 -کندال تائو b (برای جداول توافقی مربع)
اسمی ترتیبی فاصله‌ای یا نسبی دوحالتی چندحالتی ضر یب فی لاندا ضریب چوپروف V کرامر لاندا - تتا V کرامر - ضریب فی لاندا ضریب کرامر ضریب توافقی پیرسون کرامر ضریب فی یا کرامر -کندال تائو b (برای جداول توافقی مربع) - کندال تائو c(برای جداول توافقی مستطیلی) - ضریب همبستگی رتبه ای اسپیرمن - گاما مقادیر فاصله ای به رتبه ای تبدیل و ضریب همبستگی رتبه ای اسپیرمن با کندال تائو محاسبه می شود ضریب همبستگی پیرسون

178 نکته: دو نکته در رابطه با ضریب همبستگی وجود دارد که توجه به آنها بسیار ضروری است. الف- وجود همبستگی بین دو متغیر به معنای این نیست که آنها دارای اثرات مساوی هستند و یا یکی علت دیگری است، زیرا ممکن است هر دو تحت تأثیر عامل دیگری باشند. به عنوان مثال اگر بین میزان غیبت از کار و رضایت شغلی رابطه متغیر وجود داشته باشد نمی­توان نتیجه گرفت که دلیل زیاد بودن غیبت عدم رضایت شغلی است زیرا ممکن است که غایب بودن خود باعث احساس عدم رضایت شغلی باشد و یا هر دو تحت تأثیر عامل دیگر قرار گرفته باشد. ب- همبستگی ساده نشان می‌دهد که بین دو متغیر چقدر ارتباط خطی وجود دارد.

179 انتخاب آزمون مناسب برای مقایسۀ میانگین‌ها
چنانچه داده‌های مربوط به متغیر وابسته از نوع کمی با مقیاس (فاصله‌ای یا نسبی) و داده‌های متغیر مستقل یا گروه‌بندی از نوع کیفی با مقیاس (اسمی یا ترتیبی) باشد برای بررسی تفاوت ها می‌توان به مقایسه میانگین‌ها پرداخت و معنی‌داربودن تفاوت‌های موجود بین طبقات یا گروه‌ها را مورد بررسی قرار داد.

180 آزمونهای پارامتری آزمونهای t و F عمده‌ترین آزمونهای آماری برای مقایسۀ میانگین گروه‌ها می‌باشند. از آنجا که گروه‌های مورد بررسی ممکن است مستقل با همبسته باشند بنابراین هر یک از آزمونهای فوق به دو بخش مستقل و همبسته تقسیم می‌شوند. تصمیم‌گیری در مورد این‌که در چه مواقعی باید از آزمونهای t یا F مستقل یا همبسته استفاده کرد مهمترین مسأله در تحلیل داده های کمی است.

181

182 پیش‌فرضهای آزمونهای پارامتری
آزمونهای پارامتری t و F را با پیش فرضهای زیر میتوان مورد استفاده قرار داد: مشاهدات از یک جامعه نرمال انتخاب شده باشند. اطلاعاتی که با هم مقایسه می‌شوند باید تقریباً واریانس یکسانی داشته باشند (در نمونه‌های بزرگ اگر واریانس یک گروه دو برابر دیگری باشد باز هم می‌توان از آزمونهای پارامتری استفاده نمود) داده‌های گردآوری شده دارای مقیاس فاصله‌ای یا نسبتی باشند. اگر اطلاعات جمع‌آوری‌شده این سه شرط را نداشت می‌توان داده‌های فوق را به غیر پارامتری تبدیل کرد و از روش‌های آماری غیرپارامتری استفاده نمود. روش عمده تبدیل داده­های پارامتری به غیرپارامتری، رتبه‌بندی کردن آنها می‌باشد.

183 الف- آزمونt: اگر متغیرمستقل یا متغیرگروه‌بندی تنها دو گروه داشته باشد.
(اگر بخواهیم درآمد زنان و مردان را با هم مقایسه کنیم)

184 ب- آزمون F (تحلیل واریانس ANOVA)
اگر تعداد گروهها بیش از دو باشد. (اگر بخواهیم میزان درآمد گروههای شغلی کارگر، کارمند و کشاورز را با هم مقایسه کنیم) نکته: آزمون F تنها معنی‌داری تفاوت بین میانگین گروه‌ها را مورد بررسی قرار می‌دهد اما مشخص نمی‌کند که این تفاوت‌ها در بین کدامیک از گروه‌های مورد بررسی وجود دارد. به همین دلیل برای ایک که بدانیم تفاوت‌های بدست‌آمده در بین کدامیک از طبقات وجود دارد و از این طریق مقایسه‌ای بین گروه‌ها انجام گیرد، باید از آزمون شفه (Scheffe test) یا LSD و یا از آماره‌هایی نظیر توکیTukey یا دانکن Duncan استفاده کرد. این آزمونها میانگین زوج‌ها را با همدیگر به صورت دوبدو مقایسه کرده و وجود اختلاف معنی‌دار بین آنها را نشان می‌دهد.

185 این روش کل واریانس موجود در یک مجموعه از داده‌ها را به دو بخش تقسیم می‌کند.
بخشی از این واریانس ممکن است بخاطر شانس و تصادف حادث شده باشد و بخش دیگر ممکن است ناشی از دلایل یا عوامل خاصی باشد، از طرف دیگر واریانس موجود ممکن است ناشی از تفاوت بین گروههای مورد مطالعه و یا بخاطر تفاوت موجود در درون نمونه‌ها حادث شده باشد. مهمترین اصل در تحلیل واریانس (ANOVA) آزمایش تفاوت‌های موجود در بین میانگین‌های جوامع یا گروههای مورد مطالعه از طریق بررسی میزان واریانس بین گروه‌ها نسبت به واریانس درون گروه‌هاست. در واریانس درون جامعه فرض بر این است که تفاوت بین مقدار نسبت به میانگین جامعه بخاطر شانس است در حالیکه در بررسی تفاوتهای بین جوامع و گروهها، فرض بر این است که تفاوت بین میانگین جامعه یا نمونۀ jام با میانگین کل به دلیل عوامل خاص می‌باشد. بنابراین زمانی که از تحلیل واریانس استفاده می‌شود فرض می‌گردد که هر یک از نمونه‌ها از یک جامعه نرمال انتخاب شده‌اند و هر یک از این جوامع نیز واریانس برابری دارند همچنین فرض می‌شود کلیه عوامل بجز عواملی که مورد مطالعه می‌باشند تحت کنترل هستند.

186 نکته: در تحلیل واریانس، اگر در بین میانگین گروههای مختلف تفاوت معنی‌داری وجود داشته باشد تنها از طریق ANOVA نمی‌توان محل این تفاوت‌ها را بدست آورد. اگر به مقایسۀ سه گروه A، B، C بپردازیم و تفاوت معنی‌داری در بین آنها وجود داشته باشد نمی‌توانیم قضاوت کنیم که آیا این تفاوت‌ها بین A و B است یا بین B و C یا بین A و C. در چنین مواقعی نباید از طریق آزمون t به مقایسه دوبدو گروهها پرداخت، زیرا هر قدر تعداد دفعاتی که آزمون t انجام می‌گیرد بیشتر باشد سطح اطمینان نتایج پائین می‌آید. (در این موارد باید از آزمونهائی مانند آزمون شفه، آزمون چنددامنه دانکن، آزمون توکی و آزمون استیودنت نیومن، کیول برحسب ضرورت استفاده کرد.

187 تحلیل واریانس یکطرفه: One-way Analysis of Variance اگر محقق تنها یک متغیر (درآمد) را انتخاب کند و بخواهد تفاوت بین طبقات یا گروههای مختلف را بررسی کند در این صورت از تحلیل واریانس یکطرفه استفاده می‌کند. تحلیل واریانس دوطرفه: Two way Analysis of Variance اگر محقق بخواهد اثر دو عامل را بر روی یک متغیر وابسته بررسی کند باید از تحلیل واریانس دوطرفه استفاده کند.

188 آزمونهای غیرپارامتری همانطوری که قبلاً نیز بحث گردید آزمونهای پارامتری علاوه بر این که نیاز به داده‌هائی از نوع فاصله‌ای دارند باید از برخی از پیش فرض‌های اولیه نیز برخوردار باشند (نرمال بودن توزیع در جامعه و داشتن واریانس یکسان در مواردی که دو یا چند جامعه با هم مورد مقایسه قرار می‌گیرند و ...)

189 اما در آزمونهای غیرپارامتری چنین پیش‌فرضهائی مطرح نبوده و زمانی که داده‌ها در سطح اسمی و یا ترتیبی باشد و یا در صورتیکه گروه‌های مورد مطالعه از واریانس نابرابر و یا از چولگی برخوردار باشند باید از آزمون‌های غیرپارامتری استفاده کرد. این آزمون‌ها از ویژگی‌هائی برخوردار هستند که آنها را از آزمون‌های پارامتری متمایز کرده است:

190 این آزمونها هیچکدام از پیش‌فرضهای مطرح شده در آزمونهای پارامتری، نظیر نرمال بودن جامعه و یا برابر بودن واریانس گروهها را مبنا قرار نمی‌دهد و حتی در صورت صادق نبودن مفروضات فوق در خصوص داده‌های فاصله‌ای به منظور استفاده از آزمونهای پارامتری امکان تبدیل داده های فوق به داده‌های غیرپارامتری و رتبه‌ای و محاسبه آزمونهای ناپارامتری وجود دارد. از آنجا که در این آزمونها از مقادیر رتبه‌ای و حتی داده‌های اسمی استفاده می‌گردد، بنابراین محاسبۀ آنها کار ساده‌ای است. این آزمونها در مقایسه با آزمونهای پارامتری از دقت بالائی برخوردار نمی‌باشند. دلیل آن این است که با تبدیل داده‌های فاصله‌ای به مقادیر رتبه‌ای، فواصل واقعی موجود در بین داده‌ها به فواصل یکسان بین رتبه‌ها تبدیل شده و در این فرآیند بخشی از اطلاعات ناپدید می‌گردند به عبارت دیگر با تبدیل مقادیر اصلی و واقعی به مقادیر رتبه‌ای، بدلی از واقعیت ساخته می‌شود و این بدل بدست‌آمده به جای واقعیت مورد تجزیه و تحلیل قرار می‌گیرد.

191 انتخاب آزمون غیرپارامتری مناسب
191

192 1. آزمون نشانه: زمانی که داده‌ها به صورت همبسته باشند مورد استفاده قرار می‌گیرد.

193 (زمانی که بخواهیم نظرات قبلی و بعدی افراد را مورد مقایسه قرار دهیم)
آزمون مک نمار: اغلب در مواردی بکار برده می‌شود که داده‌ها به صورت اسمی و مربوط به دو نمونه مرتبط بهم (Two related) یا همبسته باشند (زمانی که بخواهیم نظرات قبلی و بعدی افراد را مورد مقایسه قرار دهیم)

194 مثال1. ابتدا در مورد یک موضوع نظر افراد را به صورت موافق یا مخالف جویا می‌شویم پس از آن نسبت به برگزاری کلاس آموزشی اقدام می‌کنیم (یاجلسۀ توجیهی) و سپس دوباره نظر افراد را نسبت به موضوع جویا می‌شویم. در اینجا فرض صفر (Ho) این است که تفاوتی بین نظرات افراد در قبل و پس از اجرای برنامه (دورۀ آموزشی) وجود ندارد. مثال2. نظرات 1000 نفر درباره خرید و عدم خرید یک کالا قبل و بعد از برگزاری برنامه تبلیغاتی و معرفی کالا پرسیده شده است با این آزمون می‌توان مشخص نمود که آیا برنامه تبلیغاتی در تغییر نگرش مشتریان مؤثر بوده است یا خیر.

195 3.آزمون ویلکاکسون Wilcoxon Test
در بسیاری از پژوهشهائی که نمونه‌ها به صورت جفت شده و همبسته هستند ممکن است محقق بخواهد هم جهت تغییر و هم میزان تغییر را مورد بررسی قرار دهد، برای این منظور آزمون ویلکاکسون تست مناسبی است. داده های مورد استفاده در این آزمون حداقل باید در سطح ترتیبی باشند. مثال: نظر تعدادی از مشتریان در رابطه با دو نوع کالای مشابه اما با مارک‌های متفاوت از نظر کیفیت محصول سؤال شده است.

196 4. آزمون فریدمن Fridman Test
آزمون فریدمن یکی از آزمونهای غیرپارامتری است این آزمون در واقع معادل آزمون F در روشهای پارامتری می‌باشد اما در اینجا برخلاف آزمون F، فرض توزیع نرمال و برابر بودن واریانس ضرورتی ندارد. این روش برای مقایسه سه گروه یا بیشتر از سه گروه همبسته بکار می‌رود. مثال: نظرات 30 نفر از فراگیران را درخصوص سه روش مختلف تدریس جویا شده‌ایم و پاسخ‌ها نیز از 1 (بسیار نامناسب) تا 5 (بسیار مناسب) امتیازبندی شده‌اند.

197 5.آزمون کوکران یکی از روشهای ناپارامتری و درواقع تعمیم‌یافته آزمون مک نمار است با این تفاوت که این روش برای مواردی که تعداد گروهها یا تکرار سه یا بیشتر از سه باشد بکار می‌رود: داده‌های این آزمون به صورت اسمی می‌باشد و وجود تفاوت بین نظرات افراد را مورد بررسی قرار می‌دهد. مثال: نظرات افراد نسبت به یک موضوع در زمانهای مختلف پرسیده می‌شود - قبل از برگزاری یک دورۀ آموزشی (موافقت – مخالفت) - بعد از برگزاری دوره (موافقت – مخالفت) - بعد از اجرای عملی محتویات دوره (موافقت – مخالفت)

198 6.آزمون من - ویتنی Mann – Whitney Test
برای مقایسه میانگین‌های دو جامعه مستقل زمانی که داده‌ها به صورت رتبه‌ای یا ترتیبی باشند مورد استفاده قرار می‌گیرد. مثال: فرض کنید دو گروه 30 نفره از فراگیران با دو روش متفاوت آموزش دیده و نتیجه ارزیابی آنها از دوره‌های فوق در قالب امتیازات 1 تا 5 گردآوری شده است.

199 7. آزمون کولموگروف - اسمیرنف Kolmogrov – Smirnov Test
چنانچه در بحث کای‌اسکوئر گفته شد اگر فراوانی‌های مورد انتظار بیش از 20 درصد خانه‌های جدول، کمتر از 5 باشد، در این صورت نمی‌توان از فرمول کای‌اسکوئر استفاده کرد، این مشکل معمولاً زمانی پیش می‌آید که حجم نمونه کمتر از 50 باشد و یا تعداد خانه‌های جدول بیشتر باشد. در چنین حالتی می‌توان از تست کولموگرف - اسمیرنف استفاده کرد. اساس این آزمون مقایسه فراوانی تجمعی نسبی مشاهده شده با فراوانی تجمعی نسبی مورد انتظار می‌باشد.

200 8. آزمون کروسکال - والیس Kruskal – Wallis Test
این آزمون در واقع معادل تحلیل واریانس یکطرفه می‌باشد، اما برخلاف آن نیازی به مفروضات آن نظیر اینکه نمونه‌ها از یک جامعۀ نرمال بدست‌آمده باشند و یا اینکه انحراف معیار یکسانی داشته باشند وجود ندارد. آزمون کروسکال والیس زمانی استفاده می‌‌شود که تعداد نمونه‌ها بیش از دو گروه باشد. مثال: از 90 نفر دانشجو در سه رشته مختلف درخواست شد تا کیفیت برنامه‌های آموزشی دانشکده را ارزیابی کنند. امتیازات ارائه شده توسط افراد فوق از 1 (بسیار ضعیف) تا 5 (بسیار قوی) در نوسان بوده است. Ho: بین نظرات دانشجویان رشته‌های مختلف تفاوت معنی‌داری وجود ندارد. این آزمون اگرچه وجود تفاوت بین نظرات گروه‌های مختلف را نشان می‌دهد اما مشخص نمی‌کند که این تفاوت در بین کدام یک از گروه‌ها وجود دارد.

201 آزمون میانه: Median test
یکی دیگر از روشهای غیرپارامتری است که برای مقایسه سه یا بیشتر از سه گروه مورد استفاده قرار می‌گیرد. اطلاعات مورد نیاز در این روش باید در سطح رتبه‌ای بوده و حتی‌الامکان داده‌ها هم‌رتبه نباشند، زیرا اگر میانه مشترک بین گروهها جزو نمرات تکراری باشد در این صورت تشخیص تفاوت گروهها با مشکل مواجه می­گردد. مثال: می‌خواهیم بدانیم آیا سرعت عمل کارگران سه شیفت مختلف یک کارگاه خیاطی با هم متفاوت است یا خیر؟ برای این کار تعداد شلوار دوخته شده توسط 40 کارگر (از سه شیفت مختلف) در یک هفته گردآوری شده است.

202 طبقه‌بندی روش‌های تحلیل چندمتغیره

203 انتخاب روش مناسب برای تجزیه و تحلیل داده‌ها مهمترین قدم در تحلیل داده‌های گردآوری شده محسوب می‌گردد.
متأسفانه به دلیل عدم آشنائی با منطق حاکم بر روش‌های مختلف آماری چند متغیره، به اشتباه یکی به جای دیگری مورد استفاده قرار می‌گیرد و تکنیک‌های مختلف به طور نابجا بکار گرفته می‌شوند.

204 به منظور آشنائی با نحوه بکارگیری روش‌های چند متغیره در تجزیه و تحلیل داده‌ها، درخت تصمیم‌گیری برای استفادۀ اصولی و متناسب با نوع داده‌ها و هدف تجزیه و تحلیل ارائه شده است، این طبقه‌بندی بر مبنای سؤالات و مفروضات خاصی انجام گرفته است: آیا داده‌های مورد نظر قابل تقسیم به متغیرهای مستقل و متغیرهای وابسته هستند؟ اگر چنین تقسیم‌بندی امکان‌پذیر است، چند متغیر از موارد فوق، متغیر وابسته می‌باشند؟ متغیرهای موجود در تجزیه و تحلیل در چه سطحی اندازه‌گیری شده‌اند؟

205 پاسخ این سه سؤال محقق را در تصمیم‌گیری برای انتخاب مناسب‌ترین تکنیک تجزیه و تحلیل چند متغیره کمک می‌کند. پاسخ سؤال اول مشخص می‌کند که آیا باید از تکنیکهای وابستگی (Dependenc Technique) استفاده نمود یا باید از تکنیکهای هم ‌وابستگی (Interodependence Technique) بهره گرفت. روشهای وابستگی تکنیک‌هائی هستند که در آن یک یا چند متغیر به عنوان متغیرهای وابسته لحاظ شده و تغییرات آن براساس متغیرهای مستقل دیگر مورد بررسی و تبیین قرار می‌گیرد مانند روش رگرسیون چندگانه یا تحلیل واریانس چند متغیره و غیره. روش‌های هم وابستگی تکنیک‌هائی هستند که در آن متغیرهای مستقل و وابسته وجود ندارد، بلکه در این روش‌ها مجموعه متغیرها به طور همزمان و با هم مورد تجزیه و تحلیل قرار می‌گیرند. مانند روش تحلیل عاملی.

206

207 اگر موضوع مورد تجزیه و تحلیل دارای یک متغیر وابسته از نوع پارامتری باشد، روش مناسب برای تجزیه و تحلیل آن تحلیل رگرسیون چندگانه است. * چنانچه داده‌های فوق دارای یک متغیر وابسته باشد اما متغیر فوق از نوع غیرپارامتری دووجهی باشد، روش مناسب رگرسیون لوجیستیک و تحلیل تشخیص چندگانه است. چنانچه متغیر وابسته غیرپارامتری چندوجهی باشد باید از تحلیل تشخیصی استفاده شود در تحلیل تشخیصی متغیر وابسته از نوع غیرپارامتری و متغیرهای مستقل از نوع پارامتری هستند. اما چنانچه متغیرهای وابسته و مستقل هر دو غیرپارامتری باشند روش مناسب برای تجزیه و تحلیل داده‌ها رگرسیون لوجیستیک می‌باشد. تحلیل مسیر روشی است که هم برای داده‌های پارامتری و هم غیرپارامتری سازگار است. اگر متغیرهای مربوط به موضوع مورد بررسی دارای چند متغیر وابسته باشد در این صورت دو تکنیک دیگر برای تجزیه و تحلیل مناسب خواهند بود. اگر متغیرهای وابسته پارامتری باشند تحلیل واریانس چند متغیره یا تحلیل همبستگی کانونی مناسب خواهد بود اما اگر متغیرهای وابسته مورد نظر غیرپارامتری باشد می‌توان از طریق تبدیل آنها به متغیرهای مجازی کدبندی شده به صورت (1، 0) از روش تحلیل کانونی استفاده کرد.

208 روشهای هم‌وابستگی بر مبنای وجود یا عدم وجود متغیرهای وابسته مورد تجزیه و تحلیل قرار نمی‌گیرند زیرا در این روشها کلیۀ متغیرها به طور همزمان و با همدیگر بررسی می‌شوند این روشها از نظر پارامتری یا غیرپارامتری بودن داده‌ها به دو گروه جداگانه تقسیم می‌شوند. پارامتری: تکنیکهای تحلیل عاملی و تحلیل خوشه‌ای غیرپارامتری: داده‌های غیرپارامتری از طریق کدبندی متغیر مجازی (به صورت صفر و یک) قابل بکارگیری در روشهای تحلیل عاملی و تحلیل خوشه‌ای هستند. از سوی دیگر هم داده‌های پارامتری و هم غیرپارامتری قابل استفاده در تکنیک مقیاس‌بندی چندبعدی می‌باشند.

209 رگرسیون

210 جمع‌آوری داده‌ها سه روش اصلی برای جمع‌آوری داده‌ها:
مطالعات قبلی بر اساس داده‌های تاریخی مطالعة مشاهده‌ای طرح آزمایشی (بهترین حالت)

211 کاربرد رگرسیون توصیف داده‌ها برآورد پارامترها پیش‌بینی و تخمین کنترل

212 نقش کامپیوتر تحلیل رگرسیون نیازمند استفادة هنرمندانه و هوشمندانه از کامپیوتر است. SAS, SPSS, S-plus, R, MATLAB, …

213 رگرسیون و مدل سازی تحلیل رگرسیون: یک تکنیک آماری برای بررسی و مدل‌سازی ارتباط بین متغیرها کاربردها: مهندسی، علوم فیزیکی و شیمیایی، اقتصاد، مدیریت، علوم زیستی و بیولوژیکی و علوم اجتماعی تحلیل رگرسیون شاید گسترده‌ترین تکنیک آماری مورد استفاده می‌باشد.

214 تحلیل رگرسیون این امکان را برای محقق فراهم می‌کند تا تغییرات متغیر وابسته را از طریق متغیرهای مستقل پیش‌بینی و سهم هر یک از متغیرهای مستقل را در بین متغیر وابسته تعیین کند.

215 تحلیل رگرسیون و ضریب همبستگی
رگرسیون رابطۀ نزدیکی با ضریب همبستگی دارد، بدین معنا که برای انجام رگرسیون باید ضریب همبستگی را محاسبه کرد. اگر میان متغیرهای مورد مطالعه همبستگی وجود داشت تنها در این صورت است که می‌توانیم از رگرسیون برای آزمون فرضیه‌های تحقیق استفاده نمائیم.

216 تحلیل رگرسیون مفهوم رگرسیون برای اولین بار توسط فرانسیس گالتون در سال 1877 مورد استفاده قرار گرفت. او در مطالعه خود نشان داد که قد کودکان متولد شده از والدین بلندقامت گرایش به برگشت به متوسط قد افراد دارد. وی در یک مقالۀ مشهور اظهار داشت: اگرچه تمایل برای والدین بلندقد به داشتن فرزندان بلند قد و نیز والدین کوتاه قد به داشتن فرزندان کوتاه قد وجود دارد اما متوسط قد بچه‌های والدین متعلق به هر طبقة قدی معین به طرف متوسط قد در کل جامعه برگشت یا گرایش دارد (Regress)

217 تعبیر نوین تحلیل رگرسیون
تعبیر جدید رگرسیون کاملاً متفاوت از حالت قبل است به طور کلی می‌توان گفت: تحلیل‌های رگرسیون به مطالعۀ وابستگی یک متغیر (متغیر وابسته) به یک یا چند متغیر دیگر (متغیر توضیحی) می‌پردازد که با تخمین یا پیش‌بینی مقدار متوسط یا میانگین مقادیر متغیر نوع اول در حالتی که مقادیر متغیر نوع دوم معلوم یا معین شده باشند (در نمونه‌گیری تکراری) صورت می‌پذیرد.

218 رسم خط رگرسیون

219 تحلیل رگرسیون در مقام مقایسه با تحلیل رابطۀ علیت
هرچند تحلیل‌های رگرسیون وابستگی یک متغیر به سایر متغیرها را بررسی می‌کند اما الزاماً بیانگر حالت علیت نمی‌باشد. بنا به گفته کندال و استوارت یک رابطۀ آماری هرچند قوی و واضح هرگز نمی‌تواند پایۀ ارتباط علی (سببی) قرار بگیرد. ایده‌های ما از علیت باید خارج از حیطۀ آمار و مالاً از تئوری یا غیر آن حاصل شود. مثلاً نمی‌توان گفت که بارندگی به عملکرد محصول وابسته است.

220 تفاوت عمدۀ همبستگی و رگرسیون
در رگرسیون فرض بر این است که متغیر وابسته تصادفی و متغیرهای توضیحی دارای مقدار ثابت یا غیرتصادفی (در نمونه‌گیری تکراری) می‌باشند. در همبستگی فرض بر این است که هر دو متغیر تصادفی هستند. ضریب همبستگی قادر به بیان روابط علّی و معلولی بین متغیرها نیست.

221 اگر وابستگی متغیری تنها بر روی یک متغیر توضیحی بررسی شود، چنین بررسی‌ به عنوان تحلیل رگرسیون ساده یا دو متغیره معروف است. اگر وابستگی یک متغیر بر روی بیش از یک متغیر توضیحی بررسی گردد، تحت عنوان رگرسیون مرکب معرفی می‌گردد.

222 رگرسیون خطی و غیرخطی خطی‌بودن از نظر متغیرها خطی‌بودن از نظر پارامترها

223 جزء استوکاستیک (تصادفی) تابع رگرسیون جامعه
جزء تصادفی جامعه ( ) نماینده یا جانشینی برای تمامی متغیرهای حذف شده یا فراموش‌شده که بر متغیر وابسته اثر می‌گذارند ولی در مدل رگرسیون وجود ندارند (یا به دلایل گوناگون نمی‌توانند در مدل گنجانده شوند).

224 اهميت جزء اخلال استوکاستیک و تعبیر آن
جزء استوکاستیک نماینده‌ای برای تمامی متغیرهائی است که از مدل حذف شده اما مجموعاً بر y اثر می‌گذارد حال سؤال این است که چرا این متغیرها صریحاً در مدل معرفی نمی‌شوند؟ به بیان دیگر چرا یک مدل رگرسیونی مرکب با تمام متغیرهای ممکن بسط داده نمی‌شوند. دلایل فراوانی وجود دارد: ممکن است تئوری ناقص باشد یعنی از تأثیرگذاری بعضی از متغیرها بر متغیر وابسته بی‌اطلاع باشیم. ممکن است راجع به بعضی از متغیرها داده‌های اندکی داشته باشیم. جمع‌آوری داده در مورد بعضی از متغیرها به نسبت تأثیر آنها در مدل ممکن است بسیار زیاد باشد. به دلیل ماهیت تصادفی بودن متغیر وابسته، توضیح کامل آن ممکن نیست و جزء اخلال می‌تواند آنرا منعکس کند. ممکن است در اندازه‌گیری خطا صورت گرفته باشد. با تأسی به قاعدۀ اُکام (توصیف راجع به پدیده‌ها حتی الامکان ساده در نظر گرفته شود، و اینکه خلاف آن ثابت نشده است) مطلوب است مدل رگرسیون را تا حد ممکن ساده‌تر بگیریم.

225 تخمین مدل رگرسیون دو متغیره
روش حداقل مربعات معمولی Ordinary Least Square (OLS) برطبق فروض اصلی، روش حداقل مربعات چند خاصیت بسیار جالب آماری دارد که یکی از مشهورترین و قویترین روشهای تحلیل رگرسیون را به وجود آورده است (این روش به کارل فردریک گوس، ریاضیدان نامی آلمان نسبت داده می‌شود).

226 مشاهدات

227 نمودار پراکندگی

228 قاعدۀ کلی حداقل مربعات

229 تخمين زننده‌های حداقل مربعات
روش حداقل مربعات، تخمینهای منحصر بفردی از و را که کوچکترین مقدار ممکن را به نمونه ارائه شده بدهد، مهیا می‌سازد. تخمين زننده‌های حداقل مربعات

230 اين تخمين‌زننده‌ها خصوصیات جالبی دارند که عبارتند از:
منحصراً برحسب مقادیر قابل مشاهده بیان می‌شوند (مثلاً و در یک نمونه) این تخمین‌زن‌ها، تخمین‌زن‌های نقطه‌ای هستند یعنی در نمونه داده شده با هر تخمین‌زن فقط مقدار منحصر به فردی (نقطه) برای پارامتر جامعۀ مربوطه ارائه می‌کند (بنابراین خط رگرسیون را می‌توان به آسانی برازش نمود)

231 فرضیات اساس روش حداقل مربعات
اگر هدف ما تنها تخمین و باشد، روش OLS کافی است اما به یاد داریم که در تحلیل رگرسیون هدف تنها بدست‌آوردن و نیست بلکه هدف استنتاجاتی دربارۀ و واقعی می‌باشد. برای رسیدن به این هدف نه تنها باید شکل تبعی مدل را تعیین کنیم بلکه باید فرضیات معینی دربارۀ چگونگی بوجودآمدن و را نیز مطرح سازیم: اين معادله نشان می‌دهد که هم به و هم به بستگی دارد. بنابراین تا زمانی که ندانیم و چگونه بدست می‌آیند هیچ راهی برای دستیابی به استنتاجات آماری دربارۀ و همچنین و نخواهیم داشت. از این رو فرضیات مبتنی بر متغیر و جزء خطا برای تفسیر معتبری از تخمینهای رگرسیون اهمیت دارند.

232 آنچه به عنوان مدل رگرسیون خطی عمومی، گوسی، کلاسیک یا استاندارد معروف می‌باشد، مبتنی بر فرضیات زیر است: فرض1: میانگین ui ها صفر است اين فرض بيان مي‌كند كه مقدار میانگین‌ ui ها برحسب Xi مفروض صفر است.

233 فرض2: عدم وجود خودهمبستگی بین uها

234 فرض 3: یکسانی (همسانی) واریانس Ui ها
این فرض بیان می‌کند که جامعۀ Y متناظر با مقادیر مختلف X واریانس یکسان دارند.

235 در مقابل این حالت شکل زیر، واریانس شرطی جامعۀ y همراه با افزایش مقدارX افزایش می یابد، این حالت به ناهمسانی واریانس و یا ناهمسانی در پراکندگی معروف است.

236 فرض4: کوواریانس صفر بین و Ui , Xi
فرض نمودیم که x و u (که می‌تواند تأثیر تمام متغیرهای حذف شده را نشان دهد) دارای تأثیرات جمع‌پذیر و مجزا بر y می‌باشند اما اگر X و u همبسته باشند. تشخیص تأثیر خاص و مجزای هر کدامشان بر y ممکن نیست. بنابراین اگر X و u به طور مثبت همبستگی داشته باشند X با افزایش u افزایش و با کاهش u کاهش می‌یابد به همین شکل اگر X و u به طور منفی همبسته باشند X با افزایش u کاهش و با کاهش u افزایش می‌یابد و به هر ترتیب جداکردن تأثیر X و u بر Y مشکل است.

237 فرض5: مدل رگرسیون دقیقاً تصریح شده است (عدم وجود خطای تصریح یا تورش)
فرض5: مدل رگرسیون دقیقاً تصریح شده است (عدم وجود خطای تصریح یا تورش) سؤالات فوق بسیار مهمند چراکه با حذف متغیرهای اصلی از مدل، انتخاب شکل تبعی غلط و یا مطرح کردن فرض‌های آماری نادرست دربارۀ متغیرهای مدل، اعتبار تفسیر رگرسیون تخمین‌زده شده، زیر سؤال خواهد رفت.

238 از میان تمامی فرضها، این فرض انعطاف‌ناپذیرترین و شاید در نظر اول دارای کمترین محل اعراب باشد.
یک مدل رگرسیون در یک تحقیق با تصریح مدل آن در رابطه با پدیده‌های مورد نظر شروع می‌شود. بعضی از سؤالات مهم که در تصریح مدل پدید می‌آیند عبارتند از: چه متغیرهائی باید در مدل جای گیرند؟ شکل تبعی مدل چیست؟ آیا این مدل از نظر پارامترها خطی است یا از نظر متغیرها و یا هردو؟ فرض‌های احتمالی ارائه شده در مورد، Yi و Xi و ui های درون مدل چه می‌باشند؟

239 متأسفانه در عمل، شخص به ندرت از متغیرهای صحیحی که باید در مدل منظور شود، شکل تبعی صحیح و یا فرض احتمالی صحیح در مورد متغیرهای وارد شده در مدل اطلاع دارد. بنابراین در عمل کارشناس از بعضی قضاوت‌ها در انتخاب تعدادی از متغیرهای واردنشده در مدل یا شکل تبعی مدل استفاده کرده و برخی فرض‌ها را در مورد ماهیت تصادفی متغیرهای مشمول در مدل پیش می‌کشد و در انتخاب مدل صحیح برای تحلیل تجربی تا حدی مستلزم آزمون و خطاست.

240 پراکندگی منحنی فیلیپس

241 منحنی فیلیپس

242 خصوصیات تخمین‌زننده‌های حداقل مربعات: قضیۀ گوس- مارکف
یک تخمین‌زن 2 را زمانی می‌توان بهترین تخمین‌زن بدون تورش خطی (BLUE) از 2 دانست که: تخمین‌زن خطی باشد. یعنی تابعی خطی از یک متغیر تصادفی مانند متغیر وابستهYدر مدل رگرسیون باشد. تخمین‌زن بدون تورش باشد تخمين‌زن در بین تمام تخمین‌زننده‌های بدون تورش خطی، حداقل واریانس را داشته باشد (تخمین‌زن بدون تورش با حداقل واریانس به تخمین‌زن کارا معروف است).

243 The Gauss-Markov Theorem: are the best linear unbiased estimators (BLUE).

244 قضیۀ گوس- مارکف با توجه به فرض‌های مدل کلاسیک رگرسیون خطی، تخمین‌زننده‌های حداقل مربعات در بین تخمین‌زننده‌های خطی، بدون تورش و دارای حداقل واریانس یعنی BLUE می‌باشند.

245 ضرائب تعیین r2 (معیار خوبی برازش) و ضریب همبستگی r2
ضریب همبستگی: r می‌‌تواند مثبت یا منفی باشد. این کمیت بین دو مقدار 1+ و 1- می‌باشد. این کمیت ماهیتاً قرینه می‌باشد یعنی ضریب همبستگی بین x و y یعنی rxy معادل ضریب همبستگی بین y و x (ryx) است. این کمیت مستقل از مبدأ و مقیاس اندازه‌گیری است. اگر x و y از لحاظ آماری مستقل باشند ضریب همبستگی بین آنها صفر است و r = 0 به این معنا نیست که دو متغیر مستقلند (قسمتh شکل صفحه بعد) این کمیت صرفاً معیاری جهت همبستگی خطی یا وابستگی خطی است و برای توصیف ارتباطات غیرخطی قابل استفاده نیست. بنابراین در قسمت h Y=X2 بیانگر یک ارتباط دقیق است اما میزان r معادل صفر است. هرچندکه r معیار همبستگی خطی بین دو متغیر است ولی همانطور که قبلاً اشاره شد بیانگر هیچ‌گونه رابطۀ علت و معلولی نمی‌باشد.

246 الگوهای همبستگی

247 ضریب تعیین در زمینۀ رگرسیون، r2 معیار پرمعناتری از r است چرا که r2 نسبت تغییرات متغیر وابسته توضیح داده شده به وسیلۀ متغیرهای توضیحی را ارائه می‌دهد درحالیکه r فاقد چنین خصوصیتی است. به علاوه تعبیرr (R=) در یک مدل رگرسیون مرکب زیر سؤال می‌باشد.

248 کوشش برای حداکثرکردن R2 گاهی محققان سعی در حداکثرکردن R2 دارند یعنی انتخاب مدلی که بالاترین R2 را به دست می‌دهد اما انجام این کار ممکن است خطرناک باشد زیرا در تحلیل رگرسیون هدف ما آن نیست که تنها یک R2 بالا به دست آوریم. بلکه هدف بدست آوردن تخمین‌های قابل اطمینانی از ضرائب حقیقی رگرسیون جامعۀ اصلی و استنباط آماری دربارۀ آنهاست. در تحلیل‌های تجربی بدست آوردن یک R2 بسیار بالا چندان معمول نبوده بلکه حتی گاهی برخی از ضرائب تخمین‌زده شدۀ رگرسیون از لحاظ آماری بی‌معنی بوده یا دارای علامت‌هائی برخلاف انتظارات قبلی هستند. بنابراین محقق باید دقت بیشتری دربارۀ ارتباط منطقی یا تئوریکی متغیرهای توضیحی یا متغیر وابسته و معنی‌داری آماری آنها داشته باشد. اگر R2 بالا بدست آوریم خوب خواهد بود اما اگر R2 پایین باشد این امر به معنی بدی مدل نمی‌باشد.

249 فرض نرمال: مدل رگرسیون خطی نرمال کلاسیک
فرض نرمال: مدل رگرسیون خطی نرمال کلاسیک

250 توزیع احتمالی اجزاء اخلال ui
برای کاربرد روش حداقل مربعات معمولی (OLS) در مدل کلاسیک رگرسیون خطی، هیچ فرضی در مورد توزیع احتمالی جزء اخلال ui ارائه نکردیم. تنها فروضی که در مورد ui مدنظر قرار گرفت عبارت بودند از این‌که اجزا مذکور دارای امید صفر، عدم همبستگی و واریانس ثابت هستند.

251 اگر هدف ما تنها تخمین پارامترها باشد در این‌صورت روش OLS کافی خواهد بود اما تأکید بر تخمین تنها یکی از جنبه‌های استنتاج آماری است و جنبۀ دیگر آزمون فرضیه می‌باشد. از آنجا که هدفمان هم تخمین پارامترها و هم آزمون فرضیه است، لذا احتیاج به تعیین توزیع احتمالی جزء اخلال ui خواهیم داشت.

252 فرض نرمال بودن ميانگین واریانس کوواریانس ui ، uj

253 طبق قضیۀ مشهور آماری حدی مرکزی می‌توان نشان داد که اگر با تعداد زیادی از متغیرهای مستقل و تصادفی که دارای توزیع احتمالی یکسانی هستند مواجه باشیم، در این صورت به استثناء چند حالت خاص، با افزایش تعداد متغیرها به سمت بی‌نهایت توزیع مجموع آنها به سمت توزیع نرمال میل می‌کند.

254 خصوصیت تخمین‌زننده‌های OLS تحت فرض نرمال بودن
بدون تورش هستند دارای حداقل واریانس هستند سازگاری: یعنی همانطور که حجم نمونه به سمت بینهایت افزایش می‌یابد، تخمین‌زننده‌ها نیز به مقادیر جامعه‌شان نزدیک می‌شوند به طور نرمال توزیع شده است عبارت از توزیع کای‌دو با درجۀ آزادی (N-2) تبعیت می‌کند. و مستقل از توزیع شده‌اند. و در گروه تخمین‌زننده‌های بدون تورش خطی یا غیرخطی دارای حداقل واریانس هستند. بنابراین می‌توان گفت که تخمین‌زننده‌های حداقل مربعات بهترین تخمین‌زننده‌های بدون تورش (BLUE) هستند.

255

256 رگرسیون دومتغیره: تخمین فاصله‌ای و آزمون فرضیه
رگرسیون دومتغیره: تخمین فاصله‌ای و آزمون فرضیه

257 فاصلة اطمینان از آنجائیکه فاصلۀ اطمینان تصادفی است، احتمالهای بدست آمده می‌بایست در معنای درازمدت فهمیده شوند، یعنی نمونه‌گیری تکراری به طور مشخص‌تر به این معنی است که: اگر در نمونه‌گیری تکراری، فواصل اطمینان براساس احتمال به تعداد زیاد ساخته شوند آن‌گاه در درازمدت به طور متوسط چنین فواصلی در مورد از تعداد کل موارد، مقدار حقیقی پارامتر را در بر می‌گیرند.

258 آزمون فرضیه و انتخاب سطح معنی‌داری
خطای نوع اول: احتمال ردکردن فرضیۀ درست. خطای نوع دوم: احتمال قبول فرضیۀ نادرست. براساس هزینۀ هر کدام از خطاهای فوق، محقق اقدام به انتخاب سطح معنی‌داری خواهد نمود.

259 نقض فروض مدل کلاسیک مدل کلاسیک رگرسیون خطی نرمال براساس چند فرض ساده شده به شرح زیر است: فرض1: میانگین شرطی جزء اخلال جامعه مشروط به مقادیر مفروض متغیرهای توضیحی (xها) صفر است. فرض2: واریانس شرطی ui ثابت یا همسان است. فرض3: خودهمبستگی در اجزا اخلال وجود ندارد. فرض4: متغیرهای توضیحی غیرتصادفی‌اند. حتی اگر تصادفی هم باشند، مستقل از اجزا اخلال ui توزیع شده‌اند. فرض5: بین متغیرهای توضیحی (xها) همخطی مرکب وجود ندارد. فرض6: ui ها به طور طبیعی با میانگین و واریانس داده شده در فروض 1 و 2 توزیع شده‌اند. فرض7: مدل رگرسیون به طور صحیح تصریح شده است، یعنی تورش تصریح وجود ندارد.

260 با این فروض دیدیم که تخمین‌زنهای حداقل مربعات معمولی (OLS) ضرائب رگرسیون، بهترین تخمین‌زنهای بدون تورش خطی BLUE می‌باشند. فروض 1، 4 و 6 را به دلایل زیر به طور مفصل مورد بحث قرار نخواهیم داد: فرض1: امید صفر جزء اخلال: اگر این فرض تأمین شود نمی‌توان عرض از مبدأ اصلی را تخمین زد و چون در بسیاری از حالت‌های کاربردی، جزء عرض از مبدأ اهمیت ناچیزی دارد چندان تأثیری نخواهد داشت. فرض4: حالت تصادفی‌بودن متغیرهای توضیحی: اگر xها با وجود تصادفی‌بودن به طور مستقل از uها توزیع شوند آن‌گاه برای تمام مقاصد کاربردی، xها را می‌توان غیراستوکاستیک فرض کرد. فرض6: نرمال بودن u: اگر هدف ما صرفاً تخمین باشد، این فرض ضروری نیست. فرض نرمال بودن به منظور آزمون فرضیه و پیش‌بینی بسیار مهم است.

261 همخطی Multicollinearity
یکی از فروض مدل کلاسیک رگرسیون خطی این است که هیچ‌گونه هم‌خطی مرکب بین متغیرهای توضیحی موجود در مدل وجود ندارد. x2 x3 10 50 15 75 18 90 24 120 30 150 توجه داشته باشید که هم‌خطی تنها ارتباطات خطی بین متغیرهای x را شامل می‌شود و ارتباطات غیرخطی بین آنها را در بر نمی‌گیرد. اگر هم‌خطی وجود داشته باشد ضرائب رگرسیونی متغیرهای x نامعین و انحراف معیارشان بی‌نهایت است. (هم‌‌خطی‌کامل) هم‌خطی ویژگی‌های BLUE بودن تخمین‌ها را نقض نمی‌کند.

262 نتایج عملی هم‌خطی الف- بزرگی واریانس و کوواریانسهای تخمین‌زنهای OLS
ب- فواصل اعتماد عریض‌تر: احتمال قبول شدن یک فرضیۀ غلط (مثلاً خطای نوع دوم) ج- نسبت‌های غیرمعنادار r: مقادیر t کوچک می‌شوند و فرضیۀ صفر به معنای صفر‌بودن پارامترهای جامعۀ واقعی مورد قبول واقع می‌شود. د- R2 بالا اما تعداد اندک نسبت‌های معنادار. هـ- حساسیت تخمین‌زنهای OLS و خطای معیار آنها نسبت به تغییرات اندک در داده‌ها

263 کشف هم‌خطی الف- در هم‌خطی سؤال از درجه است نه از نوع. تمایز معناداری بین حضور و عدم حضور هم‌خطی وجود ندارد، بلکه تمایز بین درجات گوناگون آن است. از آنجایی که هم‌خطی به شرایط متغیرهای توضیحی برمی‌گردد که فرض شده غیرتصادفی باشند لذا این حالت شکلی از نمونه است نه جامعه بنابراین ماآزمون برای هم‌خطی صورت نمی‌دهیم، بلکه می‌توان درجه‌اش را در نمونۀ مشخص اندازه‌گیری نمود. ب- 1. R2 بالا اما تعداد کم نسبتهای t معنی‌دار 2. همبستگی شدید بین دوبدو متغیرهای توضیحی 3. امتحان ضرائب جزئی 4. رگرسیونهای معین 5. ریشۀ مشخصه (Eigenvalue) و شاخص وضعیت (Condition Index) در برنامۀ SAS از ریشۀ مشخصه و شاخص وضعیت برای تشخیص هم‌خطی استفاده می‌کنند.

264 رفع مشکل هم‌خطی: قاعدۀ محکم و دقیقی جهت چاره‌جوئی مشکل وجود ندارد، چراکه هم‌خطی الزاماً یک مشکل نمونه‌ای است. اطلاعات قبلی (تئوریکی) ترکیب کردن داده‌های مقطعی و سری‌های زمانی (داده‌های مرکب) حذف متغیرها و تورش تصریح تبدیل متغیرها داده‌های جدید یا اضافی (افزایش حجم نمونه)

265 با افزایش یک متغیر (درآمد) متوسط متغیر دیگر (پس‌انداز) افزایش می‌یابد.
ناهمسانی واریانس Heteroscedasticity یکی از مهمترین فروض مدل رگرسیون خطی کلاسیک این است که اجزاء اخلال ui که بر تابع رگرسیون جامعه ظاهر می‌شوند، دارای واریانس همسان هستند. با افزایش یک متغیر (درآمد) متوسط متغیر دیگر (پس‌انداز) افزایش می‌یابد. «ناهمسانی واریانس»

266 نتایج کاربرد روش OLS در شرایط وجود ناهمسانی واریانس
اگر فرض ناهمسانی را جایگزین فرض همسانی نمائیم تخمین‌زن هنوز BLUE هست اما دیگر کارا یا بهترین نیست و دارای حداقل واریانس نیز نمی‌باشد در این حالت از روش تخمین معروف به حداقل مربعات تعمیم‌یافته (GLS) استفاده می‌نمائیم. نتایج کاربرد روش OLS در شرایط وجود ناهمسانی واریانس فاصلۀ اطمینان براساس بیش از حد لازم بزرگ خواهد شد و در نتیجه آزمون‌های t و F احتمالاً نتیج غلطی به ما خواهند داد.

267 کشف ناهمسانی واریانس روش ترسیمی: ابتدا رگرسیون را براساس فرض عدم ناهمسانی تحلیل کرده و سپس مجذور باقیمانده‌های تخمین‌زده شده ei2 را مورد بررسی قرار داد تا ببینیم چه الگوی سیستماتیک و منظمی را نشان می‌دهند. واریانس جزء اخلال به طور خطی یا متغیر x مربوط است. 2. آزمون پارک: پارک روش گرافیکی را در قالب فرمول بیان داشته است. 3. آزمون گلدفلد- کوانت آزمون گلچس آزمون بروج پاگانت آزمون وایت

268 خودهمبستگی یکی از فروض مهم مدل کلاسیک این است که خودهمبستگی سریالی بین اجزاء اخلالی که در تابع رگرسیون جامعه وارد می‌شود وجود ندارد. ماهیت خودهمبستگی: همبستگی بین اعضای سری‌های مشاهداتی است که در زمان (سریهای زمانی) یا مکان (داده‌های مقطعی) ردیف شده‌اند. اگر محصول در یک فصل کم باشد دلیلی بر کم بودن محصول در فصل دیگر نمی‌باشد (عدم خودهمبستگی)

269 تخمین OLS در حالت وجود خودهمبستگی
در حالت خودهمبستگی تخمین‌زن GLS خصوصیت BLUE داشته و تخمین‌زن OLS چنین خصوصیتی ندارد. تخمین‌زن OLS از اطلاعات موجود بیشترین استفاده را می‌کند. درحالت وجود خودهمبستگی نیز همانند حالت ناهمسانی، تخمین‌زنهای OLS خطی و بدون تورش و لذا سازگارند ولی کارا نیستند (یعنی حداقل واریانس را ندارند) فواصل اعتماد بزرگتر از حالت معمول خواهد بود (OLS نسبت به GLS)

270 تخمین OLS بدون در نظر گرفتن خودهمبستگی
احتمالاً واریانس باقیمانده مقدار واقعی سیگما به توان دو را کمتر از حد تخمین می‌زند. در نتیجه R2 بیش از حد تخمین زده می‌شود. آزمونهای معنی‌داری t و F معتبر نیستند و اگر آنها را بکار ببریم نتایج بسیار غلطی در مورد معنی‌داری آماری ضرایب تخمین‌زده شدۀ رگرسیون به‌دست خواهیم آورد.

271 کشف خودهمبستگی: -روش ترسیمی -آزمون تسلسل -آزمون دوربین واتسون : مشهورترین آزمون تشخیص همبستگی سریالی است DW فروض زیربنایی آزمون D.W 1.مدل رگرسیون دارای جزء عرض از مبدأ است 2. متغیرهای توضیحی غیرتصادفی هستند 3. اجزاء اخلال به وسیلۀ الگوی خود رگرسیونی مرتبۀ اول حاصل می‌شوند. 4. مدل رگرسیون شامل مقادیر با وقفه‌ای از متغیر وابسته به عنوان یکی از متغیرهای توضیحی نیست. 5. هیچ مشاهدۀ مفقوده‌ای در داده‌ها وجود ندارد.

272 تصریح مدل یکی از فروض کلاسیک، تصریح مدل بود به عبارت دیگر فرض بر این بود که تورش یا خطای تصریح در مدل وجود ندارد. این موضوع بسیار گسترده و پیچیده می‌باشد و بسیاری از مباحث آن بالاتر از سطح مفروض ما می‌باشد. این قسمت دربرگیرندة مسائل زیر است: مدل خوب یا صحیح متضمن چه خصوصیاتی است؟ فرض کنید که یک مدل صحیح برای تحلیل یک مسألة خاص ارائه شده است اما به علت در دسترس نبودن آمار و ارقام، سهل‌انگاری، ملاحظات هزینه‌ای یا سستی، مدل متفاوتی را بکار بردیم و بنابراین نسبت به مدل صحیح مرتکب خطای تصریح شده‌ایم. حال سؤال این است که در عمل وقوع چه نوعی از شکل‌های مختلف خطاهای تصریح وجود دارد؟ نتایج انواع مختلف خطای تصریح کدامند؟ طرق کشف این نوع خطاها کدامند؟ اگر به ارتکاب خطای تصریح پی بردیم چه راههایی برای دستیابی و برگشت به مدل صحیح وجود دارد؟ در 5 مورد بالا فرض بر این بود که یک مدل صحیح وجود دارد و ما مایل به دانستن مشکلات عارض شده در اثر کاربرد مدل دیگری بودیم اما اگر اصلا ندانیم که کدام مدل صحیح است دچار خطای تعیین غلط مدل می شویم که با خطای نوع قبلی یعنی خطای تصریح متفاوت است.

273 خصوصیات یک مدل خوب قلت منطقی متغیرهای توضیحی: یک فرضیه (مدل) زمانی با ارزش و مهم خواهد بود که مقدار زیادی از تغییرات را به وسیلة تعداد کمی از متغیرها بتوان توضیح داد. قابلیت تشخیص: برای مجموعه داده های معین، پارامترهای تخمین زده شده باید مقادیر منحصر بفردی را به دست دهند به عبارت دیگر تنها یک تخمین برای هر پارامتر مشخص به دست آید. خوبی برازش: سازگاری با تئوری قدرت تعمیم دهی و پیشنگری: تنها آزمون مناسب برای اعتبار یک فرضیه (مدل) مقایسة پیش بینی آن با تجارب است.

274 انواع خطای تصریح حذف یک متغیر مهم واردکردن متغیر غیرلازم
درنظر گرفتن یک شکل تبعی غلط خطای در اندازه گیری

275 نتایج خطای تصریح حذف یک متغیر مهم: لحاظ کردن یک متغیر نامربوط
ضرایب رگرسیون اشتباه برآورد می شوند (تورشدار، ناسازگار) واریانس جزء اخلال اشتباه تخمین زده می شود. نهایتاً فاصلة اطمینان و آزمون فرضیه نتایج گمراه کننده ای را راجع به معنادار بودن آماری پارامترهای تخمین زده شده به دست می دهند. لحاظ کردن یک متغیر نامربوط تخمینها ناتور و ناسازگارند واریانس خطا درست برآورد می شود. آزمون فرضیه و فاصلة اعتماد معتبر می باشند. به طور کلی ضرایب برآوردشده غیرکارا هستند یعنی واریانس آنها عموماً بزرگتر از واریانسهای ضرایب حقیقی می باشند. (دقت کم در استنتاجهای احتمالی پارامترها) (احتمال ایجادشدن مشکل همخطی را نیز زیاد می کند) (درجة آزادی را کم می کند)

276 آزمونهای کشف خطای تصریح
کشف وجود متغیرهای غیرلازم آزمون معنادار بودن ضریب متغیر اضافه (آزمون F) آزمونهای راجع به متغیرهای حذف شده و شکل تبعی غلط استفاده از باقیمانده ها (ملاحظة گرافیک این باقیمانده ها) آزمون Reset رمزی آزمون نسبت راستنمایی آزمون والد آزمون ضریب لاگرانژ آزمون هاسمن

277 استفاده از باقیمانده‌ها (ملاحظة گرافیک این باقیمانده‌ها)

278 رگرسیون بر روی متغیرهای موهومی
در بسیاری از تحلیل‌های رگرسیونی، متغیر وابسته نه تنها تحت‌تأثیر متغیرهای کمی (مثل تولید، میزان کود مصرفی،...) با مقیاس‌های متداول است، بلکه از متغیرهای ماهیتاً کیفی (جنس، نژاد، ...) نیز تبعیت می‌کند. نظر به اینکه متغیرهای کیفی عموماً دلالت بر وجود یا عدم وجود کیفیت یا صفتی دارند، لذا یک روش برای کمی کردن این صفات،‌درنظر گرفتن متغیرهای ساختگی با قبول دو مقدار ضفر و یک می‌باشد که صفر بیانگر عدم وجود آن صفت و یک حاکی از وجود آن می‌باشد. به این ترتیب متغیرهایی که این مقادیر صفر و یک را اختیار می‌کنند، متغیرهای موهومی (Dummy Variable) نام دارند. اسامی دیگر این متغیرها عبارتند از متغیرهای دلالت‌کننده بر یک صفت، متغیرهای دوتایی، متغیرهای طبقه‌ای، متغیرهای کیفی، متغیرهای منقسم به دو، متغیرهای مجازی.

279 متغیرهای موهومی به همان سادگی متغیرهای کمی در تحلیل رگرسیونی به کار می‌روند.
اگر چنانچه یک مدل رگرسیونی تنها بر حسب متغیرهای توضیحی موهومی یا کیفی بیان شده باشند، آن را مدل آنالیز واریانس می‌نامند. در بیشتر تحقیقات اقتصادی، معمولاً یک مدل رگرسیون شامل چندین متغیر توضیحی می‌باشد که تعدادی از آنها کمی و بقیه کیفی می‌باشند، این گونه مدل‌های رگرسیونی که شامل دو نوع متغیرهای کمی و کیفی هستند را مدل‌های آنالیز کوواریانس (ACOV) می‌نامند. قاعدة‌کلی برای تعداد متغیرهای موهومی: چنانچه متغیر کیفی موردنظر دارای m طبقه باشد، آنگاه بایستی فقط به تعداد m-1 متغیر موهومی در مدل منظور شود در غیر اینصورت در دام متغیر موهومی گرفتار خواهیم شد (همان حالت ایجاد همخطی کامل بین متغیرهای موهومی)

280 رگرسیون بر روی یک متغیر کمی و یک متغیر کیفی با بیش از دو طبقه
پيش بيني تلفات برداشت گندم و تحليل داده ها به روش مدل متغيرهاي موهومي (کد مقاله653) احسان مصدری[1] ، محمد حسین عدالت[2] ، محمد جواد خلیلی[3] ، حمید طاهرپور کلانتری[4] مجموعه مقالات پنجمین کنگرة ملی مهندسی ماشین‌‌های کشاوزی و مکانیزاسیون

281 مدل متغيرهاي موهومي گونه اي از مدل هاي رگرسيوني است که بوسيله آن مي توان اثر متغيرهاي کيفي را بر روي متغير وابسته سنجيد. اين مدل ها مي توانند فقط از متغيرهاي موهومي (کيفي) تشکيل شده باشد که در اين صورت آن را مدل آناليز واريانس مي نامند و يا مي تواند ترکيبي از متغيرهاي موهومي و کمي باشد که در اين صورت آن را مدل آناليز کوواريانس مي نامند. در اين مدل تمام متغيرهاي کيفي را بايستي با استفاده از روش مناسب به صورت صفر و يک تبديل کرد. براي تخمين مدل در اين مطالعه از يک تابع خطي به شکل زير استفاده شده است. که در ان نشان دهنده متغيرهاي مستقل و نشان دهنده متغير وابسته و مقادير و ضرايبي است که در پي تخمين زدن هستيم. اين مدل با استفاده از روش OLS به راحتي قابل تخمين است .اما شيوه تفسير ضرايب متغيرهاي موهومي متفاوت خواهد بود. متغيرهاي مستقل وارد شده در اين مدل جهت تخمين رابطه ريزش شامل منطقه، واريته گندم، مدل کمباين، نوع کشت، عملکرد، عمر کمباين، تاريخ برداشت و ساعت برداشت مي‌باشد. متغير وابسته درصد ريزش است که حاصل جمع ربزش عمليات برداشت و ريزش طبيعي محصول مي‌باشد.

282 متغير منطقه داراي چهار حالت مشهد، تربت جام، خواف و تايباد مي باشد که از اين ميان منطقه مشهد به عنوان وضعيت پايه انتخاب شده و ساير مناطق به ترتيب با متغير هاي Torbatjam، Khaf و Taybad وارد الگو مي شود. در اين صورت چنانچه مقادير هر سه ناحيه برابر صفر باشد نشان دهنده شهرستان مشهد، اگر متغير Torbatjam برابر يک باشد و ساير متغيرها صفر باشند نشان دهنده تربت جام و اگر متغير Khaf برابر يک باشد و ساير متغيرها صفر باشد نشان دهنده شهرستان خواف و در نهايت اگر متغير Taybad برابر با يک و ساير متغير ها صفر باشد نشان دهنده شهرستان تايباد خواهد بود. به عبارت ساده تر براي هر شهرستان يک متغير کيفي تعريف شده است که مقدار يک، نشان دهنده برداشت در آن شهرستان و مقدار صفر نشان دهنده برداشت در يک شهرستان ديگر مي باشد. براي هر مشاهده حداکثر يک متغير برابر با يک مي شود و ساير مناطق صفر است. همانطور که قبلا گفته شد اگر مقدار هر سه متغير صفر باشد نشان دهنده شهرستان پايه يعني مشهد است.

283 به همين ترتيب براي واريته گندم که شامل چهار رقم فلات، روشن، سرداري و گاسكوژن است، واريته فلات به عنوان واريته پايه انتخاب شده و ارقام روشن، سرداري و گاسکوژن به وسيله متغيرهاي کيفي Roshan ، Sardary و Gaskojen وارد الگو شده است. مدل هاي کمباين شامل جاندير و سهند S68 است که به وسيله يک متغير کيفي با نام Model وارد الگو شده است. مقدار يک نشان دهنده استفاده از کمباين جاندير و مقدار صفر نشان دهنده کمباين S68 است. نوع کشت شامل دو وضعيت آبي و ديم است که به وسيله متغير Abideym مشخص شده است مقدار يک نشان دهنده کشت آبي و مقدار صفر نشان دهنده کشت ديم است. به اين ترتيب متغيرهاي مستقل کيفي شامل منطقه، واريته گندم، نوع کشت و مدل کمباين وارد الگو مي‌شوند، ساير متغيرها شامل عمر کمباين، تاريخ برداشت و ساعت برداشت متغيرهاي کمي هستند که به ترتيب با نام هاي Omr ، Tarikh ، Saat معرفي مي‌شوند. متغير Omr برحسب سال، متغير Tarikh برحسب شماره روز از ابتداي سال 84 و متغير Saat برحسب فاصله زماني از ساعت 12 شب که مقداري بين صفر تا يک مي باشد در نظر گرفته شده است. معني‌داري کلي رگرسيوني با استفاده از آزمون F و معني داري ضرايب با استفاده از آزمون t بررسي مي‌شود.

284 رگرسیون بر روی متغیر وابستة موهومی
در مدل‌های رگرسیونی دارای متغیر موهومی، این فرض ضمنی وجود داشت که متغیرهای توضیحی می‌توانند کمی، کیفی یا ترکیبی از آن دو باشند. در حالیکه متغیر به هر حال بایستی قابل اندازه‌گیری کمی باشد. در این قسمت مدل‌های رگرسیونی مورد نظر قرار می‌گیرند که در آنها متغیر وابسته یا تابع، خود ماهیتاً بیانگر دو گروه است که هر یک مقادیر 0 و 1 را اختیار می‌کنند.

285 عموماًًًًً برای تخمین این مدل‌ها سه روش وجود دارد:
مدل احتمال خطی linear probability model (LPM) مدل لاجیت (Logit) مدل پروبیت (Probit)

286 مدل‌های معادلات همزمان

287 بسیاری از روابط آماری به وسیلة مدل‌های تک معادله‌ای قابل تبیین هستند
بسیاری از روابط آماری به وسیلة مدل‌های تک معادله‌ای قابل تبیین هستند. در این مدل‌ها یک متغیر (متغیر وابسته) به عنوان تابعی خطی از یک یا چند متغیر دیگر (متغیرهای توضیحی) درنظر گرفته می‌شوند. به این ترتیب به طور ضمنی فرض بر این است که رابطة علْی (درصورت وجود بین دو متغیر x و y یکطرفه می‌باشد یعنی متغیرهای توضیحی حکم علت و متغیر وابسته حکم معلول را دارا می‌باشد. اما مواردی وجود دارد که با جریانی دوطرفه از رابطة علی بین متغیرها مواجهیم یعنی یک متغیر در عین تأثیرگذاری بر متغیر(های) دیگر، از آن (آنها) نیز تأثیر می‌پذیرد. بدیهی است در این حالت، تحلیل رگرسیونی قبل (OLS) برای مطالعة چنین وضعی مناسب نخواهد بود چرا که دو متغیر متقابلاً بهم وابسته‌اند. به عبارت دیگر در این حالت به دو معادله احتیاج خواهیم داشت و همین ضرورت است که ما را متوجه مبحث معادلات همزمان می‌کند.

288 در این حالت از روش‌های زیر استفاده می‌شود:
اگر در این حالت از سایر معادلات در سیستم چشم‌پوشی نماییم و پارامترهای هر معادله را به وسیلة روشی مانند حداقل مربعات معمولی تخمین بزنیم، این تخمین‌ها نه تنها تورشدار بلکه ناسازگار نیز خواهند بود چون یکی از فروض قاطع روش OLS ، داشتن توزیع مستقل متغیرهای توضیحی از جزء اخلال استوکاستیک است که در معادلات همزمان نقض می‌شود. در این حالت از روش‌های زیر استفاده می‌شود: روش حداقل مربعات دو مرحله (2SLS) روش حداقل مربعات سه‌مرحله‌ای (3SLS) روش حداقل مربعات سه مرحله‌ای تکراری (I3SLS) روش حداکثر راستنمایی روش حداکثر راستنمایی با اطلاعات محدود (LIML) روش سیستمی حداکثر راستنمایی با اطلاعات کامل (FIML)

289 تحلیل مسیر در حوزة مطالعات اجتماعي و اقتصادي، روشهاي تحليل چندمتغيرة زيادي وجود دارند كه به بررسي اثرات و روابط بين متغيرهاي مورد مطالعه مي‌پردازند. اين روشها عمدتاًً اثرات مستقيم يك متغير بر متغير ديگر را مورد بررسي قرار مي‌دهد. اما در اين ميان تحليل مسير از جمله تكنيكهاي چندمتغيره است كه علاوه بر بررسي اثرات مستقيم متغيرهاي مستقل بر متغير وابسته، اثرات غيرمستقيم اين متغيرها را نيز مدنظر قرار مي‌دهد و روابط بين متغيرها را مطابق با واقعيتهاي موجود در تحليل وارد مي‌كند و با بيان منطقي، روابط و همبستگي مشاهده‌شدة بين آنها را تفسير مي‌كند.

290 خاستگاه تحلیل مسیر توسط Sewell Wright توسعه یافت.
Formulated in series of papers published in 1918, 1921, 1934, 1960 برای استخراج اثرات مستقیم و غیرمستقیم در بین متغیرها ایجاد شد. تحلیل مسیر با ارتباطات تبعی در بین متغیرها سرو کار دارد.

291 اصل اساسی موردنظر در تحلیل مسیر این است که هر ضریب همبستگی بین دو متغیر را می‌توان به مجموعه‌ای از مسیرها تجزیه کرد. استفاده از تکنیک تحلیل مسیر مستلزم قبول پیش‌فرضی است مبنی بر اینکه روابط بین متغیرهایی که حداقل در مقیاس شبه‌فاصله‌ای هستند به طور خطی با افزایش متغیرها اضافه می‌گردد. هر متغیر وابسته بر اساس اثرات متغیرهای قبلی در دیاگرام مسیر و متغیر باقیمانده مورد تحلیل و تبیین قرار می‌گیرد.

292 همبستگی = اثرات مستقیم + اثرات غیرمستقیم
تجزیة همبستگی همبستگی = اثرات مستقیم + اثرات غیرمستقیم

293 بيان رسمي تئوري در قالب مدل ساختاري
براي ساختن يك مدل در بحث تحليل مسير، ده شرط مطرح شده است كه به كمك آنها، امكان تجزيه و تحليل علّي فراهم مي‌گردد. درده شرط موردبحث، هفت شرط اول مدل تئوريكي مناسبي را براي تجزيه و تحليل و استنتاج علّي فراهم مي‌سازد: بيان رسمي تئوري در قالب مدل ساختاري وجود منطق تئوريكي براي فرضيه‌هاي علّي معين‌نمودن نظم علّي مشخص‌نمودن جهت روابط علّي نوشتن معادلات توابع مشخص‌نمودن مرزهاي مدل ثبات مدل ساختاري عملياتي‌كردن متغيرها تأييد تجربي معادلات كاركردي برازش مدل ساختاري با داده‌هاي تجربي

294 درتحليل مسيري به منظور بررسي روابط علت و معلولي بين متغيرها لازم است براي عيني شدن آنها و جلوگيري ازبروز اشتباهات، ازنمودارهاي مسيري استفاده ‌نمودكه اين كار را مي‌توان طي مراحل زيرنشان داد: الف- تعيين متغيرها: پيش از هرچيز بايد هريك از متغيرهاي مورد بررسي به لحاظ نقشي كه در سيستم ايفا مي‌نمايند، مشخص شده باشند. ازاين نظر دو نوع متغير وجوددارد: متغيربرونزا: به متغيرهايي از مجموعة متغيرهاي مورد بررسي اطلاق مي‌گردد كه تحت‌تأثير ساير متغيرها قرار نداشته باشند. متغيرهاي‌درونزا: به متغيرهايي ازمجموعه متغيرهاي موردبررسي اطلاق مي‌گردد كه تحت‌تأثير يك يا چند متغير ديگر قرارداشته باشند.

295 انواع مدل‌های مسیری در تحليل مسيري با دو نوع مدل سروكار داريم (آذر، 1380): 1- مدلهاي بازگشتي: به مدلهايي گفته مي‌شود كه در بين هيچ يك از متغيرهاي مورد بررسي، رابطة دوطرفه يا متقابل وجود نداشته باشد. 2- مدلهاي‌غيربازگشتي: يعني مدلهايي كه درآنها رابطة بين برخي ازمتغيرها به صورت دوطرفه باشد.

296 مدل‌های مسیری بازگشتی ارتباطات علی یکطرفه می‌باشند.

297 مدل غیربازگشتی ارتباطات علی دوطرفه هستند

298 معنی مدل‌های مسیری فرض بر این است که مدل‌های مسیری نشاندهندة فرضیه‌های علّی می‌باشند. یک مدل مسیری معنی‌دار به معنی علیت نمی‌باشد. بلکه با استفاده از داده‌های تجربی از یک مدل برای آزمون علیت استفاده نمود.

299 اثرات غیرمستقیم و مستقیم
دو راهی که یک متغیر پیش‌بینی‌کننده ممکن است بر یک منغیر واکنش تأثیر بگذارد. اول یک اثر مستقیم متغیر x بر روی متغیر y x1  y دوم یک اثر غیرمستقیم متغیر x بر روی y از طریق یک متغیر پیش‌بینی‌کنندة دیگر.

300 نمودار مسیر درونداد در مطالعة رضایت شغلی

301

302

303 بر پایه این مدل ملاحظه می‌کنیم که:
بنابر آنچه گفته شد، پیکانها نشاندهندۀ پیوندهای علی مورد انتظار بین متغیرهاست این مدل از چپ به راست حرکت می‌کند تا از حجیت علی متغیرهائی را که به چپ نزدیک‌تر هستند را منعکس سازد، هر معرف نماد یک مسیر علی و بنابراین یک ضریب مسیر است که باید محاسبه شود. بر پایه این مدل ملاحظه می‌کنیم که: سن بر رضایت شغلی هم اثر مستقیم (P1 ) و هم اثر غیرمستقیم دارد. سن به گونه مستقیم بر درآمد اثر می‌گذارد (P5) که به نوبه خود در رضایت اثر دارد (P6) و بر خودفرمانی نیز اثر می‌گذارد (P2) که خود بر درآمد اثر مستقیم دارد (P4) و به نوبه خود رضایت را زیر نفوذ قرار می‌دهد (P6). علاوه بر این، خودفرمانی نیز بر رضایت شغلی هم اثر مستقیم (P3)، هم از طریق تأثیر بر درآمد (P4) بر آن اثر غیرمستقیم دارد (P6) سرانجام، درآمد بر رضایت اثر مستقیم دارد (P6) اما بر آن اثر غیرمستقیم ندارد.

304 مشاهده می‌شود که درآمد، خودفرمانی و رضایت شغلی دارای پیکانهای دیگری‌اند که مبدأ آنها خارج از حیطه آن متغیرهاست که مستقیم به آنها وصل شده‌اند این پیکانها معرف واریانس تبیین نشده برای هر متغیر می‌باشند بنابراین پیکان e1 به خودفرمانی (P7) بیانگر مقدار واریانس خودفرمانی است که از سوی سن، تبیین نمی‌شود. پیکان e2 به رضایت شغلی (P8) معرف مقداری از خطای ناشی از رضایت شغلی است که از سوی سن، خودفرمانی و درآمد توجیه نمی‌شود. سرانجام پیکان e3 به درآمد (P9) معرف مقداری از واریانس درآمد است که از سوی سن و خودفرمانی تبیین نشده است. این سه جملۀ خطا نشاندهندۀ این واقعیت است که متغیرهای دیگری وجود دارند که بر خودفرمانی و درآمد و رضایت شغلی اثر دارند اما در این نمودار مسیر گنجانده نشده است.

305 تحلیل مسیر اساساً با برآورد مقدار اتصالات بین متغیرها و کاربرد این برآوردها به منظور بدست آوردن اطلاعاتی دربارۀ فرایندهای علی زیربنائی سروکار دارد، هرچند این برآوردها را می‌توان از طریق روشهای گوناگونی بدست آورد اما ساده‌ترین راه برای محاسبۀ آنها، کاربرد روش رگرسیون معمولی است مشروط بر آن که مفروضه‌های رگرسیون به‌ویژه این مفروضه که متغیر پس‌ماند در معادلۀ ساختاری با متغیرهای تبیین‌کننده در آن معادله ناهمبسته است برقرار باشد برای بدست‌آوردن برآوردهای ضرائب اصلی مسیر کافی است هر متغیر وابسته (درونزا) به متغیرهائی که مستقیماً تحت تأثیر آن است بازگشت داده شود. به بیان دیگر برای برآوردهای هر یک از مسیرهای مشخص شده، ضرائب استانداردشده رگرسیون (یا ضرائب مسیر) محاسبه می‌شود. این ضرائب از طریق برقراری معادله‌های ساختاری یعنی معادله‌هائی که ساختار روابط مفروض در یک مدل را مشخص می‌سازد به دست می‌آیند.

306 بدین ترتیب، برای نمودار مسیر شکل لازم است سه معادله ساختاری، یکی برای خودفرمانی، یکی برای رضایت شغلی و یکی برای درآمد (هر یک به عنوان متغیر وابسته و متغیرهائی که در معادله آمده به عنوان متغیر وابسته) محاسبه شود. e1 + (سن) x1 = خودفرمانی e2 + (درآمد) x3 + (خودفرمانی) x2 + (سن) x1 = رضایت شغلی e3 + (خودفرمانی) x2 + (سن) x1 = درآمد

307 بدین ترتیب، برای نمودار مسیر شکل لازم است سه معادله ساختاری، یکی برای خودفرمانی، یکی برای رضایت شغلی و یکی برای درآمد (هر یک به عنوان متغیر وابسته و متغیرهائی که در معادله آمده به عنوان متغیر وابسته) محاسبه شود. e1 + (سن) x1 = خودفرمانی e2 + (درآمد) x3 + (خودفرمانی) x2 + (سن) x1 = رضایت شغلی e3 + (خودفرمانی) x2 + (سن) x1 = درآمد ضریب استاندارد برای سن در معادله (1) مقدار 2P: ضرائب سن، خودفرمانی و درآمد در معادله (2) به ترتیب مقادیر 1P ، 2P و 3P ؛ و سرانجام ضرائب سن و خودفرمانی در معادله (3) به ترتیب مقادیر 5P و 4P را به دست می دهد. بنابراین به منظور محاسبه ضرایب مسیر، ضرورت دارد سه معادله را به عنوان معادله‌های رگرسیون چندمتغیری در نظر بگیریم و ضرائب حاصل از آنها ضرائب مسیر را به‌دست می‌دهد.

308 از مقادیر عرض از مبدأ در هر مورد صرفنظر و سه جمله خطا از طریق ریشه دوم
. از مقادیر عرض از مبدأ در هر مورد صرفنظر و سه جمله خطا از طریق ریشه دوم محاسبه می‌شود. باید توجه داشت که چون به منظور تکمیل مسیرها لازم است همه ضرائب مسیر محاسبه شود بنابراین نباید از روش رگرسیون گام به گام استفاده شود.

309

310

311 چون ضرایب مسیر ضرایب استاندارد هستند، این امکان وجود دارد که آنها را به گونة مستقیم با هم مقایسه کنیم. می‌توان دید که سن اثر مستقیم اما بسیار کوچک و منفی در رضایت شغلی دارد در حالیکه اثر غیرمستقیم آن مثبت و قابل توجه است.

312 بسیاری از پژوهشگران مایلند اثر کلی یک متغیر را بر متغیر دیگر محاسبه کنند برای مثال اثر کلی سن بر رضایت شغلی از طریق جمع اثر مستقیم (08/0 -) با مجموع آثار غیرمستقیم آن به دست می‌آيد. آثار غیرمستقیم از طریق حاصلضرب ضرائب هر مسیر سن به رضایت شغلی به طریق زیر محاسبه می‌شود: برای مسیرهای سن به درآمد به رضایت شغلی 27/0 = (47/0 ×57/0) برای مسیرهای سن به خودفرمانی به رضایت شغلی 16/0 = (58/0 × 28/0) برای مسیرهای سن به خودفرمانی به درآمد به رضایت شعلی 03/0 = (47/0 ×22/0 × 28/0) بنابراین جمع آثار عیرمستقیم سن بر رضایت شغلی 46/0 = 03/0 + 16/0 + 27/0 می‌باشد. و برای اثر کلی سن بر رضایت شغلی باید اثر مستقیم آن را با کل آثار غیرمستقیم آن جمع کنیم که حاصل آن برابر با 38/0 = 46/0 + 08/0 – خواهد بود. این تمرین نشان داد که اثر غیرمستقیم سن بر رضایت هماهنگ با اثر مستقیم آن نیست زیرا اثر مستقیم آن نزدیک به صفر و اثر غیرمستقیم آن مثبت است.

313

314 برخی اوقات، جهت علی بین همه متغیرها را در نمودار مسیر نمی‌توان تعیین کرد. برای مثال، چنان که در شکل مشاهده می‌شود خودفرمانی و ماهیت کار همبسته‌اند، یعنی بین آنها ارجحیت علی یکی بر دیگری وجود ندارد، و اتصال بین آنها به وسیله یک پیکان دوسره نشان داده شده است. هر متغیر دارای یک اثر مستقیم (P5 و P4)، و یک اثر غیرمستقیم بر غیبت از طریق رضایت شغلی است: خودفرمانی به رضایت (P1) و رضایت به غیبت (P3)؛ ماهیت کار به رضایت (P2) و رضایت به غیبت (P3). به منظور محاسبه ضرایب لازم، نیاز به ضریب r‌ پیرسون برای خودفرمانی و ماهیت کار و نیز نیاز به ضرایب استانداردشده دو معادله زیر داریم: e1 + (ماهیت کار) x2 + (خودفرمانی) x1 + a= رضایت e2 + (رضایت) x3 + (ماهیت کار) x2 + (خودفرمانی) x1 = غیبت

315 پس از آن می‌توانیم کل آثار علی را هم برای متغیرهای خودفرمانی و ماهیت کار، و هم برای رضایت محاسبه و با هم مقایسه کنیم. اثر کلی می­تواند از جمع اثر مستقیم با کل آثار غیرمستقیم تشکیل شود. اثر کلی این سه متغیر بر غیبت عبارت است از: (p3)(p1) + (p5) = اثر کلی خودفرمانی (p3)(p2) + (p4) = اثر کلی ماهیت کار p3= اثر کلی رضایت شغلی

316 مدل غیربازگشتی

317 اگر این وضعیت وجود داشته باشد ...
تفسیر ارتباطات X1 بازگشتی و علی وابسته به x4 می‌باشد X1 ممکن است به طور غیرمستقیم از طریق x4 به 4 وابسته باشد X4 ممکن است به طور غیرمستقیم از طریق x1 به 1 وابسته باشد 1 ممکن است به 4 وابسته باشد. اگر این وضعیت وجود داشته باشد ... فروض OLS نقض می‌شوند. در رگرسیون به روش OLS فرض بر ایت است که ارتباطات یکطرفه بوده و جملات خطا از یکدیگر مستقل می‌باشند.

318 در اینحالت باید از روش 2SLS یا روش حداقل مربعات دومرحله‌ای استفاده نمود.

319 تحلیل عاملی Factor Analysis

320 تحليل عاملي از تعدادی فنون آماری ترکیب شده و هدف آن ساده تر کردن مجموعه‌های پیچیدة داده‌هاست

321 تعریف ماتریس همبستگی ماتریس همبستگی مجموعه‌ای از ضرایب همبستگی بین تعدادی از متغیرها است: فرض بر این است که هر متغیر با خودش همبستگی کامل دارد(عناصری که در قطرهای ماتریس همبستگی قرار می‌گیرند در فهم و تفسیر تحلیل‌های عاملی مهم هستند). زواید زیادی در ماتریس وجود دارد، بدین معنا که هر ضریب دوبار در ماتریس ظاهر می‌شود. تحلیل عاملی برای ساده‌کردن چنین ماتریس‌هایی طراحی شده است در یک ماتریس بزرگ از همبستگی‌ها، منطقی است بپرسیم که چه چیزی ممکن است این همبستگی‌ها را تبیین کند.

322 تعریف عامل: اساساً عامل، بعد یا سازه‌ای است که روابط بین مجموعه‌ای متغیرها را به صورت خلاصه مطرح می‌کند بنا به عقیدة رویس (1963)، عامل، سازه‌ای است که عملاً از روی (یا بوسیلة) بارهای عاملی‌اش تعریف می‌شود. تعریف بارهای عاملی: همبستگی یک متغیر با یک عامل را بار عاملی گویند. فرض کنید کجموعه‌ای از آزمون‌های توانایی و پیشرفت تحصیلی را تحلیل عاملی کرده‌ایم. این مثال، سه عامل را در یک نوع تحلیل عاملی از تواناییها نشان می‌دهد. عاملهای دیگری نیز ممکن است وجود داشته باشد اما اینها ماهیت عوامل و بارهای عاملی را بهتر توضیح می‌دهند. عامل3 عامل2 عامل1 متغیر 44/0 63/0 82/0 هوش 51/0 35/0 78/0 هوشبهر غیرشفاهی 21/0 64/0 68/0 لغات ... 17/0 32/0 تاریخ 12/0 43/0 25/0 مهندسی 60/0 09/0 49/0 فرانسه

323 فایده تحلیل عاملی به رغم اینکه می‌دانیم تحلیل عاملی برای خلاصه‌کردن ماتریس‌های همبستگی به کار برده می‌شود، هنوز یک سؤال مهم باقی است و آن این است که با تحلیل عاملی چه کارهایی را می‌توان انجام داد و این فن چگونه می‌تواند سودمند واقع گردد؟ برای پاسخ به این پرسش، باید به این نکته توجه کرد که هنگام کاربرد این روش باید بین تحلیل اکتشافی (exploratory) و تأییدی (confirmatory) تمایز قائل شد.

324 تحلیل عاملی اکتشافی: یک مثال
هدف از تحلیل عاملی اکتشافی، بررسی یک حوزه (field) برای کشف ابعاد یا سازه‌های اصلی آن حوزه است. به همین علت بود که اسپیرمن (1904) تحلیل عاملی را در حوزه تواناییهای انسان بوجود آورد. او سعی کرد به این سؤال که چرا بین تواناییهای انسان همیشه همبستگی مثبتی وجود دارد پاسخ دهد. (در تحلیل عاملی توانایی‌ها، این موضوع صورتبندی مثبت نامیده می‌شود بدین معنا که تمام همبستگی‌های ماتریس همبستگی، مثبت است). به طور کلی در تحلیل عاملی اکتشافی، قاعده بر این است که محققان تا حدامکان متغیرهای بسیاری را وارد تحلیل کنند تا ببینند کدام یک از آنها روی عامل موردنظر بار عاملی دارند

325 تحلیل عاملی تأییدی در ابتدا تحلیل عاملی صرفاً یک روش آماری اکتشافی بود اما اخیراً این امکان بوجود آمده که با استفاده از تحلیل عاملی، فرض‌آزمایی کرد. این روش که بوسیلة یورس کوگ (1973) ابداع شده، تحلیل تأییدی نامیده می‌شود.

326 اشکالات وارده بر تحلیل عاملی
ایراد اصلی وارد بر تحلیل عاملی این است که بینهایت راه حل ریاضی معادل وجود دارد. تحلیل‌گران عاملی غالباً در تعیین مهمترین علامت‌های یک حوزه با هم اختلاف دارند. تکرار تحلیل‌های عاملی دشوار است.

327 انجام تحلیل عاملی يكي از آماره‌هايي كه محقق از طريق آن قادر به تعيين و تشخيص مناسب‌بودن داده‌ها براي تحليل عاملي مي‌باشد، آزمون KMO مي‌باشد كه مقدار آن همواره بين 0 و 1 درنوسان است. درصورتيكه مقدار KMO كمتر از 5/0 باشد، داده‌ها براي تحليل عاملي مناسب نخواهند بود. اگرمقدار آن بين 5/0 تا 69/0 باشد، مي‌توان با احتياط بيشتري به تحليل عاملي پرداخت. اما درصورتيكه مقدار آن بزرگتر از 7/0 باشد، همبستگي‌هاي موجود در بين داده‌ها براي تحليل‌عاملي مناسب خواهند بود. Kaiser-Meyer-Olkin

328 دررابطه با حجم نمونه نيز بايد تأكيد كرد كه تعداد نمونه نبايد كمتر از 50 مورد باشد و ترجيحاً حجم نمونه را بايد به بيش از 100 مورد افزايش داد. اولين تصميم در بكارگيري تحليل عاملي، محاسبة ماتريس همبستگي است. براي اينكار بايد مشخص شود كه آيا هدف، محاسبة همبستگي بين متغيرهاست يا بين پاسخگويان، اگر هدف مطالعه، تلخيص متغيرها باشد. در اين صورت بايد همبستگي بين متغيرها محاسبه شود. اين روش يكي از تكنيكهاي عمومي و پركاربرد در مطالعات مي‌باشد كه به تحليل عاملي نوع R معروف است.

329 در تحليل عاملي مدلهاي مختلفي وجود دارد كه از ميان آنها دو روش
تحليل مؤلفه‌هاي اصلي و تحليل عاملي مشترك از پركاربردترين اين روشهاست. مدل تحليل مؤلفه‌هاي اصلي زماني مورد استفاده قرار مي‌گيرد؛ كه هدف محقق تلخيص متغيرها و دستيابي به تعداد محدودي عامل براي اهداف پيش‌بيني باشد.


Download ppt "آمار مقدماتی و پیشرفته مدرس: دکتر بریم نژاد دانشیار واحد کرج"

Similar presentations


Ads by Google