第五章 卡方檢定 5-1 卡方檢定 (X2 test) 5-2 適配度檢定 (good-of-fit test)

Slides:



Advertisements
Similar presentations
資料蒐集的方法(三):實驗法(實驗設計) (第七章)
Advertisements

第二章 研究主題(研究題 目)與研究問題.
McGraw-Hill/Irwin © 2003 The McGraw-Hill Companies, Inc.,All Rights Reserved. 肆 資料分析與表達.
第七章 抽樣與抽樣分配 蒐集統計資料最常見的方式是抽查。這 牽涉到兩個問題: 抽出的樣本是否具有代表性?是否能反應出母體的特徵?
Section 1.2 Describing Distributions with Numbers 用數字描述分配.
Event Sampling 事件取樣法. 關心重點為「事件」本身明確的焦點 行為 清楚掌握主題 - 當「事件」出現時才開 始記錄 記錄程序 等待目標事件的發生 開始記錄 事件結束,停止記錄.
第四章 相關分析 (correlation analysis)
指導教授:陳淑媛 學生:李宗叡 李卿輔.  利用下列三種方法 (Edge Detection 、 Local Binary Pattern 、 Structured Local Edge Pattern) 來判斷是否為場景變換,以方便使用者來 找出所要的片段。
McGraw-Hill/Irwin © 2003 The McGraw-Hill Companies, Inc.,All Rights Reserved. 參 實驗法.
第十三章 卡方檢定. 學 習 目 標學 習 目 標學 習 目 標學 習 目 標 1. 學習何謂多項試驗 。 2. 學習如何將一群觀測資料與其期望之分配相比較 與檢定。 3. 學習如何檢定兩變數間是否獨立 。
亂數產生器安全性評估 之統計測試 SEC HW7 姓名:翁玉芬 學號:
Stat_chi21 類別資料 (Categorical data) 一種質性資料, 其觀察值可歸類於數個不相交的項目內, 例 : 性別, 滿意度, …, 一般以各項的統計次數表現. 分析此種資料,通常用卡方檢定 類別資料分析 卡方檢定 卡方檢定基本理論 一個含有 k 項的試驗,設 p i.
©Ming-chi Chen 社會統計 Page.1 社會統計 第十講 相關與共變. ©Ming-chi Chen 社會統計 Page.2 Covariance, 共變量 當 X, Y 兩隨機變數不互為獨立時,表示 兩者間有關連。其關連的形式有很多種, 最常見的關連為線性的共變關係。 隨機變數 X,Y.
: OPENING DOORS ? 題組: Problem Set Archive with Online Judge 題號: 10606: OPENING DOORS 解題者:侯沛彣 解題日期: 2006 年 6 月 11 日 題意: - 某間學校有 N 個學生,每個學生都有自己的衣物櫃.
消費者物價指數反映生活成本。當消費者物價指數上升時,一般家庭需要花費更多的金錢才能維持相同的生活水準。經濟學家用物價膨脹(inflation)來描述一般物價持續上升的現象,而物價膨脹率(inflation rate)為物價水準的變動百分比。
Chapter 2 聯立線性方程式與矩陣 緒言 線性方程式組 (systems of linear equations) 出現 在多數線性模式 (linear model) 中。根據以往解 題的經驗,讀者們也許已發現方程式的解僅與 該方程式的係數有關,求解的過程也僅與係數 的運算有關,只要係數間的相關位置不改變,
Section 2.3 Least-Squares Regression 最小平方迴歸
STAT0_sampling Random Sampling  母體: Finite population & Infinity population  由一大小為 N 的有限母體中抽出一樣本數為 n 的樣 本,若每一樣本被抽出的機率是一樣的,這樣本稱 為隨機樣本 (random sample)
1 政大公企中心產業人才投資課程 -- 企業決策分析方法 -- 黃智聰 政大公企中心產業人才投資課程 課程名稱:企業決策分析方法 授課老師:黃智聰 授課內容:利用分公司之追蹤資料進行企業決策分析 參考書目: Hill, C. R., W. E. Griffiths, and G. G. Judge,
STAT0_corr1 二變數的相關性  變數之間的關係是統計研究上的一大目標  討論二分類變數的相關性,以列聯表來表示  討論二連續隨機變數時,可以作 x-y 散佈圖觀察它 們的關係強度  以相關係數來代表二者關係的強度.
McGraw-Hill/Irwin © 2003 The McGraw-Hill Companies, Inc.,All Rights Reserved. 肆 資料分析與表達.
1 政治大學東亞所選修 -- 計量分析與中國大陸研究黃智聰 政治大學東亞所選修 課程名稱:計量分析與中國大陸研究 (量化分析) 授課老師:黃智聰 授課內容:時間序列與橫斷面資料的共用 參考書目: Hill, C. R., W. E. Griffiths, and G. G. Judge, (2001),
1 單元三 查詢結果的引用分析 Web of Science 利用指引 查看出版及被引用情況 在查詢結果的清單中,可以瀏覽近 20 年來查詢主題出版和被引用的情況。
1 Part IC. Descriptive Statistics Multivariate Statistics ( 多變量統計 ) Focus: Multiple Regression ( 多元迴歸、複迴歸 ) Spring 2007.
2009fallStat_samplec.i.1 Chap10 Sampling distribution (review) 樣本必須是隨機樣本 (random sample) ,才能代表母體 Sample mean 是一隨機變數,隨著每一次抽出來的 樣本值不同,它的值也不同,但會有規律性 為了要知道估計的精確性,必需要知道樣本平均數.
民意調查的分析 II 蔡佳泓 政大選舉研究中心 副研究員. 課程大綱 假設的檢定 研究假設 H1: 研究假設 ( 例: X 與 Y 相關 ) H0: 虛無假設 ( 例: X 與 Y 無關 ) 檢定結果:接受虛無假設或拒斥虛無假 設,但不代表接受研究假設.
McGraw-Hill/Irwin © 2003 The McGraw-Hill Companies, Inc.,All Rights Reserved. 貳 研究設計.
:Problem D: Bit-wise Sequence ★★★☆☆ 題組: Problem Set Archive with Online Judge 題號: 10232: Problem D: Bit-wise Sequence 解題者:李濟宇 解題日期: 2006 年 4 月 16.
第三部分:研究設計 ( 二): 研究工具的信效度 與研究效度 (第九章之第 306 頁 -308 頁;第四章)
: Happy Number ★ ? 題組: Problem Set Archive with Online Judge 題號: 10591: Happy Number 解題者:陳瀅文 解題日期: 2006 年 6 月 6 日 題意:判斷一個正整數 N 是否為 Happy Number.
McGraw-Hill/Irwin © 2003 The McGraw-Hill Companies, Inc.,All Rights Reserved. 參 資料蒐集的方法.
CH 15- 元件可靠度之驗證  驗證方法  指數模式之可靠度驗證  韋式模式之可靠度驗證  對數常態模式之可靠度驗證  失效數為零時之可靠度估算  各種失效模式之應用.
: Problem A : MiniMice ★★★★☆ 題組: Contest Archive with Online Judge 題號: 11411: Problem A : MiniMice 解題者:李重儀 解題日期: 2008 年 9 月 3 日 題意:簡單的說,題目中每一隻老鼠有一個編號.
第二十一章 研究流程、論文結構        與研究範例 21-1  研究流程 21-2  論文結構 21-3  研究範例.
短缺,盈餘與均衡. 遊戲規則  老師想出售一些學生喜歡的小食。  老師首先講出價錢,有興趣買的請舉手。
緒論 統計的範圍 敘述統計 推論統計 有母數統計 無母數統計 實驗設計 統計的本質 大量 數字 客觀.
:Nuts for nuts..Nuts for nuts.. ★★★★☆ 題組: Problem Set Archive with Online Judge 題號: 10944:Nuts for nuts.. 解題者:楊家豪 解題日期: 2006 年 2 月 題意: 給定兩個正整數 x,y.
資料結構實習-一 參數傳遞.
政治大學公企中心必修課-- 社會科學研究方法(量化分析)--黃智聰
觀測量的權 權的觀念與計算.
公用品.  該物品的數量不會因一人的消費而受到 影響,它可以同時地被多人享用。 角色分配  兩位同學當我的助手,負責:  其餘各人是投資者,每人擁有 $100 , 可以投資在兩種資產上。  記錄  計算  協助同學討論.
: Beautiful Numbers ★★★★☆ 題組: Problem Set Archive with Online Judge 題號: 11472: Beautiful Numbers 解題者:邱經達 解題日期: 2011 年 5 月 5 日 題意: 若一個 N 進位的數用到該.
Section 4.2 Probability Models 機率模式. 由實驗看機率 實驗前先列出所有可能的實驗結果。 – 擲銅板:正面或反面。 – 擲骰子: 1~6 點。 – 擲骰子兩顆: (1,1),(1,2),(1,3),… 等 36 種。 決定每一個可能的實驗結果發生機率。 – 實驗後所有的實驗結果整理得到。
演算法 8-1 最大數及最小數找法 8-2 排序 8-3 二元搜尋法.
845: Gas Station Numbers ★★★ 題組: Problem Set Archive with Online Judge 題號: 845: Gas Station Numbers. 解題者:張維珊 解題日期: 2006 年 2 月 題意: 將輸入的數字,經過重新排列組合或旋轉數字,得到比原先的數字大,
Structural Equation Modeling Chapter 6 CFA 根據每個因素有多重指標,以減少 測量誤差並可建立問卷的構念效度 驗證性因素分析.
演算法課程 (Algorithms) 國立聯合大學 資訊管理學系 陳士杰老師 Course 7 貪婪法則 Greedy Approach.
描述統計 描述統計(Descriptive Statistics)-將蒐集到的資料加以整理和記錄,並以數字和統計圖表的方式來分析及解釋資料所具有的特性. 基本統計值(平均數,中位數,標準差,變異量….) 相關性測量(卡方,相關係數,迴歸…)
Unit 3 : 變異數分析 --ANOVA 3.1 範例說明 行銷研究方面, One-Way ANOVA 可 用以研擬市場區隔及目標選擇策略。 教育研究方面,此一模式可用以評估 教師之教學績效。 農業研究方面,此一模式則可用以挑 選使玉米收穫量極大化的肥料。
Probability Distribution 機率分配 汪群超 12/12. 目的:產生具均等分配的數值 (Data) ,並以 『直方圖』的功能計算出數值在不同範圍內出現 的頻率,及繪製數值的分配圖,以反應出該 機率分配的特性。
Chapter 7 Sampling Distribution
第十二章 變異數分析 12.1 單因子變異數分析 1-way ANOVA Subject : 比較三組以上的母體平均數 k 組資料,母體平均數為 μ 1, …, μ i, …, μ k Data : k 組資料,樣本數為 n 1,…, n k. x ij --- 第 i 組的第 j 個觀察值 N =
連續隨機變數 連續變數:時間、分數、重量、……
McGraw-Hill/Irwin © 2003 The McGraw-Hill Companies, Inc.,All Rights Reserved. 壹 企業研究導論.
第十章 單變量變異數分析 10-1 變異數分析 10-2 單因子變異數分析的設計 10-3 變異數分析的基本假設條件
單因子變異數分析 多重比較 雙因子變異數分析
: Finding Paths in Grid ★★★★☆ 題組: Contest Archive with Online Judge 題號: 11486: Finding Paths in Grid 解題者:李重儀 解題日期: 2008 年 10 月 14 日 題意:給一個 7 個 column.
著作權所有 © 旗標出版股份有限公司 第 14 章 製作信封、標籤. 本章提要 製作單一信封 製作單一郵寄標籤.
第十一章 卡方檢定 陳順宇 教授 成功大學統計系.
財務管理概論 劉亞秋‧薛立言 合著 (東華書局, 2007)
幼兒行為觀察與記錄 第八章 事件取樣法.
1 Chemical and Engineering Thermodynamics Chapter 1 Introduction Sandler.
Chapter 12 Estimation 統計估計. Inferential statistics Parametric statistics 母數統計 ( 母體為常態或 大樣本 ) 假設檢定 hypothesis testing  對有關母體參數的假設,利用樣本資料,決定接受或 不接受該假設的方法.
: How many 0's? ★★★☆☆ 題組: Problem Set Archive with Online Judge 題號: 11038: How many 0’s? 解題者:楊鵬宇 解題日期: 2007 年 5 月 15 日 題意:寫下題目給的 m 與 n(m
McGraw-Hill/Irwin © 2003 The McGraw-Hill Companies, Inc.,All Rights Reserved. 肆 資料分析與表達.
1 Slide Slide 第 9 章 假設檢定 Part B ( ). 2 Slide Slide 第 9 章 假設檢定 Part B  9.5 母體比例  9.6 假設檢定與決策  9.7 計算型 II 錯誤的機率  9.8 在檢定母體平均數時決定樣本大小 第 9 章假設檢定.
Presentation transcript:

第五章 卡方檢定 5-1 卡方檢定 (X2 test) 5-2 適配度檢定 (good-of-fit test) 5-3 獨立性檢定 (test of independence) 5-4 同質性檢定 (test of homogeneity)

5-1 卡方檢定(X2 test)   卡方檢定適用於非連續變項(例如:類別或次序變數)之差異分析, 卡方分配可以協助我們利用樣本的變異數來推論母體變異數, 母體變異數代表著資料的分散程度。隨著應用的不同, 對於資料分散的程度也有不同的使用, 例如, 對於獲利程度而言, 值是較大較好, 但對於品管的變異數而言, 則是愈小愈好。卡方檢定則是利用卡方分配(卡方值)來進行檢定, 適用於分類變數的分析, 若是單一類別的變數, 可以得到次數的分配, 若是有兩個類別, 則可以使用交叉表(cross-tabulation)分析, 而且使用卡方(Chi-Square, X2)來作檢定。 卡方檢定常用的應用有三大類, 分別是適配度檢定(good-of-fit test), 獨立性檢定(test of independence)和同質性檢定(test of homogeneity), 我們分別介紹如後。

5-2 適配度檢定(good-of-fit test)   當我們想了解某一個變數是否與某個理論或母體分配相符合時, 就可以使用卡方檢定的應用之一, 「適配度檢定」, 適配度檢定的內容是一個變數, 因此, 也稱為單因子分類(one-way classification) 檢定。 卡方的適配度檢定是取樣本的觀察值和母體的期望值作比較, 而卡方值愈大, 代表觀察值和期望值差異愈大, 當卡方值超過某一個臨界值時, 就會得到顯著的統計檢定結果。 研究問題的假設如下: 虛無假設H0:母體符合某種分配或理論 對立假設H1:母體不符合某種分配或理論 若是適配度檢定的結果是顯著, 則會拒絶虛無假設H0,卡方統計量的定義如下: X2= Oi= 樣本的觀察值 Ei= 理論推算的期望值

範例: 某電腦公司在資訊展時, 分別售出筆記型電腦白色50台, 黑色40, 灰色30台, 該電腦公司想要知道, 消費者對筆記型電腦的顏色偏好是否有差異? 我們整銷售的資料如下: 虛無假設H0:消費者對筆記型電腦顏色的偏好是相同的 對立假設H1:消費者對筆記型電腦顏色的偏好是不相同的 期望值 = 總人數 *每種結果的機率    = (50+40+30) * ( )  = 40 X2= =     +     + = 2.5+0+2.5 = 5 自由度 = (3-1) = 2 查表: 結果: 我們計算卡方統計量為5, 小於卡方分配臨界值5.99, 因此, 我們接受虛無假設H0, 消費者對筆記型電腦顏色的偏好是相同的 假設顯著水準 訂定為5%, 自由度為2, 查卡方分配臨界值表X2 = 5.99

實務操作: 1. 開啟範例 expected.sav 2. 按 Data Weight Cases 3. 在Weight Cases 視窗,選取 Sale 選取 Weight cases by 4. 按 > ,選取 Sale 到 Frequency Variable 5. 按 OK,回到開啟資料視窗,按 Analyze  Nonparametric   Tests  Chi-Square 6. 在Chi-Square Test 視窗,選取 Sale 7. 在Chi-Square Test 視窗,按 > ,選取 Sale 到 Test Variable     List 8. 按 Options ,選取 Descriptive 9. 按 Continue,回到 Chi-Square Test 視窗 10. 按 OK,出現報表結果

報表分析結果如下: NPar Tests   Descriptive Statistics Chi-Square Test Frequencies Sale Test Statistics a 0 cells (.0%) have expected frequencies less than 5. The minimum expected cell frequency is 40.0. 結果:從表中我們可以看到卡方統計量為5, P值0.082大於0.05, 因此, 我們接受虛無假設H0, 消費者對筆記型電腦顏色的偏好是相同的。

5-3 獨立性檢定 (test of independence)   獨立性檢定是用在同一個樣本中, 兩個變數的關連性檢定, 也就是說, 在探討兩個類別變數之間, 是否互為獨立, 或則是有相依的關係存在, 獨立性檢定的結果, 若是達到顯著, 則需要查看二個變數的關連性強度, 我們整理如下: 2×2 列連表:查看 (phi)相關係數 3×3 列連表:查看列聯係數(coefficient of contingency) 注意:4×4, 5×5, 6×6:也是查看列聯係數 2×3列連表:查看Cramer’s V 係數 注意:(3×2, 2×4, 3×4…) :也是查看Cramer’s V 係數   註解:一般建議不超過16個個格, 也就是使用小於4×4或3×5的表格, 以免難於解釋結果, 另外, 一般也常用Lamda( )係數來解釋兩個變數的關係,  係數是以一個變數可以解釋另一個變數時, 削減誤差比率(Proportioned Reduction in Error), 愈大代表兩個變數的關連性愈強。

電腦公司銷售筆記型電腦, 男性分別購買白色50, 黒色60, 灰色50, 女性分別購買白色70, 黒色30, 灰色40, 我們想要了解性別(男, 女)在購買筆記型電腦時, 對於顏色的選擇是否有差異?  首先,我們整理男女購買筆記型電腦的觀察值如下: 研究問題的假設如下: 虛無假設H0:兩個變數相互獨立, 代表男女性別與購買筆記型電腦顏色無關 對立假設H1:兩個變數相互關連(相依), 代表男女性別與購買筆記型電腦顏色有關 理論的期望值 =     *    *總計 自由度 = (列的數目 - 1) (行的數目 - 1) = (r-1)(j-1)

我們計算男女購買筆記型電腦的理論期望值如下: 男性購買白色 = 男性購買黑色 = 男性購買灰色 = 女性購買白色 = 女性購買黑色 = 女性購買灰色 = 我們整理男女購買筆記型電腦的理論期望值如下:

我們整理觀察值和理論的期望值如下: 註:(數字)代表理論的期望值 卡方檢定統計量: X2= O 為觀察次數, E為期望次數 若X2>X2(r-1)(c-1)  則拒絶虛無假設H0 = 13.17 查表: 結果:   我們計算卡方統計量為13.17, 大於卡方分配臨界值5.99, 因此, 我們拒絶虛無假設H0, 消費者男女性別與購買筆記型電顏色有關 假設顯著水準  行為5%, 自由度 = (3-1)(2-1) = 2, 查卡方分配臨界值表X2=5.99

實務操作: 1. 開啟範例 independence.sav 2. 按 Data Weight Cases 3. 在Weight Cases 視窗,選取 Sale 選取 Weight cases by 4. 按 > ,選取 Sale 到 Frequency Variable 5. 按 OK,回到開啟資料視窗,按 Descriptive Statistics  Crosstabs 6. 在 Crosstabs 視窗,選 Sex (性別) 7. 在 Crosstabs 視窗,選 Sex (性別)到 Row(s) ,選 color (顏色) 8. 在 Crosstabs 視窗,選 color (顏色)到 Column(s) 9. 按 Statistics,選 Chi-square,Contingency coefficient,Phi and Cramer’s V , Lambda 10. 按 Continue, 回到 Crosstabs 視窗 11. 按 Cell,選取 Observed,Row,Column,Total 12. 按 Continue, 回到 Crosstabs 視窗 13. 按 OK,出現報表結果

報表分析結果如下: Crosstabs Case Processing Summary

Sex * Color Crosstabulation

Chi-Square Tests a 0 cells (.0%) have expected count less than 5. The minimum expected count is 42.00. 結果: 我們得到卡方統計量為13.17, P值 0.001小於臨界值0.05, 因此, 我們拒絶虛無 假設H0, 消費者男女性別與購買筆記型電顏色有關。

5-4 同質性檢定(test of homogeneity)   同質性檢定是用在不同樣本(例如:二個樣本)中, 同一個變數是否為一致的檢定, 也就是說, 用來檢測不同母體在同一個變數的回應下, 是否有顯著差異。 同質性檢定的統計量如下: X2=         , 自由度df = (r-1)(c-1) O為觀察次數, E為期望次數 若 X2> X2(r-1)(j-1),  則拒絕虛無假設H0   同質性檢定的統計量              為Pearson chi-square皮爾森卡方統計量, 另外, 也可以使用likelihood概以此卡方統計量來作檢定 注意:   我們使用同質性檢定於細格大於2時, 只能檢定出是否有顯著差異, 至於是那二組有顯著差異, 則需要再進一步, 作事後比較, 才可以得知

範例: 我們想瞭解大學生, 大學教師, 家長對於研究生購買筆記型電腦的意見是否一致?   我們想瞭解大學生, 大學教師, 家長對於研究生購買筆記型電腦的意見是否一致?   我們整理大學生, 大學教師, 家長對於研究生購買筆記型電腦的意見, 贊成或反對的觀察值如下: 研究問題的假設如下: 虛無假設H0:對於問題的反應是一致, 代表著大學生, 大學教師和家長, 對於研究生購買筆記型電腦的態度是一致的。 對立假設H1:對於問題的反應是不同的, 代表著大學生, 大學教師和家長, 對於研究生購買筆記型電腦的態度是不一致的 我們可以設定身份 ID:大學生 1 , 大學教師 2, 家長 3 意見 Opinion:贊成1, 反對2 贊成或反對的觀察值 number。

輸入列聯表

實務操作: 1. 開啟範例 homogeneity.sav 2. 按 Data  Weight Cases 3. 在Weight Cases 視窗,選取 number ,選取 Weight cases by 4. 按 > ,選取 Sale 到 Frequency Variable 5. 按 OK,回到開啟資料視窗,按 Descriptive Statistics  Crosstabs 6. 在 Crosstabs 視窗,選 ID (身份)到 Row(s) ,選 opinion (意見)到 Column(s) 7. 按 Statistics,選 Chi-square,Contingency coefficient,Phi and Cramer’s V , Lambda 8. 按 Continue, 回到 Crosstabs 視窗 9. 按 Cell,選取 Observed,Row,Column,Total 10. 按 Continue, 回到 Crosstabs 視窗 11. 按 OK,出現報表結果

報表分析結果如下: Chi-Square Tests a 0 cells (.0%) have expected count less than 5. The minimum expected count is 42.00. 結果:   我們得到卡方統計量為13.17, P值 0.001小於臨界值0.05, 因此, 我們拒絶虛無假設H0,對於問題的反應是不同的, 代表著大學生, 大學教師和家長, 對於研究生購買筆記型電腦的態度是不一致的。