Presentation is loading. Please wait.

Presentation is loading. Please wait.

STAT0_corr1 二變數的相關性  變數之間的關係是統計研究上的一大目標  討論二分類變數的相關性,以列聯表來表示  討論二連續隨機變數時,可以作 x-y 散佈圖觀察它 們的關係強度  以相關係數來代表二者關係的強度.

Similar presentations


Presentation on theme: "STAT0_corr1 二變數的相關性  變數之間的關係是統計研究上的一大目標  討論二分類變數的相關性,以列聯表來表示  討論二連續隨機變數時,可以作 x-y 散佈圖觀察它 們的關係強度  以相關係數來代表二者關係的強度."— Presentation transcript:

1

2 STAT0_corr1 二變數的相關性  變數之間的關係是統計研究上的一大目標  討論二分類變數的相關性,以列聯表來表示  討論二連續隨機變數時,可以作 x-y 散佈圖觀察它 們的關係強度  以相關係數來代表二者關係的強度

3 STAT0_corr2 工作表現 差中等好 平均以 下 676425 測驗成 績 平均 427656 平均以 上 102337 二分類變數: 工作表現與測驗成績 二連續變數: 經濟學成績與人類學成績 EconAnthro 5174 6870 7288 9793 人數 分數

4 STAT0_corr3 二變數的關係可以是正相關,負相關,或 無關

5 STAT0_corr4 即是二變數相關,相關性也有不同強度 如何量測相關性強度?

6 STAT0_corr5 二變數的相關係數 x , y 皆為隨機變數時,二者之相關性強度以 ρ 代表 ,稱為母體的相關係數。 。 樣本相關係數公式如下,稱為 Pearson ’ s coefficient of correlation

7 STAT0_corr6 Computation formula for r ( 平方和 – 和之平方 / 樣本數 ) 同理可得到下列二式:

8 STAT0_corr7 例 17.1 : 12 個學生 final exam 經濟和人 類學的成績如下表,求相關係數 r  需要的基本統計值為:  X 之和, X 之平方和  Y 之和, Y 之平方和  XY 之和 EconAnthro 5174 6870 7288 9793 5567 73 9599 7473 2033 91 7480 86

9 STAT0_corr8 S xx = S yy = S xy = r =

10 STAT0_corr9 例 17.2 :經過職前訓練後, 400 位學員工作表 現和考試成績統計如下表,求相關係數 r  因為是分類變數,無 法直接作計算  需要將各類別數量化  工作表現: -1, 0, 1  測驗成績: -1, 0, 1 工作表現 差中等好 平均以 下 676425 測驗 成績 平均 427656 平均以 上 102337 工作表現 (y) 01 676425 測驗成 績 (x) 0427656 1102337

11 STAT0_corr10 S xx = S yy = S xy = r = 工作表現 (y) 01 676425 x0427656 1102337

12 STAT0_corr11 相關係數之意義  -1 ≦ r ≦ +1  r >0 時, X 與 Y 是正相關, r < 0 時, X 與 Y 是負相關  r 值度量 X 與 Y 線性關係之強度  Y=a+bX 時, r=1 或 -1  |r| 愈接近 1 ,表示 X 與 Y 線性關係愈強; |r| 愈接近 0 ,表示 X 與 Y 線性關係愈弱。

13 STAT0_corr12 猜猜下列資料的相關係數 r=0.958 r=0.813 r=0.912 r=0.427

14 STAT0_corr13 相關係數之特性  r 值與使用的單位無關  資料加減一常數, r 值不變,資料乘一倍 數, r 值不變  經驗: r > 0.9 ,視為強相關; r < 0.5 ,視為弱相 關; r 值介於中間,視為中強相關。  實作上對相關係數的要求會因研究的領域 而有差異。

15 STAT0_corr14 以直線配適資料  當我們發現二變數間有相關性時,自然地 想進一步地去得到一直線  得到的直線稱為迴歸線 (regression line)  此直線可用來解釋變數之間互相影響的效 果,或用來作預測  正式的迴歸分析涉及層面很廣,會有專門 的課學習

16 STAT0_corr15 例 16.1 :我們知道長期暴露在噪音下會影響聽力,現在想用一 直線式來說明暴露時間的長短對聽力的影響程度。搜集了 12 個 人暴露時間的週數 (x) 與聽力範圍 (y) 的資料 lengthhearing 4715.1 5614.1 11613.2 17812.7 1914.6 7513.8 16011.9 3114.8 1215.3 16412.6 4314.7 7414

17 STAT0_corr16 最小平方法 Ordinary Least Square  先假設直線為: Y = a+bX  資料為 (x i, y i )  欲使樣本誤差項 (e i =y i - a - bx i ) 的平方和 極小化,即 min i (y i - a - bx i ) 2  求解 a, b

18 STAT0_corr17 令 Q = i (y i - a - bx i ) 2 , Q 對 a 微分 = 0 , Q 對 b 微分 =0

19 STAT0_corr18 例 16.1 :我們知道長期暴露在噪音下會影響聽力,現在想用一 直線式來說明暴露時間的長短對聽力的影響程度。搜集了 12 個 人暴露時間的週數 (x) 與聽力範圍 (y) 的資料 S xx = S xy = b = a= 最小平方線為 暴露在噪音下的時間每增加一星期,聽力範圍減少 0.0175


Download ppt "STAT0_corr1 二變數的相關性  變數之間的關係是統計研究上的一大目標  討論二分類變數的相關性,以列聯表來表示  討論二連續隨機變數時,可以作 x-y 散佈圖觀察它 們的關係強度  以相關係數來代表二者關係的強度."

Similar presentations


Ads by Google