Download presentation
1
變異數分析 迴歸分析 因素分析 區別分析 集區分析
統計分析方法 變異數分析 迴歸分析 因素分析 區別分析 集區分析
2
迴歸分析 找出預測模式: 簡單迴歸(Simple regression)以一個變項預測另一個有興趣的數量變數。
複迴歸(Multiple regression)以多個變項預測某一個有興趣的數量變數。 羅吉斯迴歸(Logistic regression)以多個變項預測某一個有興趣的0-1變數。
3
最小平方迴歸
4
迴歸直線(regression line)
迴歸直線是用來描述反應變數 y 與解釋變數 x 線性關係的直線,在給定 x 之下通常使用迴歸直線的公式來預測 y。 平均日加溫度數為20度時,根據下圖的迴歸直線可算出月平均瓦斯消耗量約為490 cu. ft 。
5
迴歸直線實例 (20, 5)
6
預測誤差 迴歸直線的選擇直接影響預測值 y 的準確性。 我們以 y 觀察值 - 預測值 y 稱為誤差, 或稱為垂直距離。
平均日加溫度數為 20度時,若實際月平均瓦斯消耗量為 510 cu. ft,則 誤差 = = 20。
7
預測誤差圖示 預測值 誤差 觀察值 y
8
最小平方迴歸直線 依據誤差平方和最小的原則求得的迴歸直線,稱為最小平方迴歸直線 (Least square regression line)。 改變迴歸直線的截距與斜率,選擇使誤差平方和最小的直線。
9
最小平方迴歸直線方程式 若直線方程式為 y = a + bx,則在 xi 之下 yi 的預測值為 ,則誤差平方和即為 。
最小平方迴歸直線即為 。
10
最小平方迴歸直線實例 統計資料 則 最小平方迴歸直線即為 。
11
最小平方迴歸直線-minitab
12
最小平方迴歸直線-minitab圖
13
最小平方迴歸的性質 最小平方迴歸直線中反應變數 y 與解釋變數 x 的角色無可取代。
迴歸直線的斜率與相關係數關係密切。 b = r (sy/sx)
14
兩迴歸直線
15
最小平方迴歸的性質(續) 迴歸直線一定通過 點。 迴歸直線方程式 中, 以 代入可得 即表示點 在迴歸直線上。
16
最小平方迴歸的性質(再續) 相關係數描述了迴歸直線的強度。 相關係數平方即為反應變數 y 的變異中, 在變數 x 迴歸後解釋的部分(比例)。
17
餘差(Residuals) 觀察值 y 與預測值 的差稱為餘差。 餘差總和必為零
18
餘差圖(Residuals Plot) 餘差與對應的解釋變數的散佈圖,稱為餘差圖。 餘差圖有助於瞭解迴歸直線的適合性。 餘差圖為非線性。
餘差的散佈隨著 x 值的增加而散開或縮減。
19
標準餘差圖 4 2 - 2 - 4 x
20
曲線型餘差圖 4 2 - 2 - 4 x
21
散發型餘差圖 4 2 - 2 - 4 x
22
餘差圖中的特殊點 離群點:餘差特出的點,偏離整體餘差的分佈。 干擾點:該點的移除對於迴歸直線的計算結果有重大的影響,稱為干擾點。
Child 19 干擾點:該點的移除對於迴歸直線的計算結果有重大的影響,稱為干擾點。 x 值特出(大或小)的點,多為干擾點。 Child 18
23
餘差圖實例 小孩說第一句話的時間與日後Gesell 能力測驗成績的迴歸關係。 迴歸直線如後 餘差如下,餘差圖如後
24
迴歸直線圖 Child 19 Child 18
25
迴歸餘差圖 Child 19 Child 18
26
特殊點對迴歸直線的影響 Child 19 Child 18
27
相關與迴歸的迷思
28
相關性與迴歸直線的侷限 相關性與迴歸直線僅用來描述兩變數之間的線性關係,且其數值受特殊點的影響極大。
平均日加溫度數為20度時,根據下圖的迴歸直線可算出月平均瓦斯消耗量約為490 cu. ft 。
29
外插(Extrapolation)預測 以迴歸直線預測原解釋變數概括的範圍外資料之對應 y值,其準確性的多半不高。
以3~8歲孩童身高資料得到的迴歸直線,預測25歲成人身高(預測值約為8呎長人)必然不準確。
30
使用平均數 使用平均數資料(月平均瓦斯消耗量)評估相關性,往往高於未平均前資料(每日瓦斯消耗量)的相關性。
平均數資料已整合了未平均前資料的離散情況。
31
複迴歸分析
32
複相關係數 變數 y 與預測變數 x1, x2,…, xp之間的相關係數稱為複相關係數。
預測變數之線性組合 a1x1+a2x2+…+apxp與變數 y 之相關係數。
33
複相關係數實例 大一微積分成績為 y,預測變數為聯考數學成績 x1與英文成績 x2。
大一微積分y,與聯考英數平均成績 x = (x1+ x2)/2 的相關係數。 大一微積分y,與聯考英數加權平均成績 x* = ax1+ bx2的相關係數。 求a, b 使得 corr(y, ax1+bx2)為最大。
34
複迴歸模式 變數 y 與預測變數 x1, x2之 n 組隨機資料為 yi, x1i, x2i, i =1,…, n 則複迴歸模式為
為隨機誤差服從常態 。 為三未知常數,可由隨機資料 yi, x1i, x2i, i =1,…, n 估計之。
35
迴歸方程式之估計 最小平方法即為 Normal Equations 之解: 令 分別為上列聯立方程組之解,則迴歸方程式為
36
複迴歸分析變異數分析表 則拒絕
37
複迴歸實例 會計事務所以十位會計師過去資料,利用迴歸直線預測 CPA 考試分數。資料如下:
38
相關分析 相關分析得
39
資料散佈圖(Score vs. GPA.)
40
GPA對Score之簡單迴歸
41
資料散佈圖(Score vs. Exp.)
42
Experience對Score之簡單迴歸
43
GPA 及 Exp 對 Score 之複迴歸
44
複迴歸之殘差分析
45
迴歸係數檢定 給定i,檢定 已在模式內時 是否還需要加入即檢定 檢定統計量為 ,其中 則拒絕 H0。 檢定 ,則檢定統計量為
46
迴歸信賴區間 bj 的 100(1-a)% 信賴區間為 在 x10, x20 情形下, 的 100(1-a)% 信賴區間為 其中
47
複判別係數 判別係數 修正判別係數 k 增加則 SSE 減少,則 R2 增加
k 增加則 SSE 減少,但 增加, 則 Adj R2 不一定增加
48
複判別係數與變數項目數k
49
指標變數 若考慮性別因素,令 x3為指標變數 x3=1 為男,x3=0 為女,則模式為
一般分類型資料若有 2k 類則以 k 個指標變數分析。 例:以 (x3, x4) = (0,0)為第一季,(0, 1)為第二季,(1, 0)為第三季,(1, 1)為第四季,即以 2 個指標變數代表四季。
50
Score vs. GPA散佈圖(by Sex)
51
含指標變數之迴歸分析
52
含指標變數之迴歸方程式 迴歸方程式 Score = -9.7+23.1GPA+17.4Sex 男, sex=1,
53
含指標變數之迴歸殘差圖
54
含指標變數之複迴歸分析
55
含指標變數之複迴歸殘差圖
56
多項式迴歸模式 迴歸殘差圖顯示,殘差項仍為 x2的(二次)函數,故宜在模式上加入 項,即 一般多項式迴歸,則視需要加入 p 次項,模式為
57
多項式迴歸分析
58
多項式迴歸殘差圖
59
含指標變數之多項式迴歸分析
60
含指標變數多項式迴歸殘差圖
61
迴歸模式的選擇 模式一:複迴歸 模式二:含指標變數複迴歸 模式三:多項式迴歸 模式四:含指標變數多項式迴歸
62
迴歸模式的比較
63
迴歸理論的應用案例 兩迴歸線是否相等
64
共線性診斷 兩迴歸預測因子具高度相關時,可能會對迴歸模式有重大的影響。一般稱為共線性(multi-collinearity)問題。
共線性問題常用變異膨脹因子(variance inflation factor, 簡記為 VIF)的方法來偵測。
65
變異膨脹因子(VIF) 迴歸模式各變數標準化後的新未知參數為 b*k 及 s *2。定義新迴歸係數 b*k 的最小平方估計b*k的變異數為 s 2(b*k) = s *2(VIF)k,其中(VIF)k就稱為 b*k 的變異膨脹因子。 應用上,(1 - R2k)-1 是(VIF)k的估計,其中 R2k 為Xk 對其他迴歸因子的複判別係數。 最大的 (VIF)k 或是 (VIF)k 的平均數都是判斷共線性嚴重性的指標。 一般而言, (VIF)k大於10表示會嚴重影響。
Similar presentations
© 2025 SlidePlayer.com. Inc.
All rights reserved.