變異數分析迴歸分析因素分析區別分析集區分析

變異數分析迴歸分析因素分析區別分析集區分析
統計分析方法變異數分析迴歸分析因素分析區別分析集區分析

迴歸分析找出預測模式：簡單迴歸(Simple regression)以一個變項預測另一個有興趣的數量變數。
複迴歸(Multiple regression)以多個變項預測某一個有興趣的數量變數。羅吉斯迴歸(Logistic regression)以多個變項預測某一個有興趣的0-1變數。

最小平方迴歸

迴歸直線(regression line)
迴歸直線是用來描述反應變數 y 與解釋變數 x 線性關係的直線，在給定 x 之下通常使用迴歸直線的公式來預測 y。平均日加溫度數為20度時，根據下圖的迴歸直線可算出月平均瓦斯消耗量約為490 cu. ft 。

迴歸直線實例 (20, 5)

預測誤差迴歸直線的選擇直接影響預測值 y 的準確性。我們以 y 觀察值 - 預測值 y 稱為誤差，或稱為垂直距離。
平均日加溫度數為 20度時，若實際月平均瓦斯消耗量為 510 cu. ft，則誤差 = = 20。

預測誤差圖示預測值誤差觀察值 y

最小平方迴歸直線依據誤差平方和最小的原則求得的迴歸直線，稱為最小平方迴歸直線 (Least square regression line)。改變迴歸直線的截距與斜率，選擇使誤差平方和最小的直線。

最小平方迴歸直線方程式若直線方程式為 y = a + bx，則在 xi 之下 yi 的預測值為，則誤差平方和即為。
最小平方迴歸直線即為。

最小平方迴歸直線實例統計資料則最小平方迴歸直線即為。

最小平方迴歸直線-minitab

最小平方迴歸直線-minitab圖

最小平方迴歸的性質最小平方迴歸直線中反應變數 y 與解釋變數 x 的角色無可取代。
迴歸直線的斜率與相關係數關係密切。 b = r (sy/sx)

兩迴歸直線

最小平方迴歸的性質(續) 迴歸直線一定通過點。迴歸直線方程式中，以代入可得即表示點在迴歸直線上。

最小平方迴歸的性質(再續) 相關係數描述了迴歸直線的強度。相關係數平方即為反應變數 y 的變異中，在變數 x 迴歸後解釋的部分(比例)。

餘差(Residuals) 觀察值 y 與預測值的差稱為餘差。餘差總和必為零

餘差圖(Residuals Plot) 餘差與對應的解釋變數的散佈圖，稱為餘差圖。餘差圖有助於瞭解迴歸直線的適合性。餘差圖為非線性。
餘差的散佈隨著 x 值的增加而散開或縮減。

標準餘差圖 4 2 - 2 - 4 x

曲線型餘差圖 4 2 - 2 - 4 x

散發型餘差圖 4 2 - 2 - 4 x

餘差圖中的特殊點離群點：餘差特出的點，偏離整體餘差的分佈。干擾點：該點的移除對於迴歸直線的計算結果有重大的影響，稱為干擾點。
Child 19 干擾點：該點的移除對於迴歸直線的計算結果有重大的影響，稱為干擾點。 x 值特出(大或小)的點，多為干擾點。 Child 18

餘差圖實例小孩說第一句話的時間與日後Gesell 能力測驗成績的迴歸關係。迴歸直線如後餘差如下，餘差圖如後

迴歸直線圖 Child 19 Child 18

迴歸餘差圖 Child 19 Child 18

特殊點對迴歸直線的影響 Child 19 Child 18

相關與迴歸的迷思

相關性與迴歸直線的侷限相關性與迴歸直線僅用來描述兩變數之間的線性關係，且其數值受特殊點的影響極大。
平均日加溫度數為20度時，根據下圖的迴歸直線可算出月平均瓦斯消耗量約為490 cu. ft 。

外插(Extrapolation)預測以迴歸直線預測原解釋變數概括的範圍外資料之對應 y值，其準確性的多半不高。
以3~8歲孩童身高資料得到的迴歸直線，預測25歲成人身高(預測值約為8呎長人)必然不準確。

使用平均數使用平均數資料(月平均瓦斯消耗量)評估相關性，往往高於未平均前資料(每日瓦斯消耗量)的相關性。
平均數資料已整合了未平均前資料的離散情況。

複迴歸分析

複相關係數變數 y 與預測變數 x1, x2,…, xp之間的相關係數稱為複相關係數。
預測變數之線性組合 a1x1+a2x2+…+apxp與變數 y 之相關係數。

複相關係數實例大一微積分成績為 y，預測變數為聯考數學成績 x1與英文成績 x2。
大一微積分y，與聯考英數平均成績 x = (x1+ x2)/2 的相關係數。大一微積分y，與聯考英數加權平均成績 x* = ax1+ bx2的相關係數。求a, b 使得 corr(y, ax1+bx2)為最大。

複迴歸模式變數 y 與預測變數 x1, x2之 n 組隨機資料為 yi, x1i, x2i, i =1,…, n 則複迴歸模式為
為隨機誤差服從常態。為三未知常數，可由隨機資料 yi, x1i, x2i, i =1,…, n 估計之。

迴歸方程式之估計最小平方法即為 Normal Equations 之解: 令分別為上列聯立方程組之解，則迴歸方程式為

複迴歸分析變異數分析表則拒絕

複迴歸實例會計事務所以十位會計師過去資料，利用迴歸直線預測 CPA 考試分數。資料如下:

相關分析相關分析得

資料散佈圖(Score vs. GPA.)

GPA對Score之簡單迴歸

資料散佈圖(Score vs. Exp.)

Experience對Score之簡單迴歸

GPA 及 Exp 對 Score 之複迴歸

複迴歸之殘差分析

迴歸係數檢定給定i，檢定已在模式內時是否還需要加入即檢定檢定統計量為，其中則拒絕 H0。檢定，則檢定統計量為

迴歸信賴區間 bj 的 100(1-a)% 信賴區間為在 x10, x20 情形下，的 100(1-a)% 信賴區間為其中

複判別係數判別係數修正判別係數 k 增加則 SSE 減少，則 R2 增加
k 增加則 SSE 減少，但增加，則 Adj R2 不一定增加

複判別係數與變數項目數k

指標變數若考慮性別因素，令 x3為指標變數 x3=1 為男，x3=0 為女，則模式為
一般分類型資料若有 2k 類則以 k 個指標變數分析。例：以 (x3, x4) = (0,0)為第一季，(0, 1)為第二季，(1, 0)為第三季，(1, 1)為第四季，即以 2 個指標變數代表四季。

Score vs. GPA散佈圖(by Sex)

含指標變數之迴歸分析

含指標變數之迴歸方程式迴歸方程式 Score = -9.7+23.1GPA+17.4Sex 男, sex=1,

含指標變數之迴歸殘差圖

含指標變數之複迴歸分析

含指標變數之複迴歸殘差圖

多項式迴歸模式迴歸殘差圖顯示，殘差項仍為 x2的(二次)函數，故宜在模式上加入項，即一般多項式迴歸，則視需要加入 p 次項，模式為

多項式迴歸分析

多項式迴歸殘差圖

含指標變數之多項式迴歸分析

含指標變數多項式迴歸殘差圖

迴歸模式的選擇模式一：複迴歸模式二：含指標變數複迴歸模式三：多項式迴歸模式四：含指標變數多項式迴歸

迴歸模式的比較

迴歸理論的應用案例兩迴歸線是否相等

共線性診斷兩迴歸預測因子具高度相關時，可能會對迴歸模式有重大的影響。一般稱為共線性(multi-collinearity)問題。
共線性問題常用變異膨脹因子(variance inflation factor, 簡記為 VIF)的方法來偵測。

變異膨脹因子(VIF) 迴歸模式各變數標準化後的新未知參數為 b*k 及 s *2。定義新迴歸係數 b*k 的最小平方估計b*k的變異數為 s 2(b*k) = s *2(VIF)k，其中(VIF)k就稱為 b*k 的變異膨脹因子。應用上，(1 - R2k)-1 是(VIF)k的估計，其中 R2k 為Xk 對其他迴歸因子的複判別係數。最大的 (VIF)k 或是 (VIF)k 的平均數都是判斷共線性嚴重性的指標。一般而言， (VIF)k大於10表示會嚴重影響。

變異數分析迴歸分析因素分析區別分析集區分析

Similar presentations

Presentation on theme: "變異數分析迴歸分析因素分析區別分析集區分析"— Presentation transcript:

Similar presentations

About project

Feedback

Log in

Auth with social network:

變異數分析 迴歸分析 因素分析 區別分析 集區分析

Similar presentations

Presentation on theme: "變異數分析 迴歸分析 因素分析 區別分析 集區分析"— Presentation transcript:

Similar presentations

About project

Feedback

變異數分析迴歸分析因素分析區別分析集區分析

Presentation on theme: "變異數分析迴歸分析因素分析區別分析集區分析"— Presentation transcript: