Presentation is loading. Please wait.

Presentation is loading. Please wait.

Quan_model1 在建立迴歸模式時,需要先選出對因變數有影響 的一些自變數作為解釋變數 (explanatory var.) , 其次,要選擇一適當的數學式作為模式 本章主題: 共線性現象 選擇適當的解釋變數 利用虛擬變數建立模式 第五章 建立迴歸模式.

Similar presentations


Presentation on theme: "Quan_model1 在建立迴歸模式時,需要先選出對因變數有影響 的一些自變數作為解釋變數 (explanatory var.) , 其次,要選擇一適當的數學式作為模式 本章主題: 共線性現象 選擇適當的解釋變數 利用虛擬變數建立模式 第五章 建立迴歸模式."— Presentation transcript:

1

2 Quan_model1 在建立迴歸模式時,需要先選出對因變數有影響 的一些自變數作為解釋變數 (explanatory var.) , 其次,要選擇一適當的數學式作為模式 本章主題: 共線性現象 選擇適當的解釋變數 利用虛擬變數建立模式 第五章 建立迴歸模式

3 Quan_model2 在建立迴歸模式時,需要先選出對因變數有影響的一些 自變數作為解釋變數 (explanatory var.). 如何選出適當數量的自變數建立模式? 愈多的自變數,會得到愈高的 R 2 值,模式的解釋度愈 高,但並不代表模式愈佳 因為,若自變數間有高度相關的時候,可能產生共線 性( multicollineariity) 如何發現共線性?又如何修飾迴歸模式? 5.1 共線性 (multicollinearity)

4 Quan_model3 Pearson Correlation Coefficients, N = 20 X1X2X3Y X1 表皮厚度 1.000000.923840.457780.84327 X2 大腿周長 0.923841.000000.084670.87809 X3 上臂粗 0.457780.084671.000000.14244 Y 脂肪量 0.843270.878090.142441.00000 例:尋求解釋人體脂肪成因之迴歸式 Correlation Matrix : 注意 : X 1 與 X 2 高度相關 Multicollinearity 當預測變數間高度相關時,對迴歸式的估計可能造成誤判, 則稱此現象為多元共線性現象。

5 Quan_model4 注意: 1. 加入 X 1 至 X 2 模式,顯著 p 值 明顯改變 2. 加入 X 1 至 (X 2,X 3 ) 模式,係數與 p 值有明顯改變 3. 加入 X 2 至 (X 1, X 3 ) 模式,係數與 p 值有明顯改變 4. s.e. 代表估計的誤差 各模式的係數及顯著性 表皮厚度 大腿周長 上臂粗

6 Quan_model5 多元共線性存在的影響 : 1. 增加或刪除一解釋變數,原係數將有明顯改變。 2. 導致各係數不顯著。 3. 單一係數對反應變數的意義不正確。 4. 係數估計之標準誤較大。 選擇合適的解釋變數,才能得到合適的迴歸式

7 Quan_model6 H 0 : β k =0 ( 其它 β i ≠0), H 1 : β k ≠0. 解釋變數顯著性之檢定 檢定 X k 是否可自模式中剔除的方法: 當 p- 值 > 0.05 ,檢定結果為不顯著,意指當模式含有其它 X i 時, X k 對 Y 的影響不顯著 5.2 選擇自變數

8 Quan_model7 目的:假設有 P 個與 Y 相關的潛在自變數,希望由其中選取 最少量個解釋變數,得到一足以解釋 Y 變量的迴歸式 選擇預測變數 對於模式適合度,有一些如判定係數的測值可做為參考 指標 我們可以將所有可能的模式得到的測值拿來做比較,選 出一最適合的 如何決定那些自變數是要放在模式內的? Analysis → Regression → Linear Model → selection method → Adjusted R-square selection ˇ AIC ˇ SBC

9 Quan_model8 AIC, SBC criterion AIC p = n ln(SSE p ) – n ln(n) + 2p SBC p = n ln(SSE p ) – n ln(n) + ln(n) p ﹡ AIC: Akaike’s information criterion SBC: Schwarz infromation criterion AIC, SBC 常用於時間序列建模,值較低者,模式預測能力較佳 評估迴歸模式常用的測值有 : R a 2, Cp, AIC, SBC, PRESS 。

10 Quan_model9 Number in Model Adjusted R-Square R-SquareAICSBCVariables in Model 30.76410.801439.867243.85009skin thigh midarm 20.76100.786239.341742.32891skin midarm 10.75830.771038.708040.69942thigh 20.75190.778140.086043.07321skin thigh 20.74930.775740.295743.28293thigh midarm 10.69500.711143.359045.35045skin 1-.03410.020367.782369.77373midarm 以下為 Adjusted R-square selection ˇ AIC ˇ SBC 步驟之一範例。

11 Quan_model10 逐步迴歸 (Stepwise regession) 依據 partial F-test 加入潛在預測變數中對 Y 有顯著影響者, 在加入的同時,以 partial F-test 剔除已加入者對 Y 影響不顯 著者;直到模式中每一預測變數對 Y 的邊際影響顯著,模式 外每一預測變數對 Y 邊際影響不顯著為止。 我們也可以讓電腦依據自變數的顯著程度自動找出最適合的 迴歸式 自動搜尋程序有:前進選擇法,後退選擇法,逐步迴歸法 (stepwise regression) 前進選擇法由一自變數開始,只考慮增加 X 變數,不考慮剔除 X 變數。 後退選擇法由所有自變數開始,只考慮剔除 X 變數,不考慮增加 X 變數。

12 Quan_model11 Summary of Stepwise Procedure for Dependent Variable Y Variable Number Partial Model Step Entered Removed In R**2 R**2 C(p) F Prob>F 1 X4 1 0.5274 0.5274 787.9471 58.0214 0.0001 2 X3 2 0.1591 0.6865 507.8069 25.8888 0.0001 3 X2 3 0.1964 0.8829 161.6520 83.8313 0.0001 4 X1 4 0.0895 0.9724 5.0000 158.652 0.0001 5 X4 3 0.0000 0.9723 3.0390 0.039 0.8442 以下為 stepwise regression 步驟之一範例。 Analysis → Regression → Linear Model → selection method → stepwise selection

13 Quan_model12 一些特殊曲線模式 多項式迴歸 ; 如 : E(Y) =β 0 +β 1 X 1 + β 2 X 1 2 。 轉換變數 ; 如 : E(log(Y)) =β 0 +β 1 X 1 +β 2 X 2 。 含交互作用項 ; 如 : E(Y) =β 0 +β 1 X 1 +β 2 X 2 + β 3 X 1 X 2 。 二次完全迴歸式 ; 如 : E(Y)=β 0 +β 1 X 1 + β 2 X 1 2 +β 3 X 2 + β 4 X 2 2 + β 5 X 1 X 2 5.3 各類模式 自變數為分類變數的模式 E(Y) =β 0 +β 1 X 1 +β 2 X 2 , X1 = 0 ( 第一類 ) , = 1 ( 第二類 ) 。

14 Quan_model13 1 、 Linear Trend model : Y t =β 0 +β 1 t+ ε t 時間序列模式 ( 以 t 為自變數 ) 3 、 Exponential model : 可利用 ln 轉換為線性 2 、 Quadratic Trend model : Y t =β 0 +β 1 t + β 2 t 2 + ε t ( 將資料 Y, t 轉換為 ln(Y), ln(t) ,再執行迴歸分析 ) 4 、 S-Shaped Model logistic function 利用轉換可為線性模式

15 Quan_model14

16 Quan_model15 例: The data below gives per capita consumption of malt beverages in the United States in gallons over the period 1950 - 1980. Fit a polynomial model for the data. Which one is a better fit? Year19501951……..1980 Consump.17.216.8……..23.2

17 Quan_model16 先後執行直線,二次,三次及四次迴歸式 直線,二次,三次的殘差圖: Parameter Estimates VariableLabel DFDF Parameter Estimate Standard Errort ValuePr > |t|Type I SS Intercept 117.40.30856.53<.00019743 time 時間 1-0.1570.129-1.220.2339136 tsq 平方 1-0.03380.016-2.110.044867.1 tcu 三次方 10.003270.0007474.370.00022.40 t4 四次方 1-0.000058820.00001159-5.07<.00012.01 四次的參數估計及顯著性檢定:

18 Quan_model17 以二次式預估時,對 t 的殘差圖,明顯可見仍殘留曲線關係。 若以四次式預估,得對一次的 F 檢定是不顯著的,且三次式的 殘差圖並無曲線趨勢,由二次到四次, R 2 的增加率都不明顯, 故以三次式預估年需求量是較適當的。 直線,二次,三次及四次迴歸的判定係數 多項式一次二次三次四次 R2R2.6496.9693.9807.9903 Ra2Ra2.6376.9671.9786.9888

19 Quan_model18 Parameter Estimates VariableLabel DFDF Parameter Estimate Standard Errort ValuePr > |t| Intercept 118.50.31558.67<.0001 time 時間 1-0.7350.0840-8.76<.0001 tsq 平方 10.04450.006057.36<.0001 tcu 三次方 1-0.0004970.000124-4.000.0004 迴歸式為: Y =18.5 – 0.735X + 0.0445 X 2 – 0.000497 X 3 , R 2 = 0.9807 配適圖:

20 Quan_model19 在迴歸分析中,自變數必需是一數量變數,遇到質性變數 的解釋變數時,必需將它們數量化,以 0 或 1 的指標變數表 示之。 註 : 指標變數 ( Indicator variable ) 是以 0 或 1 識別一質性變數的各組,又 稱為虛擬變數 ( Dummy variable) 數量變數 Quantitative :所得、年齡、溫度、資產、 … 等。 質性變數 Qualitative :性別、購買狀態、職業分類、 … 等,屬於分類變數。 重要原則:一個具 c 項分組的質性變數可用 c-1 個指標變數表示, 每一指標變數均取值 0 或 1 。 5.4 虛擬變數的應用

21 Quan_model20 例:檢定市場模型是否有結構性改變,資料如下圖 1997: R t = α 1 +β 1 RM t +ε t 1998: R t = α 2 +β 2 RM t +ε t 欲檢定二直線的截距與係數是否相同

22 Quan_model21 建立一模式包含二直線: R t = α 1 +β 1 RM t +β 2 D+β 3 D RM t +ε t where D=0 for 1997, D=1 for 1998 D 是一虛擬變數 檢定 H 0 : β 3 =0 ,就是檢定二線平行 檢定 H 0 : β 2 =0 ,就是檢定二線截距相同 執行 linear regression 之前先插入變數 D 及變數 DRM

23 Quan_model22 Parameter Estimates VariableLabelDFParamete r Estimate Standar d Error t ValuePr > |t| Intercept 1-10.363893.53269-2.930.0060 RM 10.408150.082224.96<.0001 D 1-0.735284.59232-0.160.8737 DRM 1-0.137130.08951-1.530.1347 含解釋變數 RM , D 及 DRM 之結果 含解釋變數 RM ,及 DRM 之結果 Parameter Estimates VariableLabelDFParameter Estimate Standar d Error t ValuePr > |t| Intercept 1-10.799002.22552-4.85<.0001 RM 10.417810.055087.59<.0001 DRM 1-0.150240.03577-4.200.0002 結論: 1997 與 1998 的市場模型有顯著的結構性改變,最適迴歸式如下:

24 Quan_model23 季別時間序列與虛擬變數 如果我們要分析的資料是季節性的資料,通常 季節也是一影響因素,應將季節視為一類別變 數,利用虛擬變數來建模 如此可以檢定季節性效果,如:討論季節的不 同,是否會對股票市場產生不同的報酬。 首先,我們把一年分成四季,分別計算出每一 季的平均季報酬,再利用虛擬變數的方式,檢 定哪一季的季報酬率有明顯較高或哪一季的季 報酬率較低。

25 Quan_model24 檢定第一季指數報酬是否異於其他三季 – 虛無假說: H 0 : E(R t |t 第一季 ) = E(R t |t 非第一季 ) – 假設其它三季的平均報酬相同, 迴歸模型如下 : – 第一季: E(R t ) =α+β, 其它季: E(R t ) =α, – 所以 β 是衡量前三季的季平均報酬與第一季的差異; 因此檢定 β 是否異於 0 ,便可知第一季的指數報酬是否 異於其它三季。

26 Quan_model25 分析結果 台股季別報酬率資料圖: Parameter Estimates VariableLabelDFParamete r Estimate Standard Error t ValuePr > |t| Intercept 1-0.009490.03352-0.280.7786 DD10.113700.067041.700.0981 截距項的部分為四 季的平均報酬。

27 Quan_model26 對四季報酬率 (R t ) 的迴歸模式 需要三個指標變數 ( 或虛擬變數 ) ,定義 : S2 = 1 ,若為第二季, S2 = 0 ,非第一季 S3 = 1 ,若為第三季, S3 = 0 ,非第二季 S4 = 1 ,若為第四季, S4 = 0 ,非第四季 模式 : R t = α+β 1 S2 t +β 2 S3 t +β 3 S4 t +ε t 若為第二季, E(R t )= α+β 1 若為第三季, E(R t )= α+β 2 若為第四季, E(R t )= α+β 3 若為第一季, E(R t )= α

28 Quan_model27 此模式是以第一季為基準, β 1 為第二季的效力, β 2 為第三季的效力, β 3 為第四季的效力。若 β 的 估計值為正,它的報酬率會比第一季高,若 β 的 估計值為負,它的報酬率會比第一季低。 檢定 β t =0 ,若為顯著,則第 t 季與第一季有顯著 差異。 檢定 β i =β j ,若為顯著,則第 i 季與第 j 季有顯著 差異。

29 Quan_model28 Parameter Estimates Parameter Standard Variable DF Estimate Error t Value Pr > |t| Intercept 1 0.08249 0.07534 1.09 0.2818 s2 1 -0.12872 0.10655 -1.21 0.2359 s3 1 -0.18199 0.10655 -1.71 0.0973 s4 1 0.04419 0.10655 0.41 0.6811 Test 1 Results for Dependent Variable RETURN Mean Source DF Square F Value Pr > F Numerator 3 0.10165 1.99 0.1353 Denominator 32 0.05109 四季報酬率無顯 著差異

30 Quan_model29 例 : 季別銷貨量 (Y) 對季別廣告支出 (X 1 ) 建立一迴歸模 式。 需要三個指標變數,定義 : X 2 = 1 ,若為第一季, X 2 = 0 ,其他。 X 3 = 1 ,若為第二季, X 3 = 0 ,其他。 X 4 = 1 ,若為第三季, X 4 = 0 ,其他。 含自變數的季資料迴歸模式

31 Quan_model30 第三節 星期效應分析 前面我們比較四季的報酬是否有明顯的 不同,除了以四季來比較之外,我們還 可以檢定股市是否有星期效應 也就是檢定一週內是否有某天的報酬較 高或較低 一般理論認為,通常星期一的報酬會低 於其他天的報酬。造成此現象的原因, 可能是因為公司或政府會選一週內最後 交易日之收盤後發布利空消息。

32 Quan_model31 – 虛無假說如下: – 迴歸模型如下: – 虛擬變數 D t ={0 當報酬為星期一時 {1 當報酬為其他時 因此

33 Quan_model32 Dependent Variable: return Analysis of Variance Sum of Mean Source DF Squares Square F Value Pr > F Model 1 0.00070857 0.00070857 1.87 0.1717 Error 2607 0.98842 0.00037914 Corrected Total 2608 0.98913 Root MSE 0.01947 R-Square 0.0007 Dependent Mean 0.00005291 Adj R-Sq 0.0003 Coeff Var 36798 Parameter Estimates Parameter Standard Variable DF Estimate Error t Value Pr > |t| Intercept 1 0.00028538 0.00041742 0.68 0.4942 w 1 -0.00140 0.00102 -1.37 0.1717 星期一的報酬率與 其它並無顯著差異

34 Quan_model33 – 上列的參數估計,截距項的參數是週二到週 五的平均報酬, W 的參數則是週一和其他報 酬的差異,即週一的平均報酬為 0.0003- 0.0014=-0.0011 ,而 P 值為 0.1717 表示檢定 的結果是週一的報酬沒有明顯較低。

35 Quan_model34 – 從敘述統計的觀點來看,星期五的平均報酬 較高,平均而言,一星期中後三日的平均報 酬為正,前三日的平均報酬為負。 – 接下來,利用逐一比較的結果檢定之,結果 為接受星期五、星期四之平均報酬相同的假 設,同時過去九年的星期五之平均報酬明顯 高於星期二的平均報酬。


Download ppt "Quan_model1 在建立迴歸模式時,需要先選出對因變數有影響 的一些自變數作為解釋變數 (explanatory var.) , 其次,要選擇一適當的數學式作為模式 本章主題: 共線性現象 選擇適當的解釋變數 利用虛擬變數建立模式 第五章 建立迴歸模式."

Similar presentations


Ads by Google