Model building Variable choice Residual analysis Form of model

Slides:



Advertisements
Similar presentations
McGraw-Hill/Irwin © 2003 The McGraw-Hill Companies, Inc.,All Rights Reserved. 肆 資料分析與表達.
Advertisements

布林代數的應用--- 全及項(最小項)和全或項(最大項)展開式
第七章 抽樣與抽樣分配 蒐集統計資料最常見的方式是抽查。這 牽涉到兩個問題: 抽出的樣本是否具有代表性?是否能反應出母體的特徵?
Section 1.2 Describing Distributions with Numbers 用數字描述分配.
Advanced Chemical Engineering Thermodynamics
社研法助教課, 2007/04/11 如何閱讀 SPSS 圖表 (迴歸分析篇) By 黃昱珽. 小考題目 大華用 SPSS 得到以下的資料: (圖表見下面) 說明 : BABYMORT = 嬰兒死亡率, GDP_CAP = 一國國民生產毛額, LIT_FEMA = 女性識字率。 資料來源 : 聯合國,
1.1 線性方程式系統簡介 1.2 高斯消去法與高斯-喬登消去法 1.3 線性方程式系統的應用(-Skip-)
McGraw-Hill/Irwin © 2003 The McGraw-Hill Companies, Inc.,All Rights Reserved. 參 實驗法.
1 政治大學財政所與東亞所選修 -- 應用計量分析 -- 中國財政研究 黃智聰 政治大學財政所與東亞所選修 課程名稱:應用計量分析 -- 中國財政研究 授課老師:黃智聰 授課內容: 簡單線性迴歸模型: 共線性與虛擬變數 參考書目: Hill, C. R., W. E. Griffiths, and G.
亂數產生器安全性評估 之統計測試 SEC HW7 姓名:翁玉芬 學號:
第四章 評價股票選擇權的數值方法 蒙地卡羅模擬與二項式模型 財務工程 呂瑞秋著.
Stat_chi21 類別資料 (Categorical data) 一種質性資料, 其觀察值可歸類於數個不相交的項目內, 例 : 性別, 滿意度, …, 一般以各項的統計次數表現. 分析此種資料,通常用卡方檢定 類別資料分析 卡方檢定 卡方檢定基本理論 一個含有 k 項的試驗,設 p i.
©Ming-chi Chen 社會統計 Page.1 社會統計 第十講 相關與共變. ©Ming-chi Chen 社會統計 Page.2 Covariance, 共變量 當 X, Y 兩隨機變數不互為獨立時,表示 兩者間有關連。其關連的形式有很多種, 最常見的關連為線性的共變關係。 隨機變數 X,Y.
消費者物價指數反映生活成本。當消費者物價指數上升時,一般家庭需要花費更多的金錢才能維持相同的生活水準。經濟學家用物價膨脹(inflation)來描述一般物價持續上升的現象,而物價膨脹率(inflation rate)為物價水準的變動百分比。
Section 2.3 Least-Squares Regression 最小平方迴歸
STAT0_sampling Random Sampling  母體: Finite population & Infinity population  由一大小為 N 的有限母體中抽出一樣本數為 n 的樣 本,若每一樣本被抽出的機率是一樣的,這樣本稱 為隨機樣本 (random sample)
第 4 章 迴歸的同步推論與其他主題.
1 政大公企中心產業人才投資課程 -- 企業決策分析方法 -- 黃智聰 政大公企中心產業人才投資課程 課程名稱:企業決策分析方法 授課老師:黃智聰 授課內容:利用分公司之追蹤資料進行企業決策分析 參考書目: Hill, C. R., W. E. Griffiths, and G. G. Judge,
1. 假設以下的敘述為一未提供 “ 捷徑計算 ” 能力的程式段,試用程 式設計的技巧,使此敘述經此改 寫的動作後,具有與 “ 捷徑計算 ” 之 處理方法相同之處理模式。 if and then E1 else E2 endif.
STAT0_corr1 二變數的相關性  變數之間的關係是統計研究上的一大目標  討論二分類變數的相關性,以列聯表來表示  討論二連續隨機變數時,可以作 x-y 散佈圖觀察它 們的關係強度  以相關係數來代表二者關係的強度.
Section 2.2 Correlation 相關係數. 散佈圖 1 散佈圖 2 散佈圖的盲點 兩座標軸的刻度不同,散佈圖的外觀呈 現的相聯性強度,會有不同的感受。 散佈圖 2 相聯性看起來比散佈圖 1 來得強。 以統計數字相關係數做為客觀標準。
McGraw-Hill/Irwin © 2003 The McGraw-Hill Companies, Inc.,All Rights Reserved. 肆 資料分析與表達.
CH22 可靠性加速測試方法 目的 基本假設 加速試驗模式 Inverse Power Model
Department of Air-conditioning and Refrigeration Engineering/ National Taipei University of Technology 模糊控制設計使用 MATLAB 李達生.
1 政治大學東亞所選修 -- 計量分析與中國大陸研究黃智聰 政治大學東亞所選修 課程名稱:計量分析與中國大陸研究 (量化分析) 授課老師:黃智聰 授課內容:時間序列與橫斷面資料的共用 參考書目: Hill, C. R., W. E. Griffiths, and G. G. Judge, (2001),
1 Part IC. Descriptive Statistics Multivariate Statistics ( 多變量統計 ) Focus: Multiple Regression ( 多元迴歸、複迴歸 ) Spring 2007.
2009fallStat_samplec.i.1 Chap10 Sampling distribution (review) 樣本必須是隨機樣本 (random sample) ,才能代表母體 Sample mean 是一隨機變數,隨著每一次抽出來的 樣本值不同,它的值也不同,但會有規律性 為了要知道估計的精確性,必需要知道樣本平均數.
信度.
© The McGraw-Hill Companies, Inc., 2008 第 6 章 製造流程的選擇與設計.
1 政治大學公企中心必修課 -- 社會科學研究方法(量化分析) -- 黃智聰 政治大學公企中心必修課 課程名稱:社會科學研究方法(量化分析) 授課老師:黃智聰 授課內容: 簡單線性迴歸模型: 共線性與虛擬變數 參考書目: Hill, C. R., W. E. Griffiths, and G. G.
1 開南大學公管所與國企所合開選修課 -- 量化分析與應用 -- 黃智聰 開南大學公管所與國企所合開選修課 課程名稱:量化分析與應用 授課老師:黃智聰 授課內容: 簡單線性迴歸模型: 共線性與虛擬變數 參考書目: Hill, C. R., W. E. Griffiths, and G. G. Judge,
:Problem D: Bit-wise Sequence ★★★☆☆ 題組: Problem Set Archive with Online Judge 題號: 10232: Problem D: Bit-wise Sequence 解題者:李濟宇 解題日期: 2006 年 4 月 16.
微帶線濾波器 國立聯合大學 電機工程學系 主講人 : 徐振剛 何奕叡. 目 錄  設計程序理論說明  1. 微波諧振電路  2. 傳輸線特性  3.Chebyshev filter & Butterworth filter  4. 傳輸線殘段設計濾波器和步階阻抗式低通濾波器  設計模型.
第三部分:研究設計 ( 二): 研究工具的信效度 與研究效度 (第九章之第 306 頁 -308 頁;第四章)
Structural Equation Modeling Chapter 3 SEM 與理論是密友,不管過程是 五步或七步,適配最重要 SEM 理論與過程.
Chapter 8 消費可能性 偏好 選擇 Part 3 家庭的選擇
1 政大公企中心產業人才投資課程 -- 企業決策分析方法 -- 黃智聰 政大公企中心產業人才投資課程 課程名稱:企業決策分析方法 授課老師:黃智聰 授課內容: 質化因素在企業決策分析之重要性 參考書目: Hill, C. R., W. E. Griffiths, and G. G. Judge, (2001),
公司加入市場的決定. 定義  平均成本 = 總成本 ÷ 生產數量 = 每一單位產量所耗的成本  平均固定成本 = 總固定成本 ÷ 生產數量  平均變動成本 = 總變動成本 ÷ 生產數量.
政治大學公企中心必修課-- 社會科學研究方法(量化分析)--黃智聰
Structural Equation Modeling Chapter 1 模式存在與否之需,見仁見智; 但是,人無模式,就無決策 SEM 概論.
觀測量的權 權的觀念與計算.
1 政治大學國務院國安碩專班選修課 -- 社會科學研究方法(量化分析) -- 黃智聰 政治大學國務院國安碩專班選修課 課程名稱:社會科學研究方法(量化分析) 授課老師:黃智聰 授課內容: 簡單線性迴歸模型: 共線性與虛擬變數 參考書目: Hill, C. R., W. E. Griffiths, and.
變異數分析 迴歸分析 因素分析 區別分析 集區分析
Section 4.2 Probability Models 機率模式. 由實驗看機率 實驗前先列出所有可能的實驗結果。 – 擲銅板:正面或反面。 – 擲骰子: 1~6 點。 – 擲骰子兩顆: (1,1),(1,2),(1,3),… 等 36 種。 決定每一個可能的實驗結果發生機率。 – 實驗後所有的實驗結果整理得到。
演算法 8-1 最大數及最小數找法 8-2 排序 8-3 二元搜尋法.
Chapter 3 Entropy : An Additional Balance Equation
介紹不同坐標系之間的轉換 以LS平差方式求解坐標轉換參數
Structural Equation Modeling Chapter 6 CFA 根據每個因素有多重指標,以減少 測量誤差並可建立問卷的構念效度 驗證性因素分析.
Chapter 10 m-way 搜尋樹與B-Tree
描述統計 描述統計(Descriptive Statistics)-將蒐集到的資料加以整理和記錄,並以數字和統計圖表的方式來分析及解釋資料所具有的特性. 基本統計值(平均數,中位數,標準差,變異量….) 相關性測量(卡方,相關係數,迴歸…)
Unit 3 : 變異數分析 --ANOVA 3.1 範例說明 行銷研究方面, One-Way ANOVA 可 用以研擬市場區隔及目標選擇策略。 教育研究方面,此一模式可用以評估 教師之教學績效。 農業研究方面,此一模式則可用以挑 選使玉米收穫量極大化的肥料。
1 開南大學公管所與國企所合開選修課 -- 量化分析與應用 -- 黃智聰 開南大學公管所與國企所合開選修課 課程名稱:量化分析與應用 授課老師:黃智聰 授課內容: 簡單線性迴歸模型:非線性模型、 異質變異、自我相關 參考書目: Hill, C. R., W. E. Griffiths, and G.
Probability Distribution 機率分配 汪群超 12/12. 目的:產生具均等分配的數值 (Data) ,並以 『直方圖』的功能計算出數值在不同範圍內出現 的頻率,及繪製數值的分配圖,以反應出該 機率分配的特性。
1/17 A Study on Separation between Acoustic Models and Its Application Author : Yu Tsao, Jinyu Li, Chin-Hui Lee Professor : 陳嘉平 Reporter : 許峰閤.
1 © 2011 台灣培生教育出版 (Pearson Education Taiwan). 2 學習目標 1. 當面對可預測的變異性時,同步管理並改善供應鏈 中的供給。 2. 當面對可預測的變異性時,同步管理並改善供應鏈 中的需求。 3. 當面對可預測的變異性時,使用總體規劃將利潤最 大化。
第十二章 變異數分析 12.1 單因子變異數分析 1-way ANOVA Subject : 比較三組以上的母體平均數 k 組資料,母體平均數為 μ 1, …, μ i, …, μ k Data : k 組資料,樣本數為 n 1,…, n k. x ij --- 第 i 組的第 j 個觀察值 N =
2005/7 Linear system-1 The Linear Equation System and Eliminations.
Quan_model1 在建立迴歸模式時,需要先選出對因變數有影響 的一些自變數作為解釋變數 (explanatory var.) , 其次,要選擇一適當的數學式作為模式 本章主題: 共線性現象 選擇適當的解釋變數 利用虛擬變數建立模式 第五章 建立迴歸模式.
冷凍空調自動控制 - 系統性能分析 李達生. Focusing here … 概論 自動控制理論發展 自控系統設計實例 Laplace Transform 冷凍空調自動控制 控制系統範例 控制元件作動原理 控制系統除錯 自動控制理論 系統穩定度分析 系統性能分析 PID Controller 自動控制實務.
連續隨機變數 連續變數:時間、分數、重量、……
Multi Regression 1 多元迴歸分析 【研究問題】 學生性別、數學焦慮、數學態度、數學投入動機 是否可有效預測學生的數學成就?其預測力如何? 學生性別、數學焦慮、數學態度、數學投入動機 是否可有效預測學生的數學成就?其預測力如何? 【方法分析】 研究問題中,由於預測變項包括「學生性別」、
單因子變異數分析 多重比較 雙因子變異數分析
Regression 相關 –Cross table –Bivariate –Contingency Cofficient –Rank Correlation 簡單迴歸 多元迴歸.
: Finding Paths in Grid ★★★★☆ 題組: Contest Archive with Online Judge 題號: 11486: Finding Paths in Grid 解題者:李重儀 解題日期: 2008 年 10 月 14 日 題意:給一個 7 個 column.
財務管理概論 劉亞秋‧薛立言 合著 (東華書局, 2007)
幼兒行為觀察與記錄 第八章 事件取樣法.
McGraw-Hill/Irwin © 2003 The McGraw-Hill Companies, Inc.,All Rights Reserved. 肆 資料分析與表達.
Presentation transcript:

Model building Variable choice Residual analysis Form of model Build a model with qualitative variables

一、Variable Choice 檢定 Xk 是否可自模式中剔除的方法 方法一 : t-test 方法二 : Partial F-test H0: βk=0 ( 其它βi≠0) , H1: βk≠0. 方法一 : t-test 參考報表 mreg_fat 方法二 : Partial F-test 若檢定結果為不顯著,意指當模式含有其它 Xi 時,Xk對 Y 的影響不顯著 註 : F-test 與 t-test 為等價的方法 .

Pearson Correlation Coefficients, N = 20 Multicollinearity 當預測變數間高度相關時,對迴歸式的估計可能造成誤判,則稱此現象為多元共線性現象。 例:尋求解釋人體脂肪成因之迴歸式 Correlation Matrix : Pearson Correlation Coefficients, N = 20 X1 X2 X3 Y X1 表皮厚度 1.00000 0.92384 0.45778 0.84327 X2 大腿周長 0.08467 0.87809 X3 上臂粗 0.14244 Y 脂肪量 注意: X1 與 X2 高度相關

各模式的係數及顯著性 注意:1. 加入X1至 X2 模式,顯著 p值 明顯改變 表皮厚度 大腿周長 上臂粗 注意:1. 加入X1至 X2 模式,顯著 p值 明顯改變 2. 加入X1至 (X2 ,X3) 模式,係數與 p值有明顯改變 3. 加入X2至 (X1, X3) 模式,係數與 p值有明顯改變

選擇合適的預測變數,才能得到合適的迴歸式 多元共線性存在的影響 : 1. 增加或刪除一預測變數,原係數將有明顯改變。 2. 導致各係數不顯著。 3. 單一係數對反應變數的意義不正確。 4. 係數估計之標準誤較大。 選擇合適的預測變數,才能得到合適的迴歸式

選擇預測變數 目的:假設有 P 個與Y相關的潛在預測變數,希望由其中選取最少量個預測變數,得到一足以解釋 Y 變量的迴歸式 評估迴歸模式的測值 : Ra2, Cp, AIC, SBC, PRESS。 AIC, SBC criterion AICp = n ln(SSEp) – n ln(n) + 2p SBCp = n ln(SSEp) – n ln(n) + ln(n) p ﹡ AIC: Akaike’s information criterion SBC: Schwarz infromation criterion AIC, SBC 常用於時間序列建模,值較低者,模式預測能力較佳

逐步迴歸 (Stepwise regession) 自動搜尋程序: 前進選擇法,後退選擇法,逐步迴歸法 (stepwise regression) 逐步迴歸 (Stepwise regession) 依據partial F-test加入潛在預測變數中對 Y 有顯著影響者,在加入的同時,以 partial F-test 剔除已加入者對 Y 影響不顯著者;直到模式中每一預測變數對 Y 的邊際影響顯著,模式外每一預測變數對 Y邊際影響不顯著為止。 前進選擇法只考慮增加X變數,不考慮剔除X變數。 後退選擇法只考慮剔除X變數,不考慮增加X變數。

Summary of Stepwise Procedure for Dependent Variable Y SAS/EG 使用:在 model 項中的 model selection 鉤選屬意的方法,詳細步驟參考SAS報表 out,以下為 stepwise regression 步驟之一範例。 Summary of Stepwise Procedure for Dependent Variable Y Variable Number Partial Model Step Entered Removed In R**2 R**2 C(p) F Prob>F 1 X4 1 0.5274 0.5274 787.9471 58.0214 0.0001 2 X3 2 0.1591 0.6865 507.8069 25.8888 0.0001 3 X2 3 0.1964 0.8829 161.6520 83.8313 0.0001 4 X1 4 0.0895 0.9724 5.0000 158.652 0.0001 5 X4 3 0.0000 0.9723 3.0390 0.039 0.8442

此模式含有四項假設 : 線性、同變異性、獨立性、及常態性。 由差殘可檢視模式是否違背上列假設 檢視方法分為圖形觀察及統計檢定。 二、Residual analysis 以考慮的模式做推論之前,應先檢查模式對資料的適當性,通常以殘差為工具,稱為殘差分析。 模式 Yi = β0 + β1 Xi + εi , εi ~ NID( 0, σ2) 此模式含有四項假設 : 線性、同變異性、獨立性、及常態性。 由差殘可檢視模式是否違背上列假設 檢視方法分為圖形觀察及統計檢定。

殘差圖 以殘差或 t 化殘差為縱軸的分散圖,或分佈圖稱為的殘差圖。 殘差圖種類 : t 化殘差的順序圖 , 盒形圖 , 及常態機率圖 。 (student residual,以 MSE 為標準差 , 將 ei 標準化得到的值) 殘差圖種類 : t 化殘差的順序圖 , 盒形圖 , 及常態機率圖 。 對Y、對 X的殘差圖。 2 -2 典型 t 化殘差圖:

社區相館例之殘差常態機率圖 :

殘差圖 :

殘差圖分析 偏離情況 殘差圖形狀 範例 1. 非直線模式 X殘差圖呈曲線 2. 變異數非固定值 X殘差圖呈梯形 偏離情況 殘差圖形狀 範例 1. 非直線模式 X殘差圖呈曲線 fig1 2. 變異數非固定值 X殘差圖呈梯形 fig2 3. 離群值存在 X殘差圖, 及殘差盒 形圖出現離群值 fig3 4. 誤差項的不獨立 殘差順序圖分群呈現 (如:時間序列資料) fig4 5. 誤差項非常態性 殘差的常態機率圖 偏離直線

fig1 fig2

fig3 fig4

【例】 X:產品年銷售量,Y:某公司的年銷售量 X-Y 分散圖: 使用迴歸來分析時間序列資料時,誤差項可能依時間先後有相關性,此稱為自相關現象 (autocorrelation),此種資料違背獨立性的情況,會表現在殘差圖上,需修正模式。(使用chap 6模式) 【例】 X:產品年銷售量,Y:某公司的年銷售量 X-Y 分散圖: R2=0.999

殘差圖 (殘差明顯違背獨立性假設)

資料的自相關現象對迴歸分析結果產生下列現象: 係數的估計量仍為不偏,但無法達到最小變異數。 MSE低估真實的誤差變異數。 s.e.{bk}低估係數之標準差。 t-test,F-test,及confidence interval 無法再直接應用。

三、Form of model 一些特殊曲線模式 多項式迴歸 ; 如: E(Y) =β0+β1X1+ β2 X12。 轉換變數; 如: E(log(Y)) =β0+β1X1+β2 X2 。 含交互作用項; 如: E(Y) =β0+β1X1+β2 X2 + β3X 1 X2 。 二次完全迴歸式; 如: E(Y)=β0+β1X1+ β2 X12 +β3 X2 + β4 X22 + β5X 1 X2 質性預測變數 ; 如: E(Y) =β0+β1X1+β2 X2,X1 = 0 或 1。

時間序列模式 1、Linear Trend model: Yt =β0+β1 t+ εt 2、Quadratic Trend model: Yt =β0+β1 t + β2 t2 + εt 3、Exponential model: 可利用ln轉換為線性 (將資料 Y, t 轉換為 ln(Y), ln(t),再執行迴歸分析) 4、S-Shaped Model logistic function

例:The data below gives per capita consumption of malt beverages in the United States in gallons over the period 1950 - 1980. Fit a polynomial model for the data. Which one is a better fit? Year 1950 1951 …….. 1980 Consump. 17.2 16.8 23.2

先後執行直線,二次,三次及四次迴歸式 直線,二次,三次的殘差圖: 四次的參數估計及顯著性檢定: Parameter Estimates Variable Label DF Parameter Estimate Standard Error t Value Pr > |t| Type I SS Intercept 1 17.4 0.308 56.53 <.0001 9743 time 時間 -0.157 0.129 -1.22 0.2339 136 tsq 平方 -0.0338 0.016 -2.11 0.0448 67.1 tcu 三次方 0.00327 0.000747 4.37 0.0002 2.40 t4 四次方 -0.00005882 0.00001159 -5.07 2.01

直線,二次,三次及四次迴歸的判定係數 多項式 一次 二次 三次 四次 R2 .6496 .9693 .9807 .9903 Ra2 .6376 .9671 .9786 .9888 以二次式預估時,對 t 的殘差圖,明顯可見仍殘留曲線關係。若以四次式預估,得對一次的F檢定是不顯著的,且三次式的殘差圖並無曲線趨勢,由二次到四次,R2的增加率都不明顯,故以三次式預估年需求量是較適當的。

迴歸式為: Y =18.5 – 0.735X + 0.0445 X2 – 0.000497 X3 , R2 = 0.9807 配適圖: Parameter Estimates Variable Label DF Parameter Estimate Standard Error t Value Pr > |t| Intercept 1 18.5 0.315 58.67 <.0001 time 時間 -0.735 0.0840 -8.76 tsq 平方 0.0445 0.00605 7.36 tcu 三次方 -0.000497 0.000124 -4.00 0.0004 迴歸式為: Y =18.5 – 0.735X + 0.0445 X2 – 0.000497 X3 , R2 = 0.9807 配適圖:

四、Qualitative variable model 數量變數 Quantitative :所得、年齡、溫度、資產、…等。 質性變數 Qualitative :性別、購買狀態、職業分類、…等。 在迴歸分析中,必需將質性變數量化,以0或1的指標變數表示之。 註: 指標變數( Indicator variable )是以 0 或 1 識別一質性變數的各組,又稱為虛變數( Dummy variable) 一個具 c 項分組的質性變數可用 c-1 個指標變數表示,每一 指標變數均取值 0 或 1 。

季別時間序列應用 例 : 季別銷貨量 (Y)對季別廣告支出 (X1) 建立一迴歸模式。 需要三個指標變數,定義 : X2 = 1,若為第一季,X2 = 0,其他。 X3 = 1,若為第二季,X3 = 0,其他。 X4 = 1,若為第三季,X4 = 0,其他。

模式為四平行線,β1為斜率,代表廣告的影響,以下的基準線是第四季: X2 X3 X5 第一季 1 第二季 第三季 第四季 模式為四平行線,β1為斜率,代表廣告的影響,以下的基準線是第四季: 相對於第四季,β2為第一季的影響,β3為第二季的影響,β4為第三季的影響。