變異數分析迴歸分析因素分析區別分析集區分析

Slides:

Advertisements

Similar presentations

McGraw-Hill/Irwin © 2003 The McGraw-Hill Companies, Inc.,All Rights Reserved. 肆資料分析與表達.

Advertisements

1 Chemical and Engineering Thermodynamics Chapter 2 Conservation of mass and energy Sandler.

布林代數的應用--- 全及項(最小項)和全或項(最大項)展開式

第七章抽樣與抽樣分配蒐集統計資料最常見的方式是抽查。這牽涉到兩個問題：抽出的樣本是否具有代表性?是否能反應出母體的特徵?

Section 1.2 Describing Distributions with Numbers 用數字描述分配.

Advanced Chemical Engineering Thermodynamics

指導教授：陳淑媛學生：李宗叡李卿輔.  利用下列三種方法 (Edge Detection 、 Local Binary Pattern 、 Structured Local Edge Pattern) 來判斷是否為場景變換，以方便使用者來找出所要的片段。

社研法助教課， 2007/04/11 如何閱讀 SPSS 圖表（迴歸分析篇） By 黃昱珽. 小考題目大華用 SPSS 得到以下的資料：（圖表見下面）說明 : BABYMORT = 嬰兒死亡率， GDP_CAP = 一國國民生產毛額， LIT_FEMA = 女性識字率。資料來源 : 聯合國，

1.1 線性方程式系統簡介 1.2 高斯消去法與高斯-喬登消去法 1.3 線性方程式系統的應用(-Skip-)

McGraw-Hill/Irwin © 2003 The McGraw-Hill Companies, Inc.,All Rights Reserved. 參實驗法.

1 Simple Regression ( 簡單迴歸分析 ) Social Research Methods 2109 & 6507 Spring, 2006 March 8, 9, 13, 2006.

1 政治大學財政所與東亞所選修 -- 應用計量分析 -- 中國財政研究黃智聰政治大學財政所與東亞所選修課程名稱：應用計量分析 -- 中國財政研究授課老師：黃智聰授課內容：簡單線性迴歸模型：共線性與虛擬變數參考書目： Hill, C. R., W. E. Griffiths, and G.

亂數產生器安全性評估之統計測試 SEC HW7 姓名：翁玉芬學號：

Stat_chi21 類別資料 (Categorical data) 一種質性資料, 其觀察值可歸類於數個不相交的項目內，例 : 性別, 滿意度, …, 一般以各項的統計次數表現. 分析此種資料，通常用卡方檢定類別資料分析卡方檢定卡方檢定基本理論一個含有 k 項的試驗，設 p i.

©Ming-chi Chen 社會統計 Page.1 社會統計第十講相關與共變. ©Ming-chi Chen 社會統計 Page.2 Covariance, 共變量當 X, Y 兩隨機變數不互為獨立時，表示兩者間有關連。其關連的形式有很多種，最常見的關連為線性的共變關係。隨機變數 X,Y.

Review of Chapter 3 - 已學過的 rules( 回顧 )- 朝陽科技大學資訊管理系李麗華教授.

消費者物價指數反映生活成本。當消費者物價指數上升時，一般家庭需要花費更多的金錢才能維持相同的生活水準。經濟學家用物價膨脹（inflation）來描述一般物價持續上升的現象，而物價膨脹率（inflation rate）為物價水準的變動百分比。

Chapter 2 聯立線性方程式與矩陣緒言線性方程式組 (systems of linear equations) 出現在多數線性模式 (linear model) 中。根據以往解題的經驗，讀者們也許已發現方程式的解僅與該方程式的係數有關，求解的過程也僅與係數的運算有關，只要係數間的相關位置不改變，

Section 2.3 Least-Squares Regression 最小平方迴歸

STAT0_sampling Random Sampling  母體： Finite population & Infinity population  由一大小為 N 的有限母體中抽出一樣本數為 n 的樣本，若每一樣本被抽出的機率是一樣的，這樣本稱為隨機樣本 (random sample)

第 4 章迴歸的同步推論與其他主題.

1 政大公企中心產業人才投資課程 -- 企業決策分析方法 -- 黃智聰政大公企中心產業人才投資課程課程名稱：企業決策分析方法授課老師：黃智聰授課內容：利用分公司之追蹤資料進行企業決策分析參考書目： Hill, C. R., W. E. Griffiths, and G. G. Judge,

STAT0_corr1 二變數的相關性  變數之間的關係是統計研究上的一大目標  討論二分類變數的相關性，以列聯表來表示  討論二連續隨機變數時，可以作 x-y 散佈圖觀察它們的關係強度  以相關係數來代表二者關係的強度.

Section 2.2 Correlation 相關係數. 散佈圖 1 散佈圖 2 散佈圖的盲點兩座標軸的刻度不同，散佈圖的外觀呈現的相聯性強度，會有不同的感受。散佈圖 2 相聯性看起來比散佈圖 1 來得強。以統計數字相關係數做為客觀標準。

McGraw-Hill/Irwin © 2003 The McGraw-Hill Companies, Inc.,All Rights Reserved. 肆資料分析與表達.

CH22 可靠性加速測試方法目的基本假設加速試驗模式 Inverse Power Model

Department of Air-conditioning and Refrigeration Engineering/ National Taipei University of Technology 模糊控制設計使用 MATLAB 李達生.

1 政治大學東亞所選修 -- 計量分析與中國大陸研究黃智聰政治大學東亞所選修課程名稱：計量分析與中國大陸研究（量化分析）授課老師：黃智聰授課內容：時間序列與橫斷面資料的共用參考書目： Hill, C. R., W. E. Griffiths, and G. G. Judge, (2001),

Monte Carlo Simulation Part.2 Metropolis Algorithm Dept. Phys. Tunghai Univ. Numerical Methods C. T. Shih.

1 Part IC. Descriptive Statistics Multivariate Statistics ( 多變量統計 ) Focus: Multiple Regression ( 多元迴歸、複迴歸 ) Spring 2007.

2009fallStat_samplec.i.1 Chap10 Sampling distribution (review) 樣本必須是隨機樣本 (random sample) ，才能代表母體 Sample mean 是一隨機變數，隨著每一次抽出來的樣本值不同，它的值也不同，但會有規律性為了要知道估計的精確性，必需要知道樣本平均數.

1 政治大學財政所與東亞所選修 -- 應用計量分析 -- 中國財政研究黃智聰政治大學財政所與東亞所選修課程名稱：應用計量分析 -- 中國財政研究授課老師：黃智聰授課內容：簡單線性迴歸模型：報告結果與選擇函數型式參考書目： Hill, C. R., W. E. Griffiths, and.

1 政治大學公企中心必修課 -- 社會科學研究方法（量化分析） -- 黃智聰政治大學公企中心必修課課程名稱：社會科學研究方法（量化分析）授課老師：黃智聰授課內容：簡單線性迴歸模型：共線性與虛擬變數參考書目： Hill, C. R., W. E. Griffiths, and G. G.

1 第四章多變數函數的微分學 § 4.1 偏導數定義定義極限值 ■. 2 定理極限值的基本定理 (1) 極限值的唯一性 : 若存在，則其值必為唯一。 (2) 若且 ( 與為常數 ) ，則且為常數且.

1 開南大學公管所與國企所合開選修課 -- 量化分析與應用 -- 黃智聰開南大學公管所與國企所合開選修課課程名稱：量化分析與應用授課老師：黃智聰授課內容：簡單線性迴歸模型：共線性與虛擬變數參考書目： Hill, C. R., W. E. Griffiths, and G. G. Judge,

Chapter 13 塑模靜態觀點：物件圖 Static View : Object Diagram.

第三部分：研究設計 ( 二）：研究工具的信效度與研究效度（第九章之第 306 頁 -308 頁；第四章）

1 政大公企中心產業人才投資課程 -- 企業決策分析方法 -- 黃智聰政大公企中心產業人才投資課程課程名稱：企業決策分析方法授課老師：黃智聰授課內容：質化因素在企業決策分析之重要性參考書目： Hill, C. R., W. E. Griffiths, and G. G. Judge, (2001),

CH 15- 元件可靠度之驗證  驗證方法  指數模式之可靠度驗證  韋式模式之可靠度驗證  對數常態模式之可靠度驗證  失效數為零時之可靠度估算  各種失效模式之應用.

緒論統計的範圍敘述統計推論統計有母數統計無母數統計實驗設計統計的本質大量數字客觀.

: Multisets and Sequences ★★★★☆ 題組： Problem Set Archive with Online Judge 題號： 11023: Multisets and Sequences 解題者：葉貫中解題日期： 2007 年 4 月 24 日題意：在這個題目中，我們要定義.

導線測量平差導論觀測方程式多餘方程式實例最小控制量網形平差 χ2檢定：擬合度檢定

:Nuts for nuts..Nuts for nuts.. ★★★★☆ 題組： Problem Set Archive with Online Judge 題號： 10944:Nuts for nuts.. 解題者：楊家豪解題日期： 2006 年 2 月題意：給定兩個正整數 x,y.

第七章連續機率分配.

政治大學公企中心必修課-- 社會科學研究方法（量化分析）--黃智聰

觀測量的權權的觀念與計算.

1 政治大學國務院國安碩專班選修課 -- 社會科學研究方法（量化分析） -- 黃智聰政治大學國務院國安碩專班選修課課程名稱：社會科學研究方法（量化分析）授課老師：黃智聰授課內容：簡單線性迴歸模型：共線性與虛擬變數參考書目： Hill, C. R., W. E. Griffiths, and.

Section 4.2 Probability Models 機率模式. 由實驗看機率實驗前先列出所有可能的實驗結果。 – 擲銅板：正面或反面。 – 擲骰子： 1~6 點。 – 擲骰子兩顆： (1,1),(1,2),(1,3),… 等 36 種。決定每一個可能的實驗結果發生機率。 – 實驗後所有的實驗結果整理得到。

演算法 8-1 最大數及最小數找法 8-2 排序 8-3 二元搜尋法.

Structural Equation Modeling Chapter 6 CFA 根據每個因素有多重指標，以減少測量誤差並可建立問卷的構念效度驗證性因素分析.

Chapter 10 m-way 搜尋樹與B-Tree

描述統計描述統計(Descriptive Statistics)-將蒐集到的資料加以整理和記錄,並以數字和統計圖表的方式來分析及解釋資料所具有的特性. 基本統計值(平均數,中位數,標準差,變異量….) 相關性測量(卡方,相關係數,迴歸…)

Unit 3 ：變異數分析 --ANOVA 3.1 範例說明行銷研究方面， One-Way ANOVA 可用以研擬市場區隔及目標選擇策略。教育研究方面，此一模式可用以評估教師之教學績效。農業研究方面，此一模式則可用以挑選使玉米收穫量極大化的肥料。

1 開南大學公管所與國企所合開選修課 -- 量化分析與應用 -- 黃智聰開南大學公管所與國企所合開選修課課程名稱：量化分析與應用授課老師：黃智聰授課內容：簡單線性迴歸模型：報告結果與選擇函數型式參考書目： Hill, C. R., W. E. Griffiths, and G. G. Judge,

Chapter 7 Sampling Distribution

Cluster Analysis 目的 – 將資料分成幾個相異性最大的群組基本問題 – 如何衡量事務之間的相似性 – 如何將相似的資料歸入同一群組 – 如何解釋群組的特性.

Chapter 6 Introduction to Inference 推論簡介. Chapter 6 Introduction to Inference 6.1 Estimating with Confidence 6.2 Tests of Significance 6.3 Making Sense.

連續隨機變數連續變數：時間、分數、重量、……

Regression 相關 –Cross table –Bivariate –Contingency Cofficient –Rank Correlation 簡單迴歸多元迴歸.

: Finding Paths in Grid ★★★★☆ 題組： Contest Archive with Online Judge 題號： 11486: Finding Paths in Grid 解題者：李重儀解題日期： 2008 年 10 月 14 日題意：給一個 7 個 column.

財務管理概論劉亞秋‧薛立言合著（東華書局, 2007)

幼兒行為觀察與記錄第八章事件取樣法.

1 Chemical and Engineering Thermodynamics Chapter 1 Introduction Sandler.

Chapter 12 Estimation 統計估計. Inferential statistics Parametric statistics 母數統計 ( 母體為常態或大樣本 ) 假設檢定 hypothesis testing  對有關母體參數的假設，利用樣本資料，決定接受或不接受該假設的方法.

: How many 0's? ★★★☆☆ 題組： Problem Set Archive with Online Judge 題號： 11038: How many 0’s? 解題者：楊鵬宇解題日期： 2007 年 5 月 15 日題意：寫下題目給的 m 與 n(m

McGraw-Hill/Irwin © 2003 The McGraw-Hill Companies, Inc.,All Rights Reserved. 肆資料分析與表達.

Presentation transcript:

變異數分析迴歸分析因素分析區別分析集區分析統計分析方法變異數分析迴歸分析因素分析區別分析集區分析

迴歸分析找出預測模式：簡單迴歸(Simple regression)以一個變項預測另一個有興趣的數量變數。複迴歸(Multiple regression)以多個變項預測某一個有興趣的數量變數。羅吉斯迴歸(Logistic regression)以多個變項預測某一個有興趣的0-1變數。

最小平方迴歸

迴歸直線(regression line) 迴歸直線是用來描述反應變數 y 與解釋變數 x 線性關係的直線，在給定 x 之下通常使用迴歸直線的公式來預測 y。平均日加溫度數為20度時，根據下圖的迴歸直線可算出月平均瓦斯消耗量約為490 cu. ft 。

迴歸直線實例 (20, 5)

預測誤差迴歸直線的選擇直接影響預測值 y 的準確性。我們以 y 觀察值 - 預測值 y 稱為誤差，或稱為垂直距離。平均日加溫度數為 20度時，若實際月平均瓦斯消耗量為 510 cu. ft，則誤差 = 510 - 490 = 20。

預測誤差圖示預測值誤差觀察值 y

最小平方迴歸直線依據誤差平方和最小的原則求得的迴歸直線，稱為最小平方迴歸直線 (Least square regression line)。改變迴歸直線的截距與斜率，選擇使誤差平方和最小的直線。

最小平方迴歸直線方程式若直線方程式為 y = a + bx，則在 xi 之下 yi 的預測值為，則誤差平方和即為。最小平方迴歸直線即為。

最小平方迴歸直線實例統計資料則最小平方迴歸直線即為。

最小平方迴歸直線-minitab

最小平方迴歸直線-minitab圖

最小平方迴歸的性質最小平方迴歸直線中反應變數 y 與解釋變數 x 的角色無可取代。迴歸直線的斜率與相關係數關係密切。 b = r (sy/sx)

兩迴歸直線

最小平方迴歸的性質(續) 迴歸直線一定通過點。迴歸直線方程式中，以代入可得即表示點在迴歸直線上。

最小平方迴歸的性質(再續) 相關係數描述了迴歸直線的強度。相關係數平方即為反應變數 y 的變異中，在變數 x 迴歸後解釋的部分(比例)。

餘差(Residuals) 觀察值 y 與預測值的差稱為餘差。餘差總和必為零

餘差圖(Residuals Plot) 餘差與對應的解釋變數的散佈圖，稱為餘差圖。餘差圖有助於瞭解迴歸直線的適合性。餘差圖為非線性。餘差的散佈隨著 x 值的增加而散開或縮減。

標準餘差圖 4 2 - 2 - 4 x

曲線型餘差圖 4 2 - 2 - 4 x

散發型餘差圖 4 2 - 2 - 4 x

餘差圖中的特殊點離群點：餘差特出的點，偏離整體餘差的分佈。干擾點：該點的移除對於迴歸直線的計算結果有重大的影響，稱為干擾點。 Child 19 干擾點：該點的移除對於迴歸直線的計算結果有重大的影響，稱為干擾點。 x 值特出(大或小)的點，多為干擾點。 Child 18

餘差圖實例小孩說第一句話的時間與日後Gesell 能力測驗成績的迴歸關係。迴歸直線如後餘差如下，餘差圖如後

迴歸直線圖 Child 19 Child 18

迴歸餘差圖 Child 19 Child 18

特殊點對迴歸直線的影響 Child 19 Child 18

相關與迴歸的迷思

相關性與迴歸直線的侷限相關性與迴歸直線僅用來描述兩變數之間的線性關係，且其數值受特殊點的影響極大。平均日加溫度數為20度時，根據下圖的迴歸直線可算出月平均瓦斯消耗量約為490 cu. ft 。

外插(Extrapolation)預測以迴歸直線預測原解釋變數概括的範圍外資料之對應 y值，其準確性的多半不高。以3~8歲孩童身高資料得到的迴歸直線，預測25歲成人身高(預測值約為8呎長人)必然不準確。

使用平均數使用平均數資料(月平均瓦斯消耗量)評估相關性，往往高於未平均前資料(每日瓦斯消耗量)的相關性。平均數資料已整合了未平均前資料的離散情況。

複迴歸分析

複相關係數變數 y 與預測變數 x1, x2,…, xp之間的相關係數稱為複相關係數。預測變數之線性組合 a1x1+a2x2+…+apxp與變數 y 之相關係數。

複相關係數實例大一微積分成績為 y，預測變數為聯考數學成績 x1與英文成績 x2。大一微積分y，與聯考英數平均成績 x = (x1+ x2)/2 的相關係數。大一微積分y，與聯考英數加權平均成績 x* = ax1+ bx2的相關係數。求a, b 使得 corr(y, ax1+bx2)為最大。

複迴歸模式變數 y 與預測變數 x1, x2之 n 組隨機資料為 yi, x1i, x2i, i =1,…, n 則複迴歸模式為為隨機誤差服從常態。為三未知常數，可由隨機資料 yi, x1i, x2i, i =1,…, n 估計之。

迴歸方程式之估計最小平方法即為 Normal Equations 之解: 令分別為上列聯立方程組之解，則迴歸方程式為

複迴歸分析變異數分析表則拒絕

複迴歸實例會計事務所以十位會計師過去資料，利用迴歸直線預測 CPA 考試分數。資料如下:

相關分析相關分析得

資料散佈圖(Score vs. GPA.)

GPA對Score之簡單迴歸

資料散佈圖(Score vs. Exp.)

Experience對Score之簡單迴歸

GPA 及 Exp 對 Score 之複迴歸

複迴歸之殘差分析

迴歸係數檢定給定i，檢定已在模式內時是否還需要加入即檢定檢定統計量為，其中則拒絕 H0。檢定，則檢定統計量為

迴歸信賴區間 bj 的 100(1-a)% 信賴區間為在 x10, x20 情形下，的 100(1-a)% 信賴區間為其中

複判別係數判別係數修正判別係數 k 增加則 SSE 減少，則 R2 增加 k 增加則 SSE 減少，但增加，則 Adj R2 不一定增加

複判別係數與變數項目數k

指標變數若考慮性別因素，令 x3為指標變數 x3=1 為男，x3=0 為女，則模式為一般分類型資料若有 2k 類則以 k 個指標變數分析。例：以 (x3, x4) = (0,0)為第一季，(0, 1)為第二季，(1, 0)為第三季，(1, 1)為第四季，即以 2 個指標變數代表四季。

Score vs. GPA散佈圖(by Sex)

含指標變數之迴歸分析

含指標變數之迴歸方程式迴歸方程式 Score = -9.7+23.1GPA+17.4Sex 男, sex=1,

含指標變數之迴歸殘差圖

含指標變數之複迴歸分析

含指標變數之複迴歸殘差圖

多項式迴歸模式迴歸殘差圖顯示，殘差項仍為 x2的(二次)函數，故宜在模式上加入項，即一般多項式迴歸，則視需要加入 p 次項，模式為

多項式迴歸分析

多項式迴歸殘差圖

含指標變數之多項式迴歸分析

含指標變數多項式迴歸殘差圖

迴歸模式的選擇模式一：複迴歸模式二：含指標變數複迴歸模式三：多項式迴歸模式四：含指標變數多項式迴歸

迴歸模式的比較

迴歸理論的應用案例兩迴歸線是否相等

共線性診斷兩迴歸預測因子具高度相關時，可能會對迴歸模式有重大的影響。一般稱為共線性(multi-collinearity)問題。共線性問題常用變異膨脹因子(variance inflation factor, 簡記為 VIF)的方法來偵測。

變異膨脹因子(VIF) 迴歸模式各變數標準化後的新未知參數為 b*k 及 s *2。定義新迴歸係數 b*k 的最小平方估計b*k的變異數為 s 2(b*k) = s *2(VIF)k，其中(VIF)k就稱為 b*k 的變異膨脹因子。應用上，(1 - R2k)-1 是(VIF)k的估計，其中 R2k 為Xk 對其他迴歸因子的複判別係數。最大的 (VIF)k 或是 (VIF)k 的平均數都是判斷共線性嚴重性的指標。一般而言， (VIF)k大於10表示會嚴重影響。