變異數分析 迴歸分析 因素分析 區別分析 集區分析

Slides:



Advertisements
Similar presentations
McGraw-Hill/Irwin © 2003 The McGraw-Hill Companies, Inc.,All Rights Reserved. 肆 資料分析與表達.
Advertisements

1 Chemical and Engineering Thermodynamics Chapter 2 Conservation of mass and energy Sandler.
布林代數的應用--- 全及項(最小項)和全或項(最大項)展開式
第七章 抽樣與抽樣分配 蒐集統計資料最常見的方式是抽查。這 牽涉到兩個問題: 抽出的樣本是否具有代表性?是否能反應出母體的特徵?
Section 1.2 Describing Distributions with Numbers 用數字描述分配.
Advanced Chemical Engineering Thermodynamics
指導教授:陳淑媛 學生:李宗叡 李卿輔.  利用下列三種方法 (Edge Detection 、 Local Binary Pattern 、 Structured Local Edge Pattern) 來判斷是否為場景變換,以方便使用者來 找出所要的片段。
社研法助教課, 2007/04/11 如何閱讀 SPSS 圖表 (迴歸分析篇) By 黃昱珽. 小考題目 大華用 SPSS 得到以下的資料: (圖表見下面) 說明 : BABYMORT = 嬰兒死亡率, GDP_CAP = 一國國民生產毛額, LIT_FEMA = 女性識字率。 資料來源 : 聯合國,
1.1 線性方程式系統簡介 1.2 高斯消去法與高斯-喬登消去法 1.3 線性方程式系統的應用(-Skip-)
McGraw-Hill/Irwin © 2003 The McGraw-Hill Companies, Inc.,All Rights Reserved. 參 實驗法.
1 Simple Regression ( 簡單迴歸分析 ) Social Research Methods 2109 & 6507 Spring, 2006 March 8, 9, 13, 2006.
1 政治大學財政所與東亞所選修 -- 應用計量分析 -- 中國財政研究 黃智聰 政治大學財政所與東亞所選修 課程名稱:應用計量分析 -- 中國財政研究 授課老師:黃智聰 授課內容: 簡單線性迴歸模型: 共線性與虛擬變數 參考書目: Hill, C. R., W. E. Griffiths, and G.
亂數產生器安全性評估 之統計測試 SEC HW7 姓名:翁玉芬 學號:
Stat_chi21 類別資料 (Categorical data) 一種質性資料, 其觀察值可歸類於數個不相交的項目內, 例 : 性別, 滿意度, …, 一般以各項的統計次數表現. 分析此種資料,通常用卡方檢定 類別資料分析 卡方檢定 卡方檢定基本理論 一個含有 k 項的試驗,設 p i.
©Ming-chi Chen 社會統計 Page.1 社會統計 第十講 相關與共變. ©Ming-chi Chen 社會統計 Page.2 Covariance, 共變量 當 X, Y 兩隨機變數不互為獨立時,表示 兩者間有關連。其關連的形式有很多種, 最常見的關連為線性的共變關係。 隨機變數 X,Y.
Review of Chapter 3 - 已學過的 rules( 回顧 )- 朝陽科技大學 資訊管理系 李麗華 教授.
消費者物價指數反映生活成本。當消費者物價指數上升時,一般家庭需要花費更多的金錢才能維持相同的生活水準。經濟學家用物價膨脹(inflation)來描述一般物價持續上升的現象,而物價膨脹率(inflation rate)為物價水準的變動百分比。
Chapter 2 聯立線性方程式與矩陣 緒言 線性方程式組 (systems of linear equations) 出現 在多數線性模式 (linear model) 中。根據以往解 題的經驗,讀者們也許已發現方程式的解僅與 該方程式的係數有關,求解的過程也僅與係數 的運算有關,只要係數間的相關位置不改變,
Section 2.3 Least-Squares Regression 最小平方迴歸
STAT0_sampling Random Sampling  母體: Finite population & Infinity population  由一大小為 N 的有限母體中抽出一樣本數為 n 的樣 本,若每一樣本被抽出的機率是一樣的,這樣本稱 為隨機樣本 (random sample)
第 4 章 迴歸的同步推論與其他主題.
1 政大公企中心產業人才投資課程 -- 企業決策分析方法 -- 黃智聰 政大公企中心產業人才投資課程 課程名稱:企業決策分析方法 授課老師:黃智聰 授課內容:利用分公司之追蹤資料進行企業決策分析 參考書目: Hill, C. R., W. E. Griffiths, and G. G. Judge,
STAT0_corr1 二變數的相關性  變數之間的關係是統計研究上的一大目標  討論二分類變數的相關性,以列聯表來表示  討論二連續隨機變數時,可以作 x-y 散佈圖觀察它 們的關係強度  以相關係數來代表二者關係的強度.
Section 2.2 Correlation 相關係數. 散佈圖 1 散佈圖 2 散佈圖的盲點 兩座標軸的刻度不同,散佈圖的外觀呈 現的相聯性強度,會有不同的感受。 散佈圖 2 相聯性看起來比散佈圖 1 來得強。 以統計數字相關係數做為客觀標準。
McGraw-Hill/Irwin © 2003 The McGraw-Hill Companies, Inc.,All Rights Reserved. 肆 資料分析與表達.
CH22 可靠性加速測試方法 目的 基本假設 加速試驗模式 Inverse Power Model
Department of Air-conditioning and Refrigeration Engineering/ National Taipei University of Technology 模糊控制設計使用 MATLAB 李達生.
1 政治大學東亞所選修 -- 計量分析與中國大陸研究黃智聰 政治大學東亞所選修 課程名稱:計量分析與中國大陸研究 (量化分析) 授課老師:黃智聰 授課內容:時間序列與橫斷面資料的共用 參考書目: Hill, C. R., W. E. Griffiths, and G. G. Judge, (2001),
Monte Carlo Simulation Part.2 Metropolis Algorithm Dept. Phys. Tunghai Univ. Numerical Methods C. T. Shih.
1 Part IC. Descriptive Statistics Multivariate Statistics ( 多變量統計 ) Focus: Multiple Regression ( 多元迴歸、複迴歸 ) Spring 2007.
2009fallStat_samplec.i.1 Chap10 Sampling distribution (review) 樣本必須是隨機樣本 (random sample) ,才能代表母體 Sample mean 是一隨機變數,隨著每一次抽出來的 樣本值不同,它的值也不同,但會有規律性 為了要知道估計的精確性,必需要知道樣本平均數.
1 政治大學財政所與東亞所選修 -- 應用計量分析 -- 中國財政研究 黃智聰 政治大學財政所與東亞所選修 課程名稱:應用計量分析 -- 中國財政研究 授課老師:黃智聰 授課內容: 簡單線性迴歸模型:報告結果 與選擇函數型式 參考書目: Hill, C. R., W. E. Griffiths, and.
信度.
1 政治大學公企中心必修課 -- 社會科學研究方法(量化分析) -- 黃智聰 政治大學公企中心必修課 課程名稱:社會科學研究方法(量化分析) 授課老師:黃智聰 授課內容: 簡單線性迴歸模型: 共線性與虛擬變數 參考書目: Hill, C. R., W. E. Griffiths, and G. G.
1 第四章 多變數函數的微分學 § 4.1 偏導數定義 定義 極限值 ■. 2 定理 極限值的基本定理 (1) 極限值的唯一性 : 若 存在,則 其值必為唯一。 (2) 若 且 ( 與 為常數 ) , 則 且 為常數且.
1 開南大學公管所與國企所合開選修課 -- 量化分析與應用 -- 黃智聰 開南大學公管所與國企所合開選修課 課程名稱:量化分析與應用 授課老師:黃智聰 授課內容: 簡單線性迴歸模型: 共線性與虛擬變數 參考書目: Hill, C. R., W. E. Griffiths, and G. G. Judge,
Chapter 13 塑模靜態觀點:物件圖 Static View : Object Diagram.
第三部分:研究設計 ( 二): 研究工具的信效度 與研究效度 (第九章之第 306 頁 -308 頁;第四章)
1 政大公企中心產業人才投資課程 -- 企業決策分析方法 -- 黃智聰 政大公企中心產業人才投資課程 課程名稱:企業決策分析方法 授課老師:黃智聰 授課內容: 質化因素在企業決策分析之重要性 參考書目: Hill, C. R., W. E. Griffiths, and G. G. Judge, (2001),
CH 15- 元件可靠度之驗證  驗證方法  指數模式之可靠度驗證  韋式模式之可靠度驗證  對數常態模式之可靠度驗證  失效數為零時之可靠度估算  各種失效模式之應用.
緒論 統計的範圍 敘述統計 推論統計 有母數統計 無母數統計 實驗設計 統計的本質 大量 數字 客觀.
: Multisets and Sequences ★★★★☆ 題組: Problem Set Archive with Online Judge 題號: 11023: Multisets and Sequences 解題者:葉貫中 解題日期: 2007 年 4 月 24 日 題意:在這個題目中,我們要定義.
導線測量平差導論 觀測方程式 多餘方程式 實例 最小控制量 網形平差 χ2檢定:擬合度檢定
:Nuts for nuts..Nuts for nuts.. ★★★★☆ 題組: Problem Set Archive with Online Judge 題號: 10944:Nuts for nuts.. 解題者:楊家豪 解題日期: 2006 年 2 月 題意: 給定兩個正整數 x,y.
第七章 連續機率分配.
政治大學公企中心必修課-- 社會科學研究方法(量化分析)--黃智聰
觀測量的權 權的觀念與計算.
1 政治大學國務院國安碩專班選修課 -- 社會科學研究方法(量化分析) -- 黃智聰 政治大學國務院國安碩專班選修課 課程名稱:社會科學研究方法(量化分析) 授課老師:黃智聰 授課內容: 簡單線性迴歸模型: 共線性與虛擬變數 參考書目: Hill, C. R., W. E. Griffiths, and.
Section 4.2 Probability Models 機率模式. 由實驗看機率 實驗前先列出所有可能的實驗結果。 – 擲銅板:正面或反面。 – 擲骰子: 1~6 點。 – 擲骰子兩顆: (1,1),(1,2),(1,3),… 等 36 種。 決定每一個可能的實驗結果發生機率。 – 實驗後所有的實驗結果整理得到。
演算法 8-1 最大數及最小數找法 8-2 排序 8-3 二元搜尋法.
Structural Equation Modeling Chapter 6 CFA 根據每個因素有多重指標,以減少 測量誤差並可建立問卷的構念效度 驗證性因素分析.
Chapter 10 m-way 搜尋樹與B-Tree
描述統計 描述統計(Descriptive Statistics)-將蒐集到的資料加以整理和記錄,並以數字和統計圖表的方式來分析及解釋資料所具有的特性. 基本統計值(平均數,中位數,標準差,變異量….) 相關性測量(卡方,相關係數,迴歸…)
Unit 3 : 變異數分析 --ANOVA 3.1 範例說明 行銷研究方面, One-Way ANOVA 可 用以研擬市場區隔及目標選擇策略。 教育研究方面,此一模式可用以評估 教師之教學績效。 農業研究方面,此一模式則可用以挑 選使玉米收穫量極大化的肥料。
1 開南大學公管所與國企所合開選修課 -- 量化分析與應用 -- 黃智聰 開南大學公管所與國企所合開選修課 課程名稱:量化分析與應用 授課老師:黃智聰 授課內容: 簡單線性迴歸模型:報告結果 與選擇函數型式 參考書目: Hill, C. R., W. E. Griffiths, and G. G. Judge,
Chapter 7 Sampling Distribution
Cluster Analysis 目的 – 將資料分成幾個相異性最大的群組 基本問題 – 如何衡量事務之間的相似性 – 如何將相似的資料歸入同一群組 – 如何解釋群組的特性.
Chapter 6 Introduction to Inference 推論簡介. Chapter 6 Introduction to Inference 6.1 Estimating with Confidence 6.2 Tests of Significance 6.3 Making Sense.
連續隨機變數 連續變數:時間、分數、重量、……
Regression 相關 –Cross table –Bivariate –Contingency Cofficient –Rank Correlation 簡單迴歸 多元迴歸.
: Finding Paths in Grid ★★★★☆ 題組: Contest Archive with Online Judge 題號: 11486: Finding Paths in Grid 解題者:李重儀 解題日期: 2008 年 10 月 14 日 題意:給一個 7 個 column.
財務管理概論 劉亞秋‧薛立言 合著 (東華書局, 2007)
幼兒行為觀察與記錄 第八章 事件取樣法.
1 Chemical and Engineering Thermodynamics Chapter 1 Introduction Sandler.
Chapter 12 Estimation 統計估計. Inferential statistics Parametric statistics 母數統計 ( 母體為常態或 大樣本 ) 假設檢定 hypothesis testing  對有關母體參數的假設,利用樣本資料,決定接受或 不接受該假設的方法.
: How many 0's? ★★★☆☆ 題組: Problem Set Archive with Online Judge 題號: 11038: How many 0’s? 解題者:楊鵬宇 解題日期: 2007 年 5 月 15 日 題意:寫下題目給的 m 與 n(m
McGraw-Hill/Irwin © 2003 The McGraw-Hill Companies, Inc.,All Rights Reserved. 肆 資料分析與表達.
Presentation transcript:

變異數分析 迴歸分析 因素分析 區別分析 集區分析 統計分析方法 變異數分析 迴歸分析 因素分析 區別分析 集區分析

迴歸分析 找出預測模式: 簡單迴歸(Simple regression)以一個變項預測另一個有興趣的數量變數。 複迴歸(Multiple regression)以多個變項預測某一個有興趣的數量變數。 羅吉斯迴歸(Logistic regression)以多個變項預測某一個有興趣的0-1變數。

最小平方迴歸

迴歸直線(regression line) 迴歸直線是用來描述反應變數 y 與解釋變數 x 線性關係的直線,在給定 x 之下通常使用迴歸直線的公式來預測 y。 平均日加溫度數為20度時,根據下圖的迴歸直線可算出月平均瓦斯消耗量約為490 cu. ft 。

迴歸直線實例 (20, 5)

預測誤差 迴歸直線的選擇直接影響預測值 y 的準確性。 我們以 y 觀察值 - 預測值 y 稱為誤差, 或稱為垂直距離。 平均日加溫度數為 20度時,若實際月平均瓦斯消耗量為 510 cu. ft,則 誤差 = 510 - 490 = 20。

預測誤差圖示 預測值 誤差 觀察值 y

最小平方迴歸直線 依據誤差平方和最小的原則求得的迴歸直線,稱為最小平方迴歸直線 (Least square regression line)。 改變迴歸直線的截距與斜率,選擇使誤差平方和最小的直線。

最小平方迴歸直線方程式 若直線方程式為 y = a + bx,則在 xi 之下 yi 的預測值為 ,則誤差平方和即為 。 最小平方迴歸直線即為 。

最小平方迴歸直線實例 統計資料 則 最小平方迴歸直線即為 。

最小平方迴歸直線-minitab

最小平方迴歸直線-minitab圖

最小平方迴歸的性質 最小平方迴歸直線中反應變數 y 與解釋變數 x 的角色無可取代。 迴歸直線的斜率與相關係數關係密切。 b = r (sy/sx)

兩迴歸直線

最小平方迴歸的性質(續) 迴歸直線一定通過 點。 迴歸直線方程式 中, 以 代入可得 即表示點 在迴歸直線上。

最小平方迴歸的性質(再續) 相關係數描述了迴歸直線的強度。 相關係數平方即為反應變數 y 的變異中, 在變數 x 迴歸後解釋的部分(比例)。

餘差(Residuals) 觀察值 y 與預測值 的差稱為餘差。 餘差總和必為零

餘差圖(Residuals Plot) 餘差與對應的解釋變數的散佈圖,稱為餘差圖。 餘差圖有助於瞭解迴歸直線的適合性。 餘差圖為非線性。 餘差的散佈隨著 x 值的增加而散開或縮減。

標準餘差圖 4 2 - 2 - 4 x

曲線型餘差圖 4 2 - 2 - 4 x

散發型餘差圖 4 2 - 2 - 4 x

餘差圖中的特殊點 離群點:餘差特出的點,偏離整體餘差的分佈。 干擾點:該點的移除對於迴歸直線的計算結果有重大的影響,稱為干擾點。 Child 19 干擾點:該點的移除對於迴歸直線的計算結果有重大的影響,稱為干擾點。 x 值特出(大或小)的點,多為干擾點。 Child 18

餘差圖實例 小孩說第一句話的時間與日後Gesell 能力測驗成績的迴歸關係。 迴歸直線如後 餘差如下,餘差圖如後

迴歸直線圖 Child 19 Child 18

迴歸餘差圖 Child 19 Child 18

特殊點對迴歸直線的影響 Child 19 Child 18

相關與迴歸的迷思

相關性與迴歸直線的侷限 相關性與迴歸直線僅用來描述兩變數之間的線性關係,且其數值受特殊點的影響極大。 平均日加溫度數為20度時,根據下圖的迴歸直線可算出月平均瓦斯消耗量約為490 cu. ft 。

外插(Extrapolation)預測 以迴歸直線預測原解釋變數概括的範圍外資料之對應 y值,其準確性的多半不高。 以3~8歲孩童身高資料得到的迴歸直線,預測25歲成人身高(預測值約為8呎長人)必然不準確。

使用平均數 使用平均數資料(月平均瓦斯消耗量)評估相關性,往往高於未平均前資料(每日瓦斯消耗量)的相關性。 平均數資料已整合了未平均前資料的離散情況。

複迴歸分析

複相關係數 變數 y 與預測變數 x1, x2,…, xp之間的相關係數稱為複相關係數。 預測變數之線性組合 a1x1+a2x2+…+apxp與變數 y 之相關係數。

複相關係數實例 大一微積分成績為 y,預測變數為聯考數學成績 x1與英文成績 x2。 大一微積分y,與聯考英數平均成績 x = (x1+ x2)/2 的相關係數。 大一微積分y,與聯考英數加權平均成績 x* = ax1+ bx2的相關係數。 求a, b 使得 corr(y, ax1+bx2)為最大。

複迴歸模式 變數 y 與預測變數 x1, x2之 n 組隨機資料為 yi, x1i, x2i, i =1,…, n 則複迴歸模式為 為隨機誤差服從常態 。 為三未知常數,可由隨機資料 yi, x1i, x2i, i =1,…, n 估計之。

迴歸方程式之估計 最小平方法即為 Normal Equations 之解: 令 分別為上列聯立方程組之解,則迴歸方程式為

複迴歸分析變異數分析表 則拒絕

複迴歸實例 會計事務所以十位會計師過去資料,利用迴歸直線預測 CPA 考試分數。資料如下:

相關分析 相關分析得

資料散佈圖(Score vs. GPA.)

GPA對Score之簡單迴歸

資料散佈圖(Score vs. Exp.)

Experience對Score之簡單迴歸

GPA 及 Exp 對 Score 之複迴歸

複迴歸之殘差分析

迴歸係數檢定 給定i,檢定 已在模式內時 是否還需要加入即檢定 檢定統計量為 ,其中 則拒絕 H0。 檢定 ,則檢定統計量為

迴歸信賴區間 bj 的 100(1-a)% 信賴區間為 在 x10, x20 情形下, 的 100(1-a)% 信賴區間為 其中

複判別係數 判別係數 修正判別係數 k 增加則 SSE 減少,則 R2 增加 k 增加則 SSE 減少,但 增加, 則 Adj R2 不一定增加

複判別係數與變數項目數k

指標變數 若考慮性別因素,令 x3為指標變數 x3=1 為男,x3=0 為女,則模式為 一般分類型資料若有 2k 類則以 k 個指標變數分析。 例:以 (x3, x4) = (0,0)為第一季,(0, 1)為第二季,(1, 0)為第三季,(1, 1)為第四季,即以 2 個指標變數代表四季。

Score vs. GPA散佈圖(by Sex)

含指標變數之迴歸分析

含指標變數之迴歸方程式 迴歸方程式 Score = -9.7+23.1GPA+17.4Sex 男, sex=1,

含指標變數之迴歸殘差圖

含指標變數之複迴歸分析

含指標變數之複迴歸殘差圖

多項式迴歸模式 迴歸殘差圖顯示,殘差項仍為 x2的(二次)函數,故宜在模式上加入 項,即 一般多項式迴歸,則視需要加入 p 次項,模式為

多項式迴歸分析

多項式迴歸殘差圖

含指標變數之多項式迴歸分析

含指標變數多項式迴歸殘差圖

迴歸模式的選擇 模式一:複迴歸 模式二:含指標變數複迴歸 模式三:多項式迴歸 模式四:含指標變數多項式迴歸

迴歸模式的比較

迴歸理論的應用案例 兩迴歸線是否相等

共線性診斷 兩迴歸預測因子具高度相關時,可能會對迴歸模式有重大的影響。一般稱為共線性(multi-collinearity)問題。 共線性問題常用變異膨脹因子(variance inflation factor, 簡記為 VIF)的方法來偵測。

變異膨脹因子(VIF) 迴歸模式各變數標準化後的新未知參數為 b*k 及 s *2。定義新迴歸係數 b*k 的最小平方估計b*k的變異數為 s 2(b*k) = s *2(VIF)k,其中(VIF)k就稱為 b*k 的變異膨脹因子。 應用上,(1 - R2k)-1 是(VIF)k的估計,其中 R2k 為Xk 對其他迴歸因子的複判別係數。 最大的 (VIF)k 或是 (VIF)k 的平均數都是判斷共線性嚴重性的指標。 一般而言, (VIF)k大於10表示會嚴重影響。