Download presentation
Presentation is loading. Please wait.
1
Section 1.2 Describing Distributions with Numbers 用數字描述分配
2
用統計數字說話 描述資料中心 (center) 位置的統計數字: – 平均數 (mean) – 中位數 (median) 描述資料分散 (spread) 程度的統計數字: – 四分位 (quartiles) 四分位間距 (Interquartile range) 標準差 (standard deviation)
3
平均數 (mean) 所有資料加總除以資料個數即為平均 數。 n 筆資料分別為 x 1, x 2, …, x n 則均數為 簡記為
4
中位數 (median) 將所有資料由小到大排序後,排在最 中間的數,稱為中位數,記為 M 。 n 筆資料的中位數 – 若 n 為奇數,則排序第 (n +1)/2 為中位數。 – 若 n 為偶數,則排序第 n /2 與第 n/2 +1 的 平均數為中位數。
5
平均數與中位數的比較 對稱資料 – 平均數與中位數的數字相當。 偏斜資料 (skewed data) – 左偏斜資料 (skewed to the left) : 中位數在平均數的右邊,即中位數大於平均數。 – 右偏斜資料 (skewed to the right) : 中位數在平均數的左邊,即中位數小於平均數。
6
右偏斜資料 (Figure 1.4)
7
Skewed (to the Right) Distribution 右偏斜分佈 Figure 1.15(b)
8
Symmetric Distribution 對稱分佈 Figure 1.15(a)
9
四分位數 (quartiles) 將所有資料由小到大排序後, – 排在前面 ¼ 位置的數,稱為第 1 四分位數, 記為 Q 1 。 Q 1 也可視為前半資料的中位數。 – 排在前面 ¾ 位置的數,稱為第 3 四分位數, 記為 Q 3 。 Q 3 也可視為後半資料的中位數。 四分位間距 (inter-quartile range)
10
例題 1.9 Mark McGwire 的全壘打數: ( 偶數 ) –9 9 22 32 33 39 39 42 49 52 58 70 – Q 1 M Q 3 Babe Ruth 的全壘打數: ( 奇數 ) –22 25 34 35 41 41 46 46 46 47 49 54 54 59 60 – Q 1 M Q 3
11
五數總結與盒形圖 五個重要敘述性統計量,最小值、第 1 四 分位數、中位數、第 3 四分位數及最大值 又稱為五數總結 (five-number summary) 。 – 軟體多可算出五數總結的資料。 盒形圖 (boxplot) 將資料的五數總結,以圖 形呈現出來。
12
盒形圖實例 (Example 1.9, Figure 1.11)
13
標準差 (Standard Deviation) 與 變異數 (Variance) n 筆資料分別為 x 1, x 2, …, x n ,則定義變異數為 簡記為 標準差 s 則為變異數 s 2 的平方根
14
標準差與變異數實例 例題 1.10 : 7 位受試者的新陳代謝率, 每 24 小時消耗卡路里數,資料如下: 1792, 1666, 1362, 1614, 1460, 1867, 1439 平均數為 1600 卡路里。 變異數為 s 2 = 35,811.67 。 標準差為 s = 189.24 卡路里。
15
標準差與變異數演算
16
離差 (deviation) 圖示 1300 140015001600170018001900 離差 = 161 離差 = 192 x = x =
17
離差值與自由度 n 筆資料對均值的差稱為離差值,即 因為 n 個離差值的總和必為零, 所以第 n 個離差值,可由前面 n 個離差值來決定。我 們稱離差值有 n 個自由度 (degrees of freedom) 。
18
標準差的運用 平均數 被選為度量中心時,標準差 s 可度量平均值的離散度。 所有的資料都一樣時, s = 0 ,沒有離散 度。其他情形 s 都大於零。 觀測值離平均數越遠時, s 就越大。 s 與 和原有的觀察值有相同的單位。 高度偏斜或少數離群值會使 s 變很大。
19
五數總結的選用 描述偏斜分配或是有嚴重離群值的 資料時,五數總結優於平均數和標準 差。 沒有離群值且大致對稱的資料則選 用 與 s 。
Similar presentations
© 2025 SlidePlayer.com. Inc.
All rights reserved.