Presentation is loading. Please wait.

Presentation is loading. Please wait.

Section 1.2 Describing Distributions with Numbers 用數字描述分配.

Similar presentations


Presentation on theme: "Section 1.2 Describing Distributions with Numbers 用數字描述分配."— Presentation transcript:

1 Section 1.2 Describing Distributions with Numbers 用數字描述分配

2 用統計數字說話 描述資料中心 (center) 位置的統計數字: – 平均數 (mean) – 中位數 (median) 描述資料分散 (spread) 程度的統計數字: – 四分位 (quartiles) 四分位間距 (Interquartile range) 標準差 (standard deviation)

3 平均數 (mean) 所有資料加總除以資料個數即為平均 數。 n 筆資料分別為 x 1, x 2, …, x n 則均數為 簡記為

4 中位數 (median) 將所有資料由小到大排序後,排在最 中間的數,稱為中位數,記為 M 。 n 筆資料的中位數 – 若 n 為奇數,則排序第 (n +1)/2 為中位數。 – 若 n 為偶數,則排序第 n /2 與第 n/2 +1 的 平均數為中位數。

5 平均數與中位數的比較 對稱資料 – 平均數與中位數的數字相當。 偏斜資料 (skewed data) – 左偏斜資料 (skewed to the left) : 中位數在平均數的右邊,即中位數大於平均數。 – 右偏斜資料 (skewed to the right) : 中位數在平均數的左邊,即中位數小於平均數。

6 右偏斜資料 (Figure 1.4)

7 Skewed (to the Right) Distribution 右偏斜分佈 Figure 1.15(b)

8 Symmetric Distribution 對稱分佈 Figure 1.15(a)

9 四分位數 (quartiles) 將所有資料由小到大排序後, – 排在前面 ¼ 位置的數,稱為第 1 四分位數, 記為 Q 1 。 Q 1 也可視為前半資料的中位數。 – 排在前面 ¾ 位置的數,稱為第 3 四分位數, 記為 Q 3 。 Q 3 也可視為後半資料的中位數。 四分位間距 (inter-quartile range)

10 例題 1.9 Mark McGwire 的全壘打數: ( 偶數 ) –9 9 22 32 33 39 39 42 49 52 58 70 – Q 1 M Q 3 Babe Ruth 的全壘打數: ( 奇數 ) –22 25 34 35 41 41 46 46 46 47 49 54 54 59 60 – Q 1 M Q 3

11 五數總結與盒形圖 五個重要敘述性統計量,最小值、第 1 四 分位數、中位數、第 3 四分位數及最大值 又稱為五數總結 (five-number summary) 。 – 軟體多可算出五數總結的資料。 盒形圖 (boxplot) 將資料的五數總結,以圖 形呈現出來。

12 盒形圖實例 (Example 1.9, Figure 1.11)

13 標準差 (Standard Deviation) 與 變異數 (Variance) n 筆資料分別為 x 1, x 2, …, x n ,則定義變異數為 簡記為 標準差 s 則為變異數 s 2 的平方根

14 標準差與變異數實例 例題 1.10 : 7 位受試者的新陳代謝率, 每 24 小時消耗卡路里數,資料如下: 1792, 1666, 1362, 1614, 1460, 1867, 1439 平均數為 1600 卡路里。 變異數為 s 2 = 35,811.67 。 標準差為 s = 189.24 卡路里。

15 標準差與變異數演算

16 離差 (deviation) 圖示 1300 140015001600170018001900 離差 =  161 離差 =  192 x =  x = 

17 離差值與自由度 n 筆資料對均值的差稱為離差值,即 因為 n 個離差值的總和必為零, 所以第 n 個離差值,可由前面 n  個離差值來決定。我 們稱離差值有 n  個自由度 (degrees of freedom) 。

18 標準差的運用 平均數 被選為度量中心時,標準差 s 可度量平均值的離散度。 所有的資料都一樣時, s = 0 ,沒有離散 度。其他情形 s 都大於零。 觀測值離平均數越遠時, s 就越大。 s 與 和原有的觀察值有相同的單位。 高度偏斜或少數離群值會使 s 變很大。

19 五數總結的選用 描述偏斜分配或是有嚴重離群值的 資料時,五數總結優於平均數和標準 差。 沒有離群值且大致對稱的資料則選 用 與 s 。


Download ppt "Section 1.2 Describing Distributions with Numbers 用數字描述分配."

Similar presentations


Ads by Google