Section 2.2 Correlation 相關係數
散佈圖 1
散佈圖 2
散佈圖的盲點 兩座標軸的刻度不同,散佈圖的外觀呈 現的相聯性強度,會有不同的感受。 散佈圖 2 相聯性看起來比散佈圖 1 來得強。 以統計數字相關係數做為客觀標準。
相關係數 (Correlation) 兩數量變數的相關係數,是衡量兩變數 線性關係強度及方向的數值,定義如下: – 兩變數分別為 X 及 Y ,資料配對為 (x i, y i ) i = 1, 2, …, n – 其平均數與標準差分別為 與 s X , 與 s Y 。則相關係數 r 定為
相關係數的特性 相關係數中,兩變數並不區分解釋變數 或反應變數。 相關係數的計算以數量變數為主,此公 式不適用於類別變數。 相關係數的計算使用標準化值,與各數 量變數的度量單位無關。
相關係數的特性 ( 續 ) 相關係數為正表示兩變數具正相聯性, 相關係數為負表示兩變數具負相聯性。 相關係數 r ,其數值必為 與 1 之間。 –r 接近 0 表示兩變數的線性關係薄弱。 – 兩變數的線性關係強度,隨著 r 由 0 移向 或 1 而增強。 –r 接近 或 1 表示散佈圖的點呈近乎直線。 r 等於 或 1 表示散佈圖的點全在直線上。
相關係數的特性 ( 再續 ) 相關係數僅能衡量的兩變數的線性關係, 對其他曲線關係的強度無法提供訊息。 相關係數值受離群點 (outliers) 影響很大。 – 圖 2.7 中相關係數 r = ,去除 Alaska 與 District of Columbia 兩點後 r 變成 。
線性關係的強度 安裝太陽能,對節省家庭暖氣成本效果 的研究: – 月平均瓦斯消耗量與平均日加溫度數之散 佈圖,呈強度線性正相聯性。 r = 。 美國各州教育資料研究 – 高中畢業生選考百分比與 SAT 數學平均分 數之散佈圖,呈強度線性負相聯性。 r = 。
線性關係的不同強度之 r
r = 0 r = 0.6 r = 0.97 r = 0.3 r = 0.5 r = 0.8
例 2.7 Scoring Divers Two judges, Ivan and George Score scale: from 1 to 10 Subjective Correlation between their scores is r = 0.9 The mean of Ivan’s scores is 3 points lower than George’s mean Is the score system fair? –Yes, if both of them rate all divers. –No, if some are rated by Ivan and some are by George.