Download presentation
Presentation is loading. Please wait.
1
如何建立檔案 中國醫藥大學 公衛系 梁文敏 副教授 TEL: 04-22053366-6107 E-mail: wmliang@mail.cmu.edu.tw
2
如何建立檔案 從資料庫的觀點 *** 資料分析第一階段建檔 從表格的觀點 資料分析最後階段呈現結果
3
建檔方式 --- 範例 三個人測量兩密閉室 ( 甲, 乙 ) 的溫度 或 x x
4
如何建立檔案 1. 確立變項 2. 對變項命名及變項命名原則 3. 以 “ 欄 (Column)” 為單位,建立每一個變項 4. 以 “ 列 (Row)” 為單位,建立每一筆資料 (Record) 5. 保持原始資料的單純性及可擴充性
5
1. 確立變項 每一個變項 (Variable) 代表一種訊息 (Information) 例如密閉室溫度範例中的訊息包括: 室別 ( 甲, 乙 ) 、溫度 ( 攝氏 ) 、 個案代號 ( 可表示該 溫度是誰測量的 ) ,故共有三個變項 變項命名: ( 補充 : 變項命名原則 ) 室別、溫度、 個案代號
6
2. 對變項命名 中文命名 ( 正確 : 室別、溫度、 個案代號 ) ( 錯誤 : 室別 -1 、 2 溫度、 @ 個案代號 ) 英文命名 ( 正確 : roomname 、 temp 、 subj_id) ( 錯誤 : 2room 、 temperature 、 subject-id)
7
2. 對變項命名 -- 變項命名原則 中文命名 1. 第一個字母不為特殊字元或數字,如: #2 人口 _ 男 ( 錯誤 ) 2. 名稱中不要放入特殊符號,如:人口 -male2( 錯誤 ) 3. 名稱不要超過 4 個中文字,如:人口數男生 _2( 錯誤 ) ** 正確名稱:人口 _ 男 2 或 人口 _m2 或 人口男 _2 英文命名 1. 第一個字母不為特殊字元或數字,如: 2pop_m( 錯誤 ) 2. 名稱中不要放入特殊符號,如: pop&m-2( 錯誤 ) 3. 名稱不要超過 8 個英文字,如: popmale_2( 錯誤 ) ** 正確名稱: pop_m2 或 pop_m_2 或 popmale2
8
3. 以 “ 欄 (Column)” 為單位,建立每一個變項 ---- 在第一欄建立變項名稱 一個 EXCEL 檔可開多個工作表將原始資料檔單獨放在一個工作表中
9
4. 以 “ 列 (Row)” 為單位,建立每一筆資料 (Record, Observation) ----- 共 6 筆資料 按滑鼠右鍵 重新命名 將工作表重新命名為 : 原始資料
10
5. 保持原始資料的單純性及可擴充性 --- 單純性 : 若要處理. 把資料依需要貼在其他工作表上 插入 工作表 重新命名
11
5. 保持原始資料的單純性及可擴充性 ---- 可擴充性 : 4 個變項、 9 筆資料 原始資料增加為 4 個變項、 9 筆資料
12
變數類型及分布
13
變數, 變項( Variable ) ( 相對於常數, Constant) 及變數名稱 (Variable Name) 資料依不同的人,而有不同的數值或特性, 故稱為變數,例如抽取 5 個學生,有男有女, 有高有矮,資料會隨著樣本不同而變化, 故稱為變數; 每種變數的代號稱為變數名稱 (Variable Name) 或變數,例如:性別、身高為變數 名稱或變數。
14
隨機變數 (Random Variable) 搜集資料時,若決定抽取 n 個樣本,則資料 會隨著抽取樣本不同而不同,例如抽取坐 在前排的 5 個女生的身高,會與抽取坐在後 排的 5 個女生的身高不同。 在做決定抽取何者為樣本時,若沒有預設 立場,完全隨機會 (by chance) 決定,該資 料稱為隨機變數。
15
變數類型( Variable Type ) 類別變數( Nominal variable ): 將資料分門別類,各類資料之間沒有程度 或次序性的 b. 關係,且為彼此互斥的,屬 定性的測量。 例如 : 性別 ( 男、女 ) ,血型 (A, B, O, AB, other) ,抽煙與否 ( 抽煙、不抽煙 ) 。若該變 數只分為兩類稱為二分法類別變數 (Dichotomous Variable) 。
16
變數類型( Variable Type ) 序位變數( Ordinal Variable ): 和類別尺度一樣,將資料分類且為彼此互斥的,但 彼此之間有程度上的差異。 例如癌症病人病況分期 (I 、 II 、 III 、 IV 期 ) ,抽煙程 度狀況 ( 未抽煙、曾抽煙但已戒煙、少於 1 包 / 每日、 1 包以上 / 每日 ) ,病人對醫生問診態度的滿意度 ( 非 常滿意、滿意、普通、不滿意、非常不滿意 ) 。 各類之間不一定有倍數或距離的關係,是屬於半 定量的測量,例如:癌症 IV 期病人的病況並非癌 症 II 期病人的病況的兩倍。
17
變數類型( Variable Type ) 等距變數 (Interval Variable) : 每個單位都是一樣大小,且測量值可以完全表現出程度的 大小,屬定量的測量。 例如年齡,身高,體重,氣溫,每分鐘心跳的次數,每天 抽煙的支數。等距尺度不一定具有絕對的零點。其中有些 零點是人為決定的。 例如氣溫,華氏與攝氏溫度的零點,是人為決定的,並沒 有絕對的零點的存在。攝氏 30.7 度到 28.7 度的距離與攝氏 16.7 度到 14.7 度的距離相等,但我們不能描述攝氏 30 度 ( 華氏 86 度 ) 是攝氏 15 度 ( 華氏 59 度 ) 的兩倍,因為若以華氏 則不到兩倍 (86/59=1.46) 。所以氣溫的尺度是一種等距尺 度,但不是一種等比尺度。
18
變數類型( Variable Type ) 等比變數 (Ratio Variable) : 若等距尺度中具有絕對的零點,稱為等比尺度。可 以用來計算倍數或比率。 例如:年齡,身高,體重,每分鐘心跳的次數, 每天抽煙的支數。我們可以描述新生兒體重 9 磅 (4082 公克, 1 磅 =453.592 公克 ) 是 6 磅 (2722 公克 ) 的 1.5 倍,若換算為公克測量則亦為 1.5 倍 (4082/2722=1.5) 。所以體重的尺度是一種等距尺 度,也是一種等比尺度。
19
分佈概論 : 何謂分佈 (Distribution)? 在統計思維中,分佈係指針對某一我們感興 趣的變數 (Variable) 。將其搜集到的值 (Observation) 以有系統的方式加以整理並呈 現出來。 可以長條圖 (Bar Charts): categorical data 或直方圖 (Histograms): continuous data 表示 變數分佈 (Distribution)
20
例 1 :不連續變數 ( 類別或序位 ) 的分佈: 2560 位 AIDS 病人中, Kaposis sacoma 疾病狀態的分佈情形, 以 Bar Charts 表示。 個案 Kaposis 11 20 31 41 50 60 …… …… 25601 個案 Kaposi s 11 31 41 501 1981 2001 …… …… 25500 Kaposis 次數相對次數 Yes246 246/2560=0.1 0 No2314 2314/2560=0. 90 相對次數 = 次數 / 總次數 排序
21
例 2 :連續變數 ( 等距或等比 ) 的分佈:新生兒體重的 分佈,將資料分組,以直方圖 (Histogram) 表示 。 新生兒體重 次數 0-4994843 500-99917,487 1000-149923,139 1500-199949,112 2000-2499160,919 2500-2999597,738 3000-34991,376,008 3500-39991,106,634 4000-4499344,390 4500-499962,769 5000-55008236 總計 3,751,275 新生兒體 重 相對次數 (%) 0-4994843/3751275=0.1 500-99917487/3751275=0.5 1000-14990.6 1500-19991.3 2000-24994.3 2500-299915.9 3000-349936.7 3500-399929.5 4000-44999.2 4500-49991.7 5000-55000.2 總計 100 相對次數 = 次數 / 總次數
22
樣本平均數 【樣本平均數 (Sample Mean, Arithmetic Mean) 】 兩密閉室 ( 甲, 乙 ) 的溫度的集中趨勢
23
樣本變異數與樣本標準差 【樣本變異數 (Sample Variance) (s 2 ) , 樣本標準差 (Sample Standard Deviation) (s) 】 兩密閉室 ( 甲, 乙 ) 的溫度的分散趨勢
24
許多變項的分佈服從常態分佈 常態分佈 圖形隨平均數及標 準差不同而不同 平均數 =10 標準差 =1.5 平均數 =20 標準差 =4
25
範例: AV 為臨床指標 若無腫瘤患者 AV 值的分佈為常態分佈 X~N(10,1.5 2 ) 理論上可得到有 68 %的機率落在 (8.5,11.5) 中間 可得到有 95 %的機率落在 (7,13) 中間 可得到有 99 %的機率落在 (5.5,14.5) 中間 68%
26
若有 無腫瘤患者 AV 值的分佈為常態分佈 X~N(20,4 2 ) 任何常態資料若經標準化, 理論上可得到有 68 %的機率落在 (16,24) 中間 可得到有 95 %的機率落在 (12,28) 中間 可得到有 99 %的機率落在 (8,32) 中間 68% *** 由平均值及標準差可知兩族群人 AV 值的分佈, 進而 ….
27
Thanks for your attention~
Similar presentations
© 2025 SlidePlayer.com. Inc.
All rights reserved.