如何建立檔案 中國醫藥大學 公衛系 梁文敏 副教授 TEL: 04-22053366-6107

Slides:



Advertisements
Similar presentations
1 生物計算期末作業 暨南大學資訊工程系 2003/05/13. 2 compare f1 f2  只比較兩個檔案 f1 與 f2 ,比完後將結果輸出。 compare directory  以兩兩比對的方式,比對一個目錄下所有檔案的相 似程度。  將相似度很高的檔案做成報表輸出,報表中至少要.
Advertisements

Chapter Four Parameter Estimation and Statistical Inference.
本章結構 前言 符號介紹與立透法則 指數機率分配 基本無限來源模式 基本有限來源模式 等候系統的經濟分析-最佳化 進階等候模式 16-1.
布林代數的應用--- 全及項(最小項)和全或項(最大項)展開式
第七章 抽樣與抽樣分配 蒐集統計資料最常見的方式是抽查。這 牽涉到兩個問題: 抽出的樣本是否具有代表性?是否能反應出母體的特徵?
:Word Morphing ★★☆☆☆ 題組: Problem Set Archive with Online Judge 題號: 10508:word morphing 解題者:楊家豪 解題日期: 2006 年 5 月 21 日 題意: 第一行給你兩個正整數, 第一個代表下面會出現幾個字串,
Section 1.2 Describing Distributions with Numbers 用數字描述分配.
Advanced Chemical Engineering Thermodynamics
指導教授:陳淑媛 學生:李宗叡 李卿輔.  利用下列三種方法 (Edge Detection 、 Local Binary Pattern 、 Structured Local Edge Pattern) 來判斷是否為場景變換,以方便使用者來 找出所要的片段。
Stat_chi21 類別資料 (Categorical data) 一種質性資料, 其觀察值可歸類於數個不相交的項目內, 例 : 性別, 滿意度, …, 一般以各項的統計次數表現. 分析此種資料,通常用卡方檢定 類別資料分析 卡方檢定 卡方檢定基本理論 一個含有 k 項的試驗,設 p i.
©Ming-chi Chen 社會統計 Page.1 社會統計 第十講 相關與共變. ©Ming-chi Chen 社會統計 Page.2 Covariance, 共變量 當 X, Y 兩隨機變數不互為獨立時,表示 兩者間有關連。其關連的形式有很多種, 最常見的關連為線性的共變關係。 隨機變數 X,Y.
: OPENING DOORS ? 題組: Problem Set Archive with Online Judge 題號: 10606: OPENING DOORS 解題者:侯沛彣 解題日期: 2006 年 6 月 11 日 題意: - 某間學校有 N 個學生,每個學生都有自己的衣物櫃.
: ShellSort ★★☆☆☆ 題組: Problem D 題號: 10152: ShellSort 解題者:林一帆 解題日期: 2006 年 4 月 10 日 題意:烏龜王國的烏龜總是一隻一隻疊在一起。唯一改變烏龜位置 的方法為:一隻烏龜爬出他原來的位置,然後往上爬到最上方。給 你一堆烏龜原來排列的順序,以及我們想要的烏龜的排列順序,你.
消費者物價指數反映生活成本。當消費者物價指數上升時,一般家庭需要花費更多的金錢才能維持相同的生活水準。經濟學家用物價膨脹(inflation)來描述一般物價持續上升的現象,而物價膨脹率(inflation rate)為物價水準的變動百分比。
Section 2.3 Least-Squares Regression 最小平方迴歸
STAT0_sampling Random Sampling  母體: Finite population & Infinity population  由一大小為 N 的有限母體中抽出一樣本數為 n 的樣 本,若每一樣本被抽出的機率是一樣的,這樣本稱 為隨機樣本 (random sample)
第 4 章 迴歸的同步推論與其他主題.
1 政大公企中心產業人才投資課程 -- 企業決策分析方法 -- 黃智聰 政大公企中心產業人才投資課程 課程名稱:企業決策分析方法 授課老師:黃智聰 授課內容:利用分公司之追蹤資料進行企業決策分析 參考書目: Hill, C. R., W. E. Griffiths, and G. G. Judge,
McGraw-Hill/Irwin © 2003 The McGraw-Hill Companies, Inc.,All Rights Reserved. 肆 資料分析與表達.
STAT0_corr1 二變數的相關性  變數之間的關係是統計研究上的一大目標  討論二分類變數的相關性,以列聯表來表示  討論二連續隨機變數時,可以作 x-y 散佈圖觀察它 們的關係強度  以相關係數來代表二者關係的強度.
平均值檢定 假設 檢定 One Sample 平均值 是否為 u. One Sample—1 工廠甲過去向 A 公司購買原料, 平均交貨日約為 4.94 日, 標準差 現在 A 公司改組, 甲工廠繼續向 A 公司 購買, 隨機抽取 8 次採購, 平均日數為 4.29 日, 請問 A 公.
Section 2.2 Correlation 相關係數. 散佈圖 1 散佈圖 2 散佈圖的盲點 兩座標軸的刻度不同,散佈圖的外觀呈 現的相聯性強度,會有不同的感受。 散佈圖 2 相聯性看起來比散佈圖 1 來得強。 以統計數字相關係數做為客觀標準。
Part 1 Understanding Data Chapter 1 Examining Distributions Chapter 2 Examining Relationships Chapter 3 Producing Data.
McGraw-Hill/Irwin © 2003 The McGraw-Hill Companies, Inc.,All Rights Reserved. 肆 資料分析與表達.
1 政治大學東亞所選修 -- 計量分析與中國大陸研究黃智聰 政治大學東亞所選修 課程名稱:計量分析與中國大陸研究 (量化分析) 授課老師:黃智聰 授課內容:時間序列與橫斷面資料的共用 參考書目: Hill, C. R., W. E. Griffiths, and G. G. Judge, (2001),
1 單元三 查詢結果的引用分析 Web of Science 利用指引 查看出版及被引用情況 在查詢結果的清單中,可以瀏覽近 20 年來查詢主題出版和被引用的情況。
2009fallStat_samplec.i.1 Chap10 Sampling distribution (review) 樣本必須是隨機樣本 (random sample) ,才能代表母體 Sample mean 是一隨機變數,隨著每一次抽出來的 樣本值不同,它的值也不同,但會有規律性 為了要知道估計的精確性,必需要知道樣本平均數.
民意調查的分析 II 蔡佳泓 政大選舉研究中心 副研究員. 課程大綱 假設的檢定 研究假設 H1: 研究假設 ( 例: X 與 Y 相關 ) H0: 虛無假設 ( 例: X 與 Y 無關 ) 檢定結果:接受虛無假設或拒斥虛無假 設,但不代表接受研究假設.
具備人臉追蹤與辨識功能的一個 智慧型數位監視系統 系統架構 在巡邏模式中 ,攝影機會左右來回巡視,並 利用動態膚色偵測得知是否有移動膚色物體, 若有移動的膚色物體則進入到追蹤模式,反之 則繼續巡視。
信度.
1 第四章 多變數函數的微分學 § 4.1 偏導數定義 定義 極限值 ■. 2 定理 極限值的基本定理 (1) 極限值的唯一性 : 若 存在,則 其值必為唯一。 (2) 若 且 ( 與 為常數 ) , 則 且 為常數且.
Chapter 13 塑模靜態觀點:物件圖 Static View : Object Diagram.
: The largest Clique ★★★★☆ 題組: Contest Archive with Online Judge 題號: 11324: The largest Clique 解題者:李重儀 解題日期: 2008 年 11 月 24 日 題意: 簡單來說,給你一個 directed.
Ch05 確定研究變項.
選舉制度、政府結構與政 黨體系 Cox (1997) Electoral institutions, cleavage strucuters, and the number of parties.
CH 15- 元件可靠度之驗證  驗證方法  指數模式之可靠度驗證  韋式模式之可靠度驗證  對數常態模式之可靠度驗證  失效數為零時之可靠度估算  各種失效模式之應用.
: Multisets and Sequences ★★★★☆ 題組: Problem Set Archive with Online Judge 題號: 11023: Multisets and Sequences 解題者:葉貫中 解題日期: 2007 年 4 月 24 日 題意:在這個題目中,我們要定義.
:Nuts for nuts..Nuts for nuts.. ★★★★☆ 題組: Problem Set Archive with Online Judge 題號: 10944:Nuts for nuts.. 解題者:楊家豪 解題日期: 2006 年 2 月 題意: 給定兩個正整數 x,y.
第七章 連續機率分配.
資料結構實習-一 參數傳遞.
政治大學公企中心必修課-- 社會科學研究方法(量化分析)--黃智聰
1 Introduction to Java Programming Lecture 2: Basics of Java Programming Spring 2008.
觀測量的權 權的觀念與計算.
: Beautiful Numbers ★★★★☆ 題組: Problem Set Archive with Online Judge 題號: 11472: Beautiful Numbers 解題者:邱經達 解題日期: 2011 年 5 月 5 日 題意: 若一個 N 進位的數用到該.
Section 4.2 Probability Models 機率模式. 由實驗看機率 實驗前先列出所有可能的實驗結果。 – 擲銅板:正面或反面。 – 擲骰子: 1~6 點。 – 擲骰子兩顆: (1,1),(1,2),(1,3),… 等 36 種。 決定每一個可能的實驗結果發生機率。 – 實驗後所有的實驗結果整理得到。
演算法 8-1 最大數及最小數找法 8-2 排序 8-3 二元搜尋法.
Chapter 3 Entropy : An Additional Balance Equation
845: Gas Station Numbers ★★★ 題組: Problem Set Archive with Online Judge 題號: 845: Gas Station Numbers. 解題者:張維珊 解題日期: 2006 年 2 月 題意: 將輸入的數字,經過重新排列組合或旋轉數字,得到比原先的數字大,
Structural Equation Modeling Chapter 6 CFA 根據每個因素有多重指標,以減少 測量誤差並可建立問卷的構念效度 驗證性因素分析.
Learning Method in Multilingual Speech Recognition Author : Hui Lin, Li Deng, Jasha Droppo Professor: 陳嘉平 Reporter: 許峰閤.
Chapter 10 m-way 搜尋樹與B-Tree
C7_prob_2 1 Chap 7 機率論 隨機變數 (random variable) :一群數量的 代表,它們的值是由機會決定的,通常以 大寫英文字母表示 隨機變數分為離散型與連續型兩種。 機率分布 (probability distribution) : 描述 隨機變數值的機率變化 離散型變數的分布直接以.
描述統計 描述統計(Descriptive Statistics)-將蒐集到的資料加以整理和記錄,並以數字和統計圖表的方式來分析及解釋資料所具有的特性. 基本統計值(平均數,中位數,標準差,變異量….) 相關性測量(卡方,相關係數,迴歸…)
Probability Distribution 機率分配 汪群超 12/12. 目的:產生具均等分配的數值 (Data) ,並以 『直方圖』的功能計算出數值在不同範圍內出現 的頻率,及繪製數值的分配圖,以反應出該 機率分配的特性。
Chapter 7 Sampling Distribution
Cluster Analysis 目的 – 將資料分成幾個相異性最大的群組 基本問題 – 如何衡量事務之間的相似性 – 如何將相似的資料歸入同一群組 – 如何解釋群組的特性.
冷凍空調自動控制 - 系統性能分析 李達生. Focusing here … 概論 自動控制理論發展 自控系統設計實例 Laplace Transform 冷凍空調自動控制 控制系統範例 控制元件作動原理 控制系統除錯 自動控制理論 系統穩定度分析 系統性能分析 PID Controller 自動控制實務.
連續隨機變數 連續變數:時間、分數、重量、……
Teacher : Ing-Jer Huang TA : Chien-Hung Chen 2015/6/30 Course Embedded Systems : Principles and Implementations Weekly Preview Question CH7.1~CH /12/26.
Ch05 確定研究變項.
: Finding Paths in Grid ★★★★☆ 題組: Contest Archive with Online Judge 題號: 11486: Finding Paths in Grid 解題者:李重儀 解題日期: 2008 年 10 月 14 日 題意:給一個 7 個 column.
:Problem E.Stone Game ★★★☆☆ 題組: Problem Set Archive with Online Judge 題號: 10165: Problem E.Stone Game 解題者:李濟宇 解題日期: 2006 年 3 月 26 日 題意: Jack 與 Jim.
財務管理概論 劉亞秋‧薛立言 合著 (東華書局, 2007)
幼兒行為觀察與記錄 第八章 事件取樣法.
1 Chemical and Engineering Thermodynamics Chapter 1 Introduction Sandler.
CH 14-可靠度工程之數學基礎 探討重點 失效時間之機率分配 指數模式之可靠度工程.
McGraw-Hill/Irwin © 2003 The McGraw-Hill Companies, Inc.,All Rights Reserved. 肆 資料分析與表達.
Presentation transcript:

如何建立檔案 中國醫藥大學 公衛系 梁文敏 副教授 TEL:

如何建立檔案 從資料庫的觀點 *** 資料分析第一階段建檔 從表格的觀點 資料分析最後階段呈現結果

建檔方式 --- 範例 三個人測量兩密閉室 ( 甲, 乙 ) 的溫度 或 x x

如何建立檔案 1. 確立變項 2. 對變項命名及變項命名原則 3. 以 “ 欄 (Column)” 為單位,建立每一個變項 4. 以 “ 列 (Row)” 為單位,建立每一筆資料 (Record) 5. 保持原始資料的單純性及可擴充性

1. 確立變項 每一個變項 (Variable) 代表一種訊息 (Information) 例如密閉室溫度範例中的訊息包括: 室別 ( 甲, 乙 ) 、溫度 ( 攝氏 ) 、 個案代號 ( 可表示該 溫度是誰測量的 ) ,故共有三個變項 變項命名: ( 補充 : 變項命名原則 ) 室別、溫度、 個案代號

2. 對變項命名 中文命名 ( 正確 : 室別、溫度、 個案代號 ) ( 錯誤 : 室別 -1 、 2 個案代號 ) 英文命名 ( 正確 : roomname 、 temp 、 subj_id) ( 錯誤 : 2room 、 temperature 、 subject-id)

2. 對變項命名 -- 變項命名原則 中文命名 1. 第一個字母不為特殊字元或數字,如: #2 人口 _ 男 ( 錯誤 ) 2. 名稱中不要放入特殊符號,如:人口 -male2( 錯誤 ) 3. 名稱不要超過 4 個中文字,如:人口數男生 _2( 錯誤 ) ** 正確名稱:人口 _ 男 2 或 人口 _m2 或 人口男 _2 英文命名 1. 第一個字母不為特殊字元或數字,如: 2pop_m( 錯誤 ) 2. 名稱中不要放入特殊符號,如: pop&m-2( 錯誤 ) 3. 名稱不要超過 8 個英文字,如: popmale_2( 錯誤 ) ** 正確名稱: pop_m2 或 pop_m_2 或 popmale2

3. 以 “ 欄 (Column)” 為單位,建立每一個變項 ---- 在第一欄建立變項名稱 一個 EXCEL 檔可開多個工作表將原始資料檔單獨放在一個工作表中

4. 以 “ 列 (Row)” 為單位,建立每一筆資料 (Record, Observation) 共 6 筆資料 按滑鼠右鍵 重新命名 將工作表重新命名為 : 原始資料

5. 保持原始資料的單純性及可擴充性 --- 單純性 : 若要處理. 把資料依需要貼在其他工作表上 插入 工作表 重新命名

5. 保持原始資料的單純性及可擴充性 ---- 可擴充性 : 4 個變項、 9 筆資料 原始資料增加為 4 個變項、 9 筆資料

變數類型及分布

變數, 變項( Variable ) ( 相對於常數, Constant) 及變數名稱 (Variable Name) 資料依不同的人,而有不同的數值或特性, 故稱為變數,例如抽取 5 個學生,有男有女, 有高有矮,資料會隨著樣本不同而變化, 故稱為變數; 每種變數的代號稱為變數名稱 (Variable Name) 或變數,例如:性別、身高為變數 名稱或變數。

隨機變數 (Random Variable) 搜集資料時,若決定抽取 n 個樣本,則資料 會隨著抽取樣本不同而不同,例如抽取坐 在前排的 5 個女生的身高,會與抽取坐在後 排的 5 個女生的身高不同。 在做決定抽取何者為樣本時,若沒有預設 立場,完全隨機會 (by chance) 決定,該資 料稱為隨機變數。

變數類型( Variable Type ) 類別變數( Nominal variable ): 將資料分門別類,各類資料之間沒有程度 或次序性的 b. 關係,且為彼此互斥的,屬 定性的測量。 例如 : 性別 ( 男、女 ) ,血型 (A, B, O, AB, other) ,抽煙與否 ( 抽煙、不抽煙 ) 。若該變 數只分為兩類稱為二分法類別變數 (Dichotomous Variable) 。

變數類型( Variable Type ) 序位變數( Ordinal Variable ): 和類別尺度一樣,將資料分類且為彼此互斥的,但 彼此之間有程度上的差異。 例如癌症病人病況分期 (I 、 II 、 III 、 IV 期 ) ,抽煙程 度狀況 ( 未抽煙、曾抽煙但已戒煙、少於 1 包 / 每日、 1 包以上 / 每日 ) ,病人對醫生問診態度的滿意度 ( 非 常滿意、滿意、普通、不滿意、非常不滿意 ) 。 各類之間不一定有倍數或距離的關係,是屬於半 定量的測量,例如:癌症 IV 期病人的病況並非癌 症 II 期病人的病況的兩倍。

變數類型( Variable Type ) 等距變數 (Interval Variable) : 每個單位都是一樣大小,且測量值可以完全表現出程度的 大小,屬定量的測量。 例如年齡,身高,體重,氣溫,每分鐘心跳的次數,每天 抽煙的支數。等距尺度不一定具有絕對的零點。其中有些 零點是人為決定的。 例如氣溫,華氏與攝氏溫度的零點,是人為決定的,並沒 有絕對的零點的存在。攝氏 30.7 度到 28.7 度的距離與攝氏 16.7 度到 14.7 度的距離相等,但我們不能描述攝氏 30 度 ( 華氏 86 度 ) 是攝氏 15 度 ( 華氏 59 度 ) 的兩倍,因為若以華氏 則不到兩倍 (86/59=1.46) 。所以氣溫的尺度是一種等距尺 度,但不是一種等比尺度。

變數類型( Variable Type ) 等比變數 (Ratio Variable) : 若等距尺度中具有絕對的零點,稱為等比尺度。可 以用來計算倍數或比率。 例如:年齡,身高,體重,每分鐘心跳的次數, 每天抽煙的支數。我們可以描述新生兒體重 9 磅 (4082 公克, 1 磅 = 公克 ) 是 6 磅 (2722 公克 ) 的 1.5 倍,若換算為公克測量則亦為 1.5 倍 (4082/2722=1.5) 。所以體重的尺度是一種等距尺 度,也是一種等比尺度。

分佈概論 : 何謂分佈 (Distribution)? 在統計思維中,分佈係指針對某一我們感興 趣的變數 (Variable) 。將其搜集到的值 (Observation) 以有系統的方式加以整理並呈 現出來。 可以長條圖 (Bar Charts): categorical data 或直方圖 (Histograms): continuous data 表示 變數分佈 (Distribution)

例 1 :不連續變數 ( 類別或序位 ) 的分佈: 2560 位 AIDS 病人中, Kaposis sacoma 疾病狀態的分佈情形, 以 Bar Charts 表示。 個案 Kaposis …… …… 個案 Kaposi s …… …… Kaposis 次數相對次數 Yes /2560=0.1 0 No /2560=0. 90 相對次數 = 次數 / 總次數 排序

例 2 :連續變數 ( 等距或等比 ) 的分佈:新生兒體重的 分佈,將資料分組,以直方圖 (Histogram) 表示 。 新生兒體重 次數 , , , , , ,376, ,106, , , 總計 3,751,275 新生兒體 重 相對次數 (%) / = / = 總計 100 相對次數 = 次數 / 總次數

樣本平均數 【樣本平均數 (Sample Mean, Arithmetic Mean) 】 兩密閉室 ( 甲, 乙 ) 的溫度的集中趨勢

樣本變異數與樣本標準差 【樣本變異數 (Sample Variance) (s 2 ) , 樣本標準差 (Sample Standard Deviation) (s) 】 兩密閉室 ( 甲, 乙 ) 的溫度的分散趨勢

許多變項的分佈服從常態分佈 常態分佈 圖形隨平均數及標 準差不同而不同 平均數 =10 標準差 =1.5 平均數 =20 標準差 =4

範例: AV 為臨床指標 若無腫瘤患者 AV 值的分佈為常態分佈 X~N(10,1.5 2 ) 理論上可得到有 68 %的機率落在 (8.5,11.5) 中間 可得到有 95 %的機率落在 (7,13) 中間 可得到有 99 %的機率落在 (5.5,14.5) 中間 68%

若有 無腫瘤患者 AV 值的分佈為常態分佈 X~N(20,4 2 ) 任何常態資料若經標準化, 理論上可得到有 68 %的機率落在 (16,24) 中間 可得到有 95 %的機率落在 (12,28) 中間 可得到有 99 %的機率落在 (8,32) 中間 68% *** 由平均值及標準差可知兩族群人 AV 值的分佈, 進而 ….

Thanks for your attention~