Statistični urad Republike Slovenije

Slides:



Advertisements
Similar presentations
Pomladanska napoved gospodarskih gibanj 2015
Advertisements

Panevropska javnomnenjska raziskava o varnosti in zdravju pri delu Rezultati po Evropi in v Sloveniji - Maj 2013 Reprezentativni rezultati v 31 evropskih.
INFORMACIJSKA TEHNOLOGIJA projektna naloga pri predmetu informatika
Miha Pihler MCSA, MCSE, MCT, CISSP, Microsoft MVP
Ekspertne ocene in bibliometrijske ocene: Dve strani istega kovanca? Primož Južnič Pripravljeno za predmet Bibliometrija.
PODPORA IKT PRI POUČEVANJU NARAVOSLOVNIH VSEBIN
Prvi razpis programa Jugovzhodna Evropa potek razpisa Tomaž Miklavčič Ministrstvo za okolje in prostor Direktorat za evropske zadeve in investicije Novo.
1 EDUKACIJA BOLNIKOV pred uvedbo zdravila MAREVAN (tudi Sintrom) Alenka Mavri.
Organisations and Human Resources Research Centre Uporaba ADS podatkov v praksi (predavanja) Doc. dr. Miroljub Ignjatović februar 2014.
Pregled programa MED Nacionalni informativni dan ob prvem razpisu Ljubljana, 9. september 2015 mag. Nadja Kobe Služba Vlade RS za razvoj in.
TIPI PODATKOV. Načrt Najprej je potrebno dobro premisliti o problemu Katere podatke hranimo, kako podatke razporediti v tabele, kakšne vrste podatkov.
Installfest delavnica mag. Aleš Košir Lugos
Statistično zaključevanje (inferenčna statistika)
Slovenija in razvoj e-vsebin v primerjavi s svetovnimi trendi
Project management implementation from the practical point of view
Srečko Bončina Izposoja e-knjig eBooks na EBSCOHost-u
Kvantitativna analiza podatkov
MALE SIVE CELICE, RTV Slovenija
Poimenovanje kazalnikov dohodka in revščine
OKOLJSKI RAČUNI “Okoljske takse”
Vzorčenje in statistično zaključevanje
Uvod v Python
Urnik – varno programiranje – odmor – napredno razhroščevanje Cilj: v prvem delu vsakomur dati vsaj eno dobro.
ZBIRANJE IN VIRI STATISTIČNIH PODATKOV
R V P 2 Predavanje 04 Animacija RVP2 Animacija.
Grafični vmesnik - GUI Izdelava obrazca: lastnosti, odzivne metode
DELOVANJE POVEZAV V STANOVANJU
DK – Industrijske komunikacije
in osnove programa Microsoft Access
ENERGETIKA IN ENERGETSKE NAPRAVE
Irena Setinšek, IRM Mediana Janez Jereb, IRM Mediana
Odvisnost podjetja od okolja
Trajnostni razvoj Finalisti: France Ocepek Urška Lušina
Fotografiranje hrane Predmet: Tipografija in reprodukcija.
IZBRANI PRIMERI UPORABE IKT V VELIKI BRITANIJI IN NEMČIJI
Modulacija in demodulacija signalov (prirejeno po gradivu avtorja N
Izbrana Poglavja iz Informacijskih Tehnologij (IPIT)
Uporaba vrtilnih tabel za analizo množice podatkov
Agencija Republike Slovenije za okolje
OBDELAVA (PROCESIRANJE PODATKOV)
Microsoftove rešitve za šolstvo
MS Excel, Open Office Calc, Gnumeric …
1. slovenska SHARE konferenca za uporabnike Ljubljana, 22. januar 2013
v raziskovanju družinske terapije
Operacijski sistemi Lucijan Katan, 1.at Mentor: Branko Potisk.
DAVKI V ZVEZI Z VARSTVOM OKOLJA
Algoritmi.
Šalej Mirko Iskraemeco, d.d. Kranj
Projekt eMarket Services
Arhiv družboslovnih podatkov:
Utišajmo mobilne telefone !
OSMOSE Predstavitev projekta
Binarna logistična regresija
SURS: ZBIRANJE IN UREJANJE STATISTIČNIH PODATKOV mag
(Inter)aktivno delo s podatki pri matematiki
UML – je standardno pogoj za univerzalno ?
Pripravila: Nuška BRNOT
Ela Reven, Katarina urbančič
Ugani število Napišimo program, ki si “izmisli” naključno število, potem pa nas v zanki sprašuje, katero je izmišljeno število. Če število uganemo, nas.
REINOVIRANJE SPOSOBNOST OZAVEŠČENEGA POSLOVNEGA OKOLJA, KI OMOGOČA OBSTOJ PODJETJA NE GLEDE NA VELIKOST, NEPREDVIDLJIVOST SPREMEMB V OKOLJU.
E-mobilnost in njena integracija v elektroenergetski sistem
in osnove programa Microsoft Access
Stavek switch, zanka foreach
Razlaga korelacije vzročna povezanost X in Y ???
Informacijska varnost v Oracle okolju
Hip hop kultura Vse slike so iz tekmovanja IBE. HIP HOP kultura.
Mag. Iztok Sirnik Direktorat za e-upravo in upravne procese
Statistični sosvet za zdravje, Ljubljana 4. junija 2009
Univerzitetni podiplomski študij Statistika Seminar Uradna statistika, marec 2003 Uvodne teme Uradna statistika ter njeni pravni, organizacijski in institucionalni.
Simona Šabić, Association DrogArt Addictions 2017,
Presentation transcript:

Statistični urad Republike Slovenije Predstavitev za študente podiplomskega študija statistike Ljubljana, 20.03.2003

Vsebina predstavitve Metodologija raziskovanj na SURS-u (Metka Zaletel, Rudi Seljak) Proces pretoka podatkov na SURS-u (Pavle Kozjek) Časovne vrste in zakrivanje podatkov (Nina Jukić) Diseminacija podatkov (Uta Kuhar)

anketno metodologijo in modele GENERALNI DIREKTOR NAMESTNICA GENERALNEGA DIREKTORJA SAMOSTOJNI IZVAJALCI TAJNIŠTVO GENERALNEGA DIREKTORJA SLUŽBA ZA MEDNARODNE ODNOSE IN EVROPSKE ZADEVE SLUŽBA ZA PROGRAM STATISTIČNIH RAZISKOVANJ SLUŽBA ZA SPRS*, KLASIFIKACIJE IN STATISTIKO PODJETIJ SEKTOR 1 Skupne statistične storitve SEKTOR 2 Nacionalni računi In cene SEKTOR 3 Ekonomske statistike SEKTOR 4 Demografske in socialne statistike SEKTOR 5 Statistika naravnih virov in okolja SEKTOR 6 Izkazovanje statističnih podatkov in metod SEKTOR 7 Produkcija lastnih statističnih baz podatkov SEKTOR 8 Statistična informacijska infrastr. In tehn. SEKTOR 9 Skupne službe Oddelek za vzorčenje, anketno metodologijo in modele

Delo oddelka Anketna metodologija Priprava vzorčnih okvirov Vzorčni načrti in izbor vzorcev Uteževanje zbranih podatkov Analiza podatkov (neodgovor, natančnost ocen, vpliv uteži, kakovost podatkov) Analiza časovnih vrst Statistična zaščita podatkov Kakovost podatkov, procesov in storitev Razvoj in uporaba metod imputacij podatkov Glavne naloge oddelka so: Priprava vzorčnih okvirov, iz katerih izbiramo vzorce Izdelava vzorčnega načrta in izbor vzorcev za ankete Uteževanje podatkov Analiza podatkov (analiza neodgovora, izračun natančnosti ocen, vpliv uteži na ciljne spremenljivke...) Analiza časovnih vrst Statististično zakritje podatkov Kakovost podatkov, procesov in storitev Razvoj metod imputacije podatkov

Glavna orodja SAS CALMAR (kalibracija) IVEWARE (imputacije, variance) DEMETRA (analiza časovnih vrst) -ARGUS in -ARGUS (zaščita podatkov) MS-Office (Excel, Word, Access, PPT) Glavna delovna orodja: SAS (programski paket za statistično analizo podatkov) SUDAAN (ocenjevanje variance za kompleksne vzorčne načrte) CALMAR (kalibracija) DEMETRA (časovne vrste) EXCEL WORD

Metodološki del procesa Definicija ciljnih spremenljivk in ciljne populacije Določitev vzorčnega okvira Določitev vzorčnega načrta in velikosti vzorca Izbor vzorca Terenska faza Vnos, kontrola in obdelava podatkov Uteževanje in analiza vpliva uteži Analiza neodgovora Natančnost ciljnih spremenljivk Poročilo o kakovosti

Vrste anket (glede na ciljno populacijo) Ankete oseb in gospodinjstev Centralni register prebivalstva (CRP) Baza telefonskih naročnikov v RS Ankete podjetij Poslovni register (PRS) skupaj z drugimi viri (npr. zaključni računi) Ankete kmetij Statistični register kmetij (SRK) Vrste anket (glede na ciljno populacijo), ki jih izvajamo na uradu so: Ankete oseb in gospodinjstev, za katere je vzorčni okvir Centralni register prebivalstva (CRP) in Telefonski imenik zasebnih telefonskih naročnikov Republike Slovenije Poslovne ankete , za katere je vzorčni okvir Poslovni register (PRS) dopolnjen z drugimi viri, npr. zaključni računi Kmetijske ankete , za katere je vzorčni okvir Statistični register kmetij

Podatkovne baze za vzorčne okvire terenskih anket oseb in gospodinjstev Glavni vir je Centralni register prebivalstva (CRP), kombiniran z Registrom prostorskih enot (RPE), ki ga ureja Geodetska uprava Republike Slovenije. Vzorčne okvire pri terenskih anketah oseb in gospodinjstev zgradimo iz dveh virov: iz CRP-ja iz RPE.

Centralni register prebivalstva V CRP-ju so vsi državljani Republike Slovenije in tujci, ki imajo v Sloveniji stalno bivališče. Njihova identifikacijska številka je emšo. Podatki v CRP-ju: ime, priimek, datum in kraj rojstva, naslov, zakonski stan, šifra in datum zadnjega dogodka (poroka, rojstvo, selitev, sprememba imena...) Problemi s pokritjem: v CRP-ju ni začasno prijavljenih tujcev, beguncev, osebe stanujejo drugje, kot so prijavljene.

Vzorčni okviri pri terenskih anketah oseb in gospodinjstev Odvisni od vzorčnega načrta Vzorčni načrti so navadno stratificirani sistematični (izbor po seznamu) ali stratificirani dvostopenjski Na prvi stopnji izbiramo vzorčne enote znotraj stratumov z verjetnostjo proporcionalno njihovi velikosti (PPS) Na drugi stopnji pa izberemo fiksno število odraslih oseb iz izbranih vzorčnih enot. Koliko oseb izbiramo na drugi stopnji, je odvisno od ankete (pri APG 4, APČ 6)

Stratifikacija po statističnih regijah (12) po tipu naselja in deležu kmečkega prebivalstva nekmečka z manj kot 2000 prebivalci (število kmetij/št.hišnih številk < 0,3) kmečka z manj kot 2000 prebivalci (število kmetij/št.hišnih številk >= 0,3) 2,000-10,000 prebivalcev 10,000-100,000 prebivalcev Maribor Ljubljana

Okvir vzorčnih enot Izhajamo iz popisnih okolišev Problem: premajhni popisni okoliši (število gospodinjstev<30) Rešitev: združevanje premajhnih popisnih okolišev v vzorčne enote Rezultat: okvir vzorčnih enot, ki je stratificiran po statističnih regijah ter po tipu naselja in deležu kmečkega prebivalstva.

Vzorci oseb in gospodinjstev Izbrane osebe predstavljajo (odvisno od ankete) vzorec oseb ali nas vodijo do gospodinjstva, katerega člani so oz. nas vodijo na naslov, na katerem prebiva gospodinjstvo, ki nas zanima. Pri vzorcih gospodinjstev imajo večja gospodinjstva večjo verjetnost, da so izbrana Problem rešimo z uteževanjem

Terenske ankete oseb in gospodinjstev na SURS-u Anketa o delovni sili (ADS) Anketa o porabi v gospodinjstvih (APG) Anketa o porabi energije in goriv v gospodinjstvih (APEGG, 2003) Anketa o porabi časa (APČ, 2001) Anketa o najetih stanovanjih (ANS, 2003)

APG Zbiramo podatke o razpoložljivih in porabljenih sredstvih v zasebnih gospodinjstvih v Sloveniji. Namen: izdelava ponderjev za izračunavanje indeksa cen življenjskih potrebščin, struktura porabe, itd. Podatke zbiramo z vprašalniki in dvotedenskimi dnevniki izdatkov.

APG - vzorec Bruto vzorec 1600 gospodinjstev Neto vzorec 1200 izpolnjenih anket Vzorec je stratificiran po statističnih regijah in tipih naselja Uporabljamo dva vzorčna načrta v manjših naseljih je vzorec dvostopenjski v večjih naseljih pa sistematično izbiramo osebe po stratumih

APG - obdelava podatkov Letna velikost vzorca (1200 gospodinjstev) je premajhna za natančne ocene. Danski model pri obdelavi podatkov: združevanje treh zaporednih let, preračunanih na srednje leto. Ocene na 3600 gospodinjstvih.

APG - uteževanje Dve vrsti uteži: vzorčna utež, ki je produkt uteži: utež zaradi neenake verjetnosti izbora gospodinjstev, utež za neodgovora, poststratifikacijske uteži (popravek stratumske alokacije), raking: popravek porazdelitve oseb v anketiranih gospodinjstvih glede na spol in starost in popravek strukture velikosti gospodinjstev glede na večjo anketo o delovni sili iz leta 1995. utež zaradi različnega časa anketiranja in različnih referenčnih obdobij spremenljivk

APG - analiza neodgovora

Anketa o delovni sili (ADS) Namen: zagotavljanje zanesljivih podatkov o stanju in spremembah na slovenskem trgu dela: število in stopnjo delovno aktivnega prebivalstva število in stopnja brezposelnih število in stopnja aktivnih Začetki ADS v Sloveniji segajo v leto 1989, današnja metodologija je v veljavi od 1997.

Anketa o delovni sili (ADS) Metodologija je harmonizirana in primerljiva z zahtevami: Mednarodne organizacije za delo (ILO) Statističnega urade Evropske unije (EUROSTAT) Največja anketa gospodinjstev v Sloveniji.

Metodologija ADS (od leta 1997) Kontinuirana, izbor vzorca in objava rezultatatov je četrtletna Vzorčni načrt: panel (5 ponovitev po modelu 3-1-2) stratificiran SRS (47 stratumov glede na tip naselje in statistično regijo) četrtletno anketiramo ~2000 novih gospodinjstev (CAPI) in ~5000 gospodinjstev ponovno anketiramo (CATI)

Zakaj panel? spremljanje prehodov med stanji v različnih časovnih točkah, ocena razlik 2001 III/IV Brezposelni Delovno aktivni Neaktivni 51,6 % 1,3 % 9,3 % 21,7 % 93,5 % 2,0 % 26,7 % 5,2 % 88,7 % Skupaj 100 %

Uteži pri ADS uteži zaradi različnih verjetnosti izbora uteži zaradi neodgovora prilagoditev populacijskim vrednostim (spol, starostni razredi, statistične regije) iz drugih virov post-stratifikacija Vpliv uteži na rezultate Neuteženo Uteženo Brezposelni 6,8 % 7,1 % Zaposleni 75,9 % 76,8 % Samozaposleni 11,4 % 11,1 % Pomagajoči družinski člani 5,9 % 5,1 %

Natančnost ocen v letu 2001

Objava rezultatov ADS 2001 OBJAVA CV Četrtletni rezultati Brez omejitve < 10 % > 10500 >4000 ( ) 10 - 20 % 10500 – 3500 4000 – 1000 (( )) 20 -30 % 3500 – 1000 1000 – 500 Ni objave > 30 % < 1000 < 500

Analiza neodgovorov ADS 2002/Q4 Stopnja ustreznosti 98,5% Stopnja anketiranja 88,3% Stopnja odgovora 89,6% Stopnja neodgovora 10,4% Stopnja zavračanja 7,2% Stopnja nekontaktiranja 2,2%

Vzorčni okvir za telefonske ankete Telefonski imenik zasebnih telefonskih naročnikov v Republiki Sloveniji (vir: Telekom d.d.) podatki o omrežni skupini, tel. številki, imenu naročnika, naslovu naročnika, šifra občine, naselja... Okvir popisnih okolišev Pridobimo podatke: tipu naselja (6 tipov), številu oseb stalno prijavljenih oseb. Vzorčni okvir za telefonske ankete na Uradu je telefonski imenik zasebnih telefonskih naročnikov, ki ga dobimo od Telekoma Slovenije. Baza Telefonski imenik vsebuje naslednje spremenljivke: omrežna skupina telefonska številka ime naročnika, Naslov in teritorialne šifre Telefonski imenik na nivoju občine in naselja povežemo z okvirom popisnih okolišev, ki je vzorčni okvir za ankete gospodinjstev in oseb za izbor na prvi stopnji (pri dvostopenjeskih vzorcih). Na ta način pridobimo podatke: o številu stalno prijavljenih oseb v naselju, tipu naselja (ločimo 6 vrst)

Vzorčni načrt za telefonske vzorce Vzorčni načrt: stratificiran sistematični slučajni vzorec Stratumi so definirani s statistično regijo (12 regij) in s tipom in velikostjo naselja (6 tipov). V vsakem stratumu vzorčimo neodvisno Število enot v vzorcu (telefonskih naročnikov) v vsakem stratumu je sorazmerno deležu oseb v posameznem stratumu. Vzorčni načrti pri telefonskih vzorcih so Stratificirani sistematični slučajni Stratumi so definirani s: statistično regijo (12 stratumov) in tipom in velikostjo naselja (6 stratumov); V vsakem stratumu vzorčimo neodvisno; Število naročnikov v vsakem stratumu je sorazmerno glede na delež oseb, ki živijo v posameznem stratumu

Izbor ciljne osebe v okviru gospodinjstva Metoda naslednjega rojstnega dne Boljše rezultate (socio-demografska struktura vzorca) daje nekoliko bolj zamuden Kishev postopek izbora ciljne osebe, ki pa ga na uradu še nismo testirali. Ciljno osebo v okviru gospodinjstva pri telefonskih anetah izbiramo po metodi naslednjega rojstnega dne. Boljše rezultate (socio-demografska struktura vzorca) daje nekoliko bolj zamuden Kishev postopek izbora ciljne osebe, ki pa ga na uradu še nismo testirali.

Uteževanje rezultatov pri telefonskih anketah Podatke utežimo zaradi neenakih verjetnosti izbora ciljne osebe. Uteži zaradi različne verjetnosti izbora še dodatno popravimo tako, da upoštevamo kar največ znanih informacij o populaciji. Podatke utežimo zaradi neenakih verjetnosti izbora ciljne osebe. Osebe, ki živijo v gospodinjstvih z več člani imajo manjšo verjetnost izbora. Oseba, ki živi npr. v 6-članskem gospodinjstvu ima 6-krat manjšo verjetnost izbora. Uteži zaradi različne verjetnosti izbora še dodatno popravimo tako, da upoštevamo kar največ znanih informacij o populaciji. Za prilagoditev uporabimo naslednje spremenljivke: Starostno-spolno strukturo, sturkturo prebivalstva po statisisičnih regijah in tipih naselja (vir: CRP), velikost gospodinjstava (popis 1991) in izobrazbeno strukturo (ADS).

Kakovost vzorčnega okvira Pokritje: gospodinjstva s telefoni: preko 90 % zaenkrat še narašča Nepokritje: gospodinjstva brez telefona: manj kot 10 % tajne številke okrog 3 % Mobilna telefonija??? Pokritje: gospodinjstva s telefoni: preko 90 % narašča Bolj natančno oceno o pokritosti gopsodinjstev s telefoni, ko bomo povezali datoteko gospodinjstev Popisa 2001 s telefonskim imenikom. Nepokritje: gospodinjstva brez telefona: manj kot 10 % tajne številke okrog 3 %

Telefonske ankete na statističnem uradu Anketa o mnenju potrošnikov (AMP) Mesečna anketa, n=1500 Četrtletna anketa o potovanju domačega prebivalstva (ČAP) 1. četrtletje, n=3000 2. četrtletje, n=3000 3. četrtletje, n=3000 4. četrtletje, n=6000 Anketa o žrtvah kriminala (AŽK) Izvaja se na 3 leta. Zadnjič izvedena marca 2001. n=6000 oseb Telefonske ankete na statističnem uradu, kjer je vzorčni okvir telefonski imenik so: AMP, ČAP in AŽK. AMP je mesečna, kvalitativna anketa s katero merimo kazalec zaupanja potrošnikov. ČAP je raziskovanje s katero želimo zbrati podatke o številu in zančilnostih poslovnih in zasebnih potovanj prebivalcev Slovenije. Velikost vzorca za posamezno četrtletje je 3000 gospodinjstev, razen v 4. četrtletju, ko v vzorec izberemo 6000 gospodinjstev. AŽK (ali Anketa o viktimizaciji) je raziskovanje o osebnih oškodovanjih in o oškodovanjih gospodinjstva. Izvaja se na 3 leta.

Analiza neodgovora - AMP Pri vseh anketah analiziramo neodgovor. Podatke o neodgovorih po statističnih regiah in tipih naselja uporabimo pri alokaciji vzorca. To pomeni, da v startumih, kjer pričakujemo večji neodgovor, že vnaprej izberemo več telefonskih številk. Iz grafa lahko vidimo, da smo najslabšo stopnjo odgovorov dosegli v letu 2000, ko smo imeli težave z anketiranjem preko telefonske centrale.

Analiza neodgovora - ČAP V nasprotju z AMP vidimo, da stopnja neodgovora pri ČAPu še ni presegla 30%. Glavni razlog je v tem, da je obdoblje v akterem zbiramo podatke daljše. Pri AMP običajno poteka anketiranje 7 dni, medtem ko pri ČAPu 14 vsaj dni. Na ta način se zmanjša delež odsotnih oseb in poveča odgovor. Mediana stopnje zavračanja je pri ČAPu 8,3% in pri AMP 9%.

Predstavitev vzorčnih napak Objava podatkov običajno ne vsebuje standardnih napak za vse opazovane spremenljivke Stroški in čas ocenjevanja varianc Napake pogosto ocenjujemo z modeli in diagrami Ponavadi objavljene ocene niso predstavljene skupaj z ekspicitno izračunanimi vzorčnimi napakami. Razlog je v veliki količini potrebnih izračunov in posledično v velikih stroških takšnega ocenjevanja. Zato vzorčne napake pogosto ocenimo z modeli in diagrami.

Načini objave standardnih napak Možni načini objav st. napak: Standardne napake in intervali zaupanja so objavljeni v tabelah skupaj z osnovnimi podatki Tabele povprečnih standardnih napak ali koeficientov variacije v dodatkih ali metodoloških pojasnilih Komentar o natančnosti nekaterih spremenljivk v metodoloških pojasnilih Nenatančne ocene so objavljene v oklepajih Predstavitev vzorčnih napak: Standardna napaka ali interval zaupanja je pripisana v tabelah poleg ocen - k vsaki oceni eksplicitno pripišemo še napako ocene (standradna napaka ali cv) Tabele standardnih napak ali relativnih standardnih napak/ varianc je v prilogi. Komentar o natančnosti v metodoloških opombah Nenatančne ocene označimo z oklepaji – napake ocen ocenimo z modeli in diagrami. Praksa na uradu.

Anketna metodologija Sodelovanje oddelka pri načrtovanju novih anket Predhodno testiranje ankete na manjšem vzorcu: oblikovanje vprašalnika, testiranje posameznih vprašanj, časa anketiranja, neodgovora na posamezna vprašanja, vpliv načina anketiranja (CAPI, CATI, PAPI...), sodelovanje respondentov, odzivi na obvestilno pismo, darila za respondente, načrt za tabele... Na koncu še nekaj besed o anketni metodologiji. Na oddelku sodelujemo z vsebinskimi oddelki tudi pri načrtovanju novih anket oz raziskovanj. Pred uvedbo nove ankete običajno izvedemo poskusno anketo na manjšem vzorcu, katere namen je: Oblikovanje vprašalnika testirati vprašlnik, posamezna vprašanja, čas anketiranja, neodgovor na posamezna vprašanja Testiramo vpliv načina anketiranja Kakšno je sodelovanje anketirancev Kakšni so odzivi na obvestilna pisma Kako vplivajo darila respondentom na boljšo odzivnost Pri poskusni anketi lahko naredimo že načrt za tabele

Kakovost državne statistike 5 posebnosti: državna uprava “statistika” je produkt in servis “statistika” je po definiciji “okužena” z napakami stranke v procesu produkcije statističnih podatkov upravljanje v državni upravi

Definicija kakovosti v statistiki “Forerunners” US Bureau of Census Statistics Canada (policy for informing users) Statistics Sweden (Quality Declaration) Dalenius: Total Survey Design - optimal design not limited to the sampling errors “New-comers” ONS - guide of practice (seznam nevzorčnih napak) ABS NZ - pridobitev standarda ISO 9000 Stat. Finland: TQM-culture Eurostat: workgroup on quality assessment

7 komponent definicije po ESS ustreznost statističnih konceptov (relevance), točnost ocen (accuracy), pravočasnost in točnost (timeliness and punctuality), dostopnost in jasnost informacij (accessibility and clarity), primerljivost statistik (comparability), enotnost (coherence), dovršenost (completeness).

ANKETE PODJETIJ MESEČNE IN ČETRTLETNE ANKETE LETNE (ALI VEČLETNE) ANKETE TRG/M TRG/ČL GO/M NR-PODJ/M PA-IND/M PA-TRG/M ZAPM-SP IND/M ZAP/L ZAP/3L ZAP-SD/4L ZAP-SP/4L INV-1; INV-2 ŠOL-ZAP INOV IND/L

VZORČNI OKVIR Običajno uporabimo kombinacijo več različnih virov: Poslovni register Slovenije - PRS Statistični register delovno aktivnega prebivalstva - SRDAP Zaključni računi Podatki DURS-a (predvsem za samostojne podjetnike)

CILJNA POPULACIJA IN VZORČNI OKVIR Ciljna populacija in vzorčni okvir sovpadata le v redkih idealnih situacijah. Ponavadi smo soočeni s situacijo, ki jo prikazuje slika.

VZORČNI NAČRT Preden izberemo vzorec moramo: zagotoviti čim večje število virov informacij, ki nam pomagajo tako pri izgradnji vzorčnega okvirja kot pri izbiri vzorca. izračunati velikost vzorca. Velikost vzorca določimo na podlagi : variabilnosti pojava, ki ga želimo izmeriti želene natančnosti rezultatov finančnih sredstev, ki so na voljo določiti način izbire vzorca.

VELIKOST VZORCA (1) Velikost določimo preko formule : ... za SRS vzorec ... vzorčni učinek (design effect) ... izhodiščna velikost za vzorčni načrt ... velikost vzorca z upoštevanjem predvidene stopnje odgovora

VELIKOST VZORCA (2) Velikost določimo s simulacijo Primer: Anketa o strukturi plač. Vzorec smo izbirali dvostopenjsko. Na prvi stopnji smo izbrali vzorec podjetij, na drugi stopnji pa v vsakem izbranem podjetju vzorec zaposlenih delavcev. Ker smo za večino zaposlenih v okviru imeli podatek o njihovi letni bruto plači, smo iz simuliranega dvostopenjskega vzorca izračunali natančnost ocen pri različnih velikostih vzorca (na prvi in drugi stopnji).

VELIKOST VZORCA (3) Histogram ocen pri eni od simulacij:

STRATIFIKACIJA IN ALOKACIJA (1) Pri anketah podjetij je vzorec običajno enostopenjski stratificiran. Stratifikacijske spremenljivke: Dejavnost - SKD Velikostni razred število zaposlenih in/ali prihodek Statistična regija (redko)

STRATIFIKACIJA IN ALOKACIJA (2) Optimalna (Neymanova) alokacija v stratumu, kjer je variabilnost pomožne spremenljivke, korelirane s ciljno spremenljivko, večja, izberemo več enot Proporcionalna alokacija V stratumu, ki vsebuje več enot okvira, izberemo v vzorec več enot

IZBOR VZORCA Presečne ankete Panelne ankete Sistematično slučajno vzorčenje Implicitna stratifikacija po dejavnostih Panelne ankete Enkrat letno del enot v vzorcu rotiramo Osnova za izbor je sistem permanentnih slučajnih števil

UTEŽEVANJE (1) Vzorčne uteži Uteži zaradi neodgovora Utež je enaka obratni vrednosti verjetnosti izbora Uteži zaradi neodgovora Vse odgovore razdelimo v razrede, znotraj katerih predpostavimo, da se neodgovarjajoče enote ne razlikujejo od odgovarjajočih enot. Vsakemu odgovoru pripišemo utež

UTEŽEVANJE (2) Uteži, ki jih izračunamo z namenom prilagoditve strukture enot, za katere smo pridobili podatke, znani populacijski strukturi. Primer: V raziskavi o investicijah, uporabimo kot pomožno spremenljivko podatek o sredstvih, ki jih podjetja namenijo amortizaciji. Ta podatek imamo iz zaključnih računov za večino podjetij v okviru. Utež izračunamo po formuli:

CENILKE Razmerja Indeksi Vsote Horwitz-Thompsonova cenilka Razmernostna cenilka Razmerja Indeksi

OCENJEVANJE VARIANCE (1) Ocena variance z uporabo specializiranih programskih paketov ( SUDAAN, IVEWARE,..) Ocena variance z uporabo macro jezika v SAS-u in formul za oceno variance Primer: Izračun variance v primeru ocene indeksa prihodka. Z obstoječo programsko opremo lahko izračunavamo varianco vsot, povprečij, razmerij v primeru kompleksnih vzorčnih načrtih.

OCENJEVANJE VARIANCE (2) Indeks je razmerje cenilk iz dveh vzorcev, ki se načeloma ne ujemata v vseh enotah, in ki načeloma nimajo istih uteži. Za cenilko razmerja običajno uporabimo dobro poznano formulo, ki izhaja iz Taylorjeve linearizacije. Var(X) in VAR(Y) lahko ocenimo (npr. z uporabo SAS-ove procedure SURVEYMEANS), vzorčno kovarianco pa SAS ne izračunava

OCENJEVANJE VARIANCE (3) Pomagamo si z uporabo zveze: Določiti moramo še “enotno” utež za cenilko vsote. Izhajamo iz pogoja :

OCENJEVANJE VARIANCE (3) Ocenjeni koeficienti variacije v raziskavi TRG/M za nivo Trgovina skupaj:

OCENJEVANJE VARIANCE (4) Ocenjeni koeficienti variacije v raziskavi TRG/M za nivo Motorna vozila: