Statbank

Grønlands Statistiks Statbank indeholder en oversigt over samtlige variable i befolkningsundersøgelserne.

Hver variabel viser en tabel med en optælling af svarmulighederne på tværs af alle undersøgelser.

Optælling af variablen kon4 på tværs af undersøgelser.

Sammen med oversigten over variable kan Statbank bruges til at finde detaljeret information om alle variable der kan søges adgang til.

Fodnoter

Under tabellen kan der være fodnoter, der giver vigtig information om variablen. Det er en god ide at læse noterne for alle variabler du skal bruge.

Systematiske noter

Nogle af noterne er systematiske og gælder for mange variable. Nedenfor er en uddybende forklaring af dem.

[1] Ukendte værdier

Nogle variable indeholdte værdier, som det ikke vides hvad betyder, og som derfor er ændret til NA (manglende værdi).

Eksemplet nedenfor viser hvordan spørgsmål 53 i B2005 Hovedskemaet ser ud i spørgeskemaet og i de rå data, der blev udleveret af SIF.

Spørgsmål 53. i B2005 Hovedskema

Optælling af rådata

Som det ses til højre bestod dataene fra SIF af koder og labels, hvor koderne svarer til numrene på svarmulighederne i spørgskemaet, og labels er selve teksten i spørgeskemaet.

I dette eksempel er der 8 besvarelser med koden 9, som ikke har nogen label. Denne type ukendte koder findes i flere variable, og SIF har ikke gennerelt kunne afgøre hvad de dækker over. De er derfor ændret til NA.

I alle tilfælde, hvor ukendte værdier er ændret til NA, findes der under tabellen en fodnote, som angiver, hvor mange værdier det drejser sig om.

Eksempel på fodnoten for cardi_5 som er det navn variable I08 er blevet omdøbt til.

[2] Anonymiserede værdier

Værdier der optræder færre end 3 gange er blevet anonymiseret i de offentlig tilgængelige tabeller. I det udleverede data er værdierne ikke anonymiseret.

[3] IPAQ variable

Variablene IPAQ01-IPAQ25 indeholder 25 spørgsmål fra The International Physical Activity Questionnaire (IPAQ), som er et standardiseret spørgeskema til at måle fysisk aktivitet.

For hver af de 13 spørgsmål hvor svaret angives i minutter og timer, findes der tre variable, for eksempel:

  • IPAQ03 - Afledt variabel
  • IPAQ03_timer - Svar fra spørgeskema, antal timer
  • IPAQ03_min - Svar fra spørgeskema, antal minutter

Udregning af afledt variabel

For B2014 og B2018 er den afledte variabel udregnet ved at gange timer med 60 og lægge sammen med min. Nogle få timeangivelser er dog over 24, og for disse antages det at der, er ment minutter, og de ganges derfor ikke med 60.

For B2005 findes de rå _timer og _min variable ikke. Variablen er blevet omregnet direkte ved indtastning, og det vides derfor ikke præcis hvordan udreningen er lavet.

R koden nedenfor viser udregningen for B2014 og B2018.

ifelse(is.na(timer) & is.na(min),
       NA,
       ifelse(timer > 24 & !is.na(timer),
              timer,
              tidyr::replace_na(timer, 0) * 60
              ) +
       tidyr::replace_na(min, 0)
       )

[4] Kost variable

Bemærk at alle kost_ variable er helt rå. Der er muligvis store forskelle mellem studier, og det kræver et stort arbejde at omkode dem. De er forsøgt navngivne så de er til at finde rundt i.

Bemærk at i B2005 er alle hyppigheden angivet “i sæsonen”, og selvom variablene her er slået sammen, er det ikke sikkert at de direkte kan sammenlignes med B2014 og B2018.

Der er formentlig flere værdier i data der betyder ‘missing’, f.eks. "0", "99", "99.9", "999", "9999".

Se SIF rapporten Kost i Grønland for mere information.

[5] Manuelt kategoriserede variable

Der findes en række variable som er manuelt kategoriserede versioner af fritekst variable. Alle disse variable har postfixet _ka og evt. et nummer, hvis der findes flere kategoriseringer af samme variabel.

For eksempel er H29B, som har over 2000 forskellige svar, blevet kategoriseret i H29B_ka til blot 7 kategorier.

Kategoriseringen er lavet af ansatte ved Statens Institutet for Folkesunhed.

[6] Manglende værdier

I næsten alle variable findes der manglende værdier, som på Statbank vises med en bindestreg -.

Manglende værdier omfatter deltagere, der ikke har besvaret et spørgsmål, ikke har fået spørgsmålet (f.eks. hvis interviewet er blevet afbrudt), eller har givet ugyldige svar. Der kan også være andre årsager til manglende værdier.

Data er ikke indsamlet på en måde, der gør det muligt at skelne mellem de forskellige typer af manglende værdier.

[7] Flervalgsspørgsmål

Nogle spørgsmål er flervalgsspørgsmål, hvor interviewpersonen har mulighed for at krydse nul, ét, eller flere svarmuligheder af.

Eksempel på flervagsspørgsmål fra B2005 Hovedskema.

For disse spørgsmål er der en variable for hver svarmulighed. Spørgsmålet ovenfor er derfor gemt i fem variable: mava_11a, mava_11b, mava_11c, mava_11d og mava_11e.

Hver variable er en sandt/falsk variable hvor værdien

  • TRUE betyder at interviewpersonen har afkrydset svarmuligheden.
  • FALSE betyder at interviewpersonen ikke har afkrydset svarmuligheden, men har afkrydset mindst en anden svarmulighed.
  • - betyder at interviewpersonen ikke har afkrydset nogle svarmuligheder overhovedet.