ifelse(is.na(timer) & is.na(min),
NA,
ifelse(timer > 24 & !is.na(timer),
timer,::replace_na(timer, 0) * 60
tidyr+
) ::replace_na(min, 0)
tidyr )
Statbank
Grønlands Statistiks Statbank indeholder en oversigt over samtlige variable i befolkningsundersøgelserne.
Hver variabel viser en tabel med en optælling af svarmulighederne på tværs af alle undersøgelser.
Sammen med oversigten over variable kan Statbank bruges til at finde detaljeret information om alle variable der kan søges adgang til.
Fodnoter
Under tabellen kan der være fodnoter, der giver vigtig information om variablen. Det er en god ide at læse noterne for alle variabler du skal bruge.
Systematiske noter
Nogle af noterne er systematiske og gælder for mange variable. Nedenfor er en uddybende forklaring af dem.
[1] Ukendte værdier
Nogle variable indeholdte værdier, som det ikke vides hvad betyder, og som derfor er ændret til NA
(manglende værdi).
Eksemplet nedenfor viser hvordan spørgsmål 53 i B2005 Hovedskemaet ser ud i spørgeskemaet og i de rå data, der blev udleveret af SIF.
Som det ses til højre bestod dataene fra SIF af koder og labels, hvor koderne svarer til numrene på svarmulighederne i spørgskemaet, og labels er selve teksten i spørgeskemaet.
I dette eksempel er der 8 besvarelser med koden 9
, som ikke har nogen label. Denne type ukendte koder findes i flere variable, og SIF har ikke gennerelt kunne afgøre hvad de dækker over. De er derfor ændret til NA
.
I alle tilfælde, hvor ukendte værdier er ændret til NA
, findes der under tabellen en fodnote, som angiver, hvor mange værdier det drejser sig om.
I08
er blevet omdøbt til.[2] Anonymiserede værdier
Værdier der optræder færre end 3 gange er blevet anonymiseret i de offentlig tilgængelige tabeller. I det udleverede data er værdierne ikke anonymiseret.
[3] IPAQ variable
Variablene IPAQ01
-IPAQ25
indeholder 25 spørgsmål fra The International Physical Activity Questionnaire (IPAQ), som er et standardiseret spørgeskema til at måle fysisk aktivitet.
For hver af de 13 spørgsmål hvor svaret angives i minutter og timer, findes der tre variable, for eksempel:
IPAQ03
- Afledt variabelIPAQ03_timer
- Svar fra spørgeskema, antal timerIPAQ03_min
- Svar fra spørgeskema, antal minutter
Udregning af afledt variabel
For B2014 og B2018 er den afledte variabel udregnet ved at gange timer
med 60 og lægge sammen med min
. Nogle få timeangivelser er dog over 24, og for disse antages det at der, er ment minutter, og de ganges derfor ikke med 60.
For B2005 findes de rå _timer
og _min
variable ikke. Variablen er blevet omregnet direkte ved indtastning, og det vides derfor ikke præcis hvordan udreningen er lavet.
R koden nedenfor viser udregningen for B2014 og B2018.
[4] Kost variable
Bemærk at alle kost_
variable er helt rå. Der er muligvis store forskelle mellem studier, og det kræver et stort arbejde at omkode dem. De er forsøgt navngivne så de er til at finde rundt i.
Bemærk at i B2005 er alle hyppigheden angivet “i sæsonen”, og selvom variablene her er slået sammen, er det ikke sikkert at de direkte kan sammenlignes med B2014 og B2018.
Der er formentlig flere værdier i data der betyder ‘missing’, f.eks. "0"
, "99"
, "99.9"
, "999"
, "9999"
.
Se SIF rapporten Kost i Grønland for mere information.
[5] Manuelt kategoriserede variable
Der findes en række variable som er manuelt kategoriserede versioner af fritekst variable. Alle disse variable har postfixet _ka
og evt. et nummer, hvis der findes flere kategoriseringer af samme variabel.
For eksempel er H29B, som har over 2000 forskellige svar, blevet kategoriseret i H29B_ka til blot 7 kategorier.
Kategoriseringen er lavet af ansatte ved Statens Institutet for Folkesunhed.
[6] Manglende værdier
I næsten alle variable findes der manglende værdier, som på Statbank vises med en bindestreg -
.
Manglende værdier omfatter deltagere, der ikke har besvaret et spørgsmål, ikke har fået spørgsmålet (f.eks. hvis interviewet er blevet afbrudt), eller har givet ugyldige svar. Der kan også være andre årsager til manglende værdier.
Data er ikke indsamlet på en måde, der gør det muligt at skelne mellem de forskellige typer af manglende værdier.
[7] Flervalgsspørgsmål
Nogle spørgsmål er flervalgsspørgsmål, hvor interviewpersonen har mulighed for at krydse nul, ét, eller flere svarmuligheder af.
For disse spørgsmål er der en variable for hver svarmulighed. Spørgsmålet ovenfor er derfor gemt i fem variable: mava_11a, mava_11b, mava_11c, mava_11d og mava_11e.
Hver variable er en sandt/falsk variable hvor værdien
TRUE
betyder at interviewpersonen har afkrydset svarmuligheden.FALSE
betyder at interviewpersonen ikke har afkrydset svarmuligheden, men har afkrydset mindst en anden svarmulighed.-
betyder at interviewpersonen ikke har afkrydset nogle svarmuligheder overhovedet.