Forslag til nye studiedelkoder og ny variabelnavnkonstruksjon
Studiedelkoder (variabelnavnsuffiks) lages på samme måte som spørsmålsnavn (variabelnavnprefiks): ved sammensetning av forkortelser. Fasenummer og studiedelnummer brukes kun i den grad det er hensiktsmessig.
Forkortelsene NT1/2/3 og YH1/2/3 beholdes; likeledes Q, M, I, C for spørreskjema, målinger, intervju og samtykke. Dette medfører at forkortelsesbetydningene må endres:
- Q fra Question til Questionnaire
- M fra Month til Measurement
- I fra Index til Interview
- C fra Card til Consent
Disse endringene er stort sett uproblematiske, bortsett fra M. Den brukes i betydningen Month av mange variabler, og Mo er også opptatt (More). M forekommer dog som oftest i sammenheng med L (Last), så man kan lage mer spesifikke forkortelser som LM (Last month), L3M (Last three months) osv. i mange tilfeller.
SC (screening) erstattes av BL (Baseline). Ellers brukes eksisterende forkortelser for sykdommer o.a., f.eks. Dia i stedet for DI, Ca i stedet for CA osv.
Variabelnavn konstrueres slik: spørsmålsnavn + @ + studiedelkode, f.eks. PartAg@NT3Q1. Spørsmålsnavn og studiedelkoder kan være opptil 16 tegn hver (vi dataingeniører liker toerpotenser).
A/O/C-tegnet for Administrative/Original/Computed droppes fra variabelnavnet, og relegeres til metadata. Kombinasjonen av spørsmålsnavn og studiedelkode er unik, så variabelnavnet er unikt uten dette tegnet.
Hvis dette forslaget møter motbør, foreslår jeg alternativt dette mønsteret: PartAg@c.NT3Q1. Det gjør det klarere at alle NT3Q1-variabler kommer fra samme studiedel (det er mindre klart med NT3Q1A, NT3Q1O, NT3Q1C); det bør stå foran studiedelkoden for å angi at det er mindre signifikant (à la epostadresser), og det bør bruke små bokstaver for ikke å overskygge @-tegnet.
Konkrete forslag til nye studiedelkoder
NT1SC1M1 NT1BLM HUNT1 Measurements NT1SC1Q1 NT1BLQ1 HUNT1 Questionnaire 1 NT1SC1Q2 NT1BLQ2 HUNT1 Questionnaire 2 NT1CV1Q3 NT1CVDQ HUNT1 Questionnaire 3: Blood Pressure NT1SC1M2 NT1BloM? HUNT1 Blood analyses NT1DI1Q3 NT1DiaQ HUNT1 Questionnaire 3: Diabetes NT1XR1M1 NT1XRM HUNT1 X-Ray screening NT2SC1M1 NT2BLM HUNT2 Measurements and Blood Analyses NT2SC1Q1 NT2BLQ1 HUNT2 Questionnaire 1 NT2SC1Q2 NT2BLQ2 HUNT2 Questionnaire 2 NT2CV1Q3 NT2CVDQ HUNT2 Questionnaire 3: Blood Pressure NT2BO1M1 NT2Bo1M HUNT2 Bone densitometry: Baseline NT2BO2M1 NT2Bo2M HUNT2 Bone densitometry: Follow-up NT2SC1C1 NT2C HUNT2 Consent 1 NT2SC1C2 NT2C2 HUNT2 Consent, renewed NT2DI2M1 NT2Dia2M HUNT2 C-peptide Immunology NT2DI1Q3 NT2DiaQ HUNT2 Questionnaire 3: Diabetes NT2HP1M1 NT2HPM HUNT2 Helicobacter pylori NT2HM1M1 NT2HemM HUNT2 Hemochromatosis NT2CV2M1 NT2LipM HUNT2 Lipid measurements NT2LU2M1 NT2Lun2M1 HUNT2 Spirometry, phase 2: Prebroncho-dilator NT2LU2M2 NT2Lun2M2 HUNT2 Spirometry, phase 2: Post-bronchodilator NT2LU3M1 NT2Lun3M1 HUNT2 Spirometry, phase 3: Pre-bronchodilator NT2LU3M2 NT2Lun3M2 HUNT2 Spirometry, phase 3: Post-bronchodilator NT2LU4M1 NT2Lun4M Metacholine/NO/Phadiatop NT2LU5Q1 NT2Lun5Q Questionnaire lung and osteoporosis NT2LU1I1 NT2LunI HUNT2 Lung Study Phase I Interview NT2LU1M1 NT2LunM HUNT2 Spirometry Phase I NT2LU1Q3 NT2LunQ HUNT2 Questionnaire 3: Lung NT2TH1M1 NT2ThyM HUNT2 Thyroid related blood analyses NT2UR1M1 NT2UrM HUNT2 Microalbuminuria, phase 1: Measurements NT2UR1Q1 NT2UrQ HUNT2 Microalbuminuria, phase 1: Questionnaire NT3AM1Q3 NT3AMQ HUNT3 Questionnaire 3: Alternative Medicine NT3SC1I1 NT3BLI HUNT3 Interview NT3SC1M1 NT3BLM HUNT3 Measurements NT3SC1Q1 NT3BLQ1 HUNT3 Questionnaire 1 NT3SC1Q2 NT3BLQ2 HUNT3 Questionnaire 2 NT3SC2Q1 NT3BLQNP HUNT3 Non-Participant Questionnaire NT3BO1M1 NT3BoM1 HUNT3 DTX100 NT3BO1M2 NT3BoM2 HUNT3 DTX200 NT3BO1M3 NT3BoM3 HUNT3 DEXA NT3CA1QC NT3CaColQ HUNT3 Questionnaire 3: Colorectal cancer NT3CA1QM NT3CaMamQ HUNT3 Questionnaire 3: Breast cancer NT3CA1QP NT3CaProsQ HUNT3 Questionnaire 3: Prostate cancer NT3CV1Q3 NT3CVDQ HUNT3 Questionnaire 3: Cardiovascular disease NT3DI2I1 NT3Dia1I HUNT DE-PLAN: Interview Round 1 NT3DI2M1 NT3Dia1M HUNT DE-PLAN: Measurements Round 1 NT3DI2Q1 NT3Dia1Q HUNT DE-PLAN: Questionnaire Round 1 NT3DI2I2 NT3Dia2I HUNT DE-PLAN: Interview Round 2 NT3DI2M2 NT3Dia2M HUNT DE-PLAN: Measurements Round 2 NT3DI2Q2 NT3Dia2Q HUNT DE-PLAN: Questionnaire Round 2 NT3DI2I3 NT3Dia3I HUNT DE-PLAN: Interview Round 3 NT3DI2M3 NT3Dia3M HUNT DE-PLAN: Measurements Round 3 NT3DI2Q3 NT3Dia3Q HUNT DE-PLAN: Questionnaire Round 3 NT3DI2I4 NT3Dia4I HUNT-DE-PLAN: Interview Round 4 NT3DI2M4 NT3Dia4M HUNT DE-PLAN: Measurements Round 4 NT3DI2Q4 NT3Dia4Q HUNT DE-PLAN: Questionnaire Round 4 NT3DI1Q3 NT3DiaQ HUNT3 Questionnaire 3: Diabetes NT3CV2M1 NT3CUSM HUNT3 Cardiac Ulstrasound NT3DE1QE NT3EczQ HUNT3 Questionnaire 3: Hand eczema NT3EX2I1 NT3FitnI HUNT3 Exercise: Interview NT3EX2M1 NT3FitnM HUNT3 Exercise: Measurements NT3EX2Q1 NT3FitnQ HUNT3 Exercise: Questionnaire NT3HH2I1 NT3HAI HUNT3 Headache study NT3HC1Q3 NT3HCQ HUNT3 Questionnaire 3: Health Care NT3AN1Q3 NT3LPQ HUNT3 Questionnaire 3: Animal NT3LU1I1 NT3LunI HUNT3 Spirometry: Interview NT3LU1M1 NT3LunM HUNT3 Spirometry: Measurements NT3MR2M1 NT3MRM NT3MS2Q1 NT3MS1Q HUNT3 Chronic Pain Questionnaire NT3MS2Q2 NT3MS2Q HUNT3 Chronic Pain Questionnaire NT3MS2Q3 NT3MS3Q HUNT3 Chronic Pain Questionnaire NT3MS2Q4 NT3MS4Q HUNT3 Chronic Pain Questionnaire NT3MS2Q5 NT3MS5Q HUNT3 Chronic Pain Questionnaire NT3OV1I1 NT3OvI HUNT3 Ovulation interview NT3OV1M1 NT3OvM HUNT3 Ovulation: Serum analysis NT3OV1Q2 NT3OvQ HUNT3 Ovulation: Questionnaire 2 NT3DE2QP NT3Psor2Q HUNT3 Psoriasis follow-up study NT3DE1QP NT3PsorQ HUNT3 Questionnaire 3: Psoriasis NT3UR1C1 NT3UrC HUNT3 Microalbuminuria: Consent NT3UR1M1 NT3UrM HUNT3 Microalbuminuria: Urine samples NT3UR1Q1 NT3UrQ HUNT3 Microalbuminuria: Questionnaire YH1SC1M1 YH1BLM Young-HUNT 1 Measurements YH1SC1Q1 YH1BLQ Young-HUNT 1 Questionnaire YH1HH1I1 YH1HAI Young-HUNT 1 Headache Interview YH1LU1I1 YH1LunI Young-HUNT 1 Spirometry Interview YH2SC1M1 YH2BLM Young-HUNT 2 Measurements YH2SC1Q1 YH2BLQ Young-HUNT 2 Questionnaire YH3SC1C1 YH2C1 Young-HUNT 3 Consent YH3SC1C2 YH2C2 Young-HUNT 3 Consent, Parent YH2HH1I1 YH2HAI Young-HUNT 2 Headache Interview YH2LU1I1 YH2LunI Young-HUNT 2 Spirometry Interview YH2LU1M1 YH2LunM Young-HUNT 2 Spirometry YH3SC1M1 YH3BLM Young-HUNT 3 Measurements YH3SC1Q1 YH3BLQ Young-HUNT 3 Questionnaire YH3EX2I1 YH3FitnI Young-HUNT 3 Fitness Interview YH3EX2M1 YH3FitnM Young-HUNT 3 Fitness Measurements YH3HH1I1 YH3HAI Young-HUNT 3 Headache Interview YH3LU1I1 YH3LunI Young-HUNT 3 Spirometry Interview YH3MH1I1 YH3SocAnxI Young-HUNT 3 Social Anxiety
Noen kommentarer:
- Gamle Q3 blodtrykk har forskjellig kode i NT3 og NT1/2; Car kontra BP. Skal vi heller kalle alle Car?
- NT3-diabetesprosjektet: De fire rundene kommer foran gamle Q3 i alfabetet slik det er gjort nå; litt uheldig. Kan kalle det NT3Dia0Q, men da skiller det jo seg fra NT1/2. Alternativt kan vi flytte nummeret i rundene (så NT3DiaQ1, NT3DiaQ2 osv.), men da kommer de sortert på studiedeltype (I/M/Q) i stedet for på runde (kronologisk). Finner ingen ideell løsning. Kanskje NT3Dia1Q, NT3Dia2#1Q, Nt3Dia2#2Q, NT3Dia2#3Q, NT3Dia2#4Q?
- Dermatologibegrepet er droppet, så Psor- og Ecz-spørreskjemaene havner langt fra hverandre.
- HA (Headache) brukes i stedet for HeadHUNT-navnet (HH), i tråd med at BONT er erstattet av Lun/Bo.
- Samtykkene dropper BL-elementet, og heter bare NT3C o.l.
- Noen oppfølginsstudier som før var CV (Car) er gitt mer spesifikke navn (Lip, ECG). Greit, eller skal vi bruke Car2 i stedet?
- AN (Animal) er endret til LP (Large predators). Jeg tror det siste begrepet er både mer dekkende og mer brukt.
- Jeg er litt usikker på om fasenummer skal tas med for fase 1-studiedeler. Jeg har prøvd med NT3PsorQ og NT3Psor2Q for psoriasisspørreskjemaet og oppfølgingen, men leksikalsk sortering gir da feil kronologi. NT3Psor1Q og NT3Psor2Q er bedre i så måte, men må vi da ha fase 1-nummer på alle, for konsekvensens skyld, selv om de ikke har oppfølginger? Jfr. diabetesproblemet nest øverst.
Det gamle systemet
Noen tanker om dagens situasjon, i ganske vilkårlig rekkefølge:
SC (screening) kommer sent i alfabetet, men er den viktigste prosjektkoden. Videre kan "screening" mistolkes som leting etter en bestemt sykdom(?). "Baseline" (BL) er et bedre begrep i begge henseende.
Q3-begrepet er forvirrende for folk som ikke kjenner HUNT. (Det tok lang tid før jeg ble fortrolig med det, spesielt siden det er mange Q3.) En studiedelkode som NT3DI1Q3 impliserer at det burde finnes NT3DI1Q1 og -Q2 også. Kanskje nummereringen kan være valgfri, f.eks. NT3DI1Q? Kreftskjemaene har jo allerede QC/QM/QP i stedet for Q3.
NT2LU1-prosjektfasen ser uryddig ut når den består av I1, M1 og Q3; I, M, Q er bedre. Tallet til slutt er mest støy når det uansett bare finnes én studiedel av hver type i en gitt prosjektfase.
DE-PLAN-prosjektet har fire runder, men alle er plassert i samme prosjektfase, NT3DI2. I alfabetisk rekkefølge kommer dermed først alle fire intervjuene, så de fire målingene og til slutt de fire spørreskjemaene. Videre er implikasjonen at alle tolv skjedde omtrent samtidig(?). (Chronic Pain-prosjektet (MS) er organisert på samme måte, men der funker det bedre, fordi det er kun snakk om fem spørreskjema, ikke målinger og intervju i tillegg.)
Helst burde de fire rundene ha vært nummerert fra 1 til 4 – NT3DI1, NT3DI2, NT3DI3, NT3DI4 – men da kræsjer jo runde 1 med nåværende NT3DI1Q3. Videre bryter det med konvensjonen at alt som er fase 1 skjedde samtidig med hovedundersøkelsen, mens fase 2 (eller høyere tall) skjedde senere – men denne konvensjonen er så vidt jeg vet ikke eksplisitt, og neppe så kjent blant ikke-HUNT-ere. En annen mulig løsning er å ha en egen prosjektkode for DE-PLAN (f.eks. DE). Eventuelt forskyve fasenumrene et hakk, slik at runde 1 blir NT3DI2. Ingen av disse løsningene er dog spesielt gode, så kanskje noe mer drastisk bør vurderes.
Såkalte fase 2-prosjekt har koder som kan virke forvirrende. Det ligger jo nærmest i sakens natur at de har en kode med tall 2 (NT3MC2, NT3MR2, NT3MS2) uten at det finnes noen tilsvarende kode med tall 1. Tallet er altså ikke først og fremst en nummerering, men en indikasjon på om prosjektet var en del av hovedundersøkelsen eller ikke. Denne betydningen er altså etter min mening noe obskur for ikke-HUNT-ere, og informasjon om dette kan/bør uansett registreres i beskrivelsen av studiedelen.
I det hele tatt er tallene i mange tilfeller bare i veien, synes jeg. SC-studiedelene vil jo nærmest per definisjon bare ha fasenummer 1 (unntaket er NT3 Non-Participant Questionnaire; kanskje også NT2 fornyet samtykke?) Nummerering trengs kanskje bare der hvor man har flere studiedeler av samme type i samme kontekst (Q1 og Q2; de fire benmassemålingene i NT3; prebronchodilator- (M1) og postbronchodilatorspirometri (M2) i NT2); og som fasenummer der man har flere runder med oppfølging (DE-PLAN, kronisk smerte, BONT).
Jeg skal ikke her og nå foreslå et nytt system; det er for det første gode grunner til å holde på det bestående, og for det andre har jeg ikke tenkt så mye på koder for ikke-HUNT-studiedeler som skal inn i databanken snart (Hel-BUP, demens, endepunkt). Men jeg ønsker å utforske mulighetene for å ha et noe mindre rigid system, som f.eks. ikke krever så mange nummer, og som kanskje også kan knyttes til forkortelseslista som brukes for variabelnavnprefiksene. Kanskje f.eks. DE-PLAN kan ha studiedelkoder NT3DEPLAN1Q, NT3DEPLAN1M, NT3DEPLAN1I, NT3DEPLAN2Q, NT3DEPLAN2M, NT3DEPLAN2I osv?
(For tiden er det i databanken knyttet noe metadata til enkeltkomponentene i studiedelkodene (f.eks. at NT3 er studien HUNT3 som startet i 2006; at UR står for "Urine, including microalbuminuria and renal func."; og at NT3UR2 er "Stein Hallans urinprøveprosjekt"), men dette brukes ikke nevneverdig, og kan trolig erstattes av forkortelsesbetydninger.)