Anonyme data

I YH2 deltok mange personer som ikke deltok i YH1. YH2 var dog ment å være en oppfølgingsundersøkelse for YH1, og vi har i utgangspunktet ikke tillatelse til å bruke YH2-data for personene som ikke også deltok i YH1 (heretter referert til som "YH2X"). Unntaket er tverrsnittstudier -- altså hvor YH2-dataene ikke kobles med data fra andre studiedeler.

YH2-data er for øyeblikket lagret i databanken på samme måte som andre data. Til en viss grad kan vi unngå å levere ut YH2X-data ved aldri å bruke YH2-kohorten (dvs. personene som deltok i YH2) som utvalg i noe prosjekt, men bruke YH1-kohorten i stedet. Det er også trivielt å konstruere en kohort av de som deltok i både YH1 og YH2.

Imidlertid er ikke dette tilstrekkelig for å unngå å koble YH2X-data med andre data, for en del av disse har også deltatt i NT3. Hvis et prosjekt skal ha et utvalg basert på NT3 samt YH2-variabler, er det altså fare for at vi leverer ut YH2X-data koblet med NT3-data. Dette må unngås.

Jeg foreslår å opprette anonyme personer i slike tilfeller. En anonym person har sin egen biobankid, kjønn og fødselsdato, men ikke noe fødselsnummer (og heller ikke navn, adresse osv.). Hver anonyme person bibeholder imidlertid en kobling til sin tilsvarende "onyme" person (altså personen med fødselsnummer/navn) -- dette for å kunne sikre dataintegritet og -kvalitet. (Koblingen er kun tilgjengelig for databehandlere med adgang til personopplysninger, selvsagt.) YH2X-data knyttes til den anonyme personen, og fjernes fra den tilsvarende onyme personen.

Dette vil løse problemet med utilsiktet kobling av YH2X- og NT3-data. Et NT3-basert utvalg vil ikke inkludere de anonyme personene, for disse vil (i dette scenariet) kun ha YH2-deltagelser. Videre vil de tilsvarende onyme personene i utvalget ikke ha YH2-data, siden disse ble flyttet til de anonyme personene.

Det vil også bli uproblematisk å basere utvalg på YH2-kohorten, dvs. alle som deltok i YH2 uavhengig av YH1. YH2X-erne vil være anonyme, og kun ha YH2-data -- selv om prosjektet inkluderer variabler fra andre studiedeler, vil de anonyme ha missing i datafilene for alle disse.

Et par ting det kan være verdt å være obs på:

Siden de anonyme personene ikke har fødselsnummer, vil de ikke kunne være med i noen kohorter/utvalg basert på fødselsnummersiffer.
Samme person vil kunne forekomme flere ganger i en datafil, f.eks. både som anonym YH2X-deltager og som vanlig NT3-deltager. Så f.eks. en opptelling av hvor mange som har svart "Ja" på AstEv i NT3 og/eller YH2, vil kunne gi et for høyt tall.

Til slutt et spørsmål: Bør/skal anonyme personer ha folkeregisterstatus, -dato og/eller observasjonssluttdato? Databaseteknisk er det enklest å si at de ikke skal ha det, og det rimer jo med at de er anonyme. Kombinasjonen av kjønn, fødselsår, status og statusdato vil ellers kunne gi potensiale for å koble sammen anonyme og onyme data.

Wiki

Wiki

Anonyme data