Wiki

Case Status Kiln
Log In

Wiki

 
Store datamengder
  • RSS Feed

Last modified on 27.03.2012 15:29 by User.

Tags:

Store datamengder

HUNT databanks erfaringer og spørsmål i forbindelse med lagring, avidentifisering/pseudonymisering og utlevering/tilgjengeliggjøring av gen- og MRI-data.

Enkelt-SNP-er

HUNT databank håndterer små RefSNP-analyser gjort i eget laboratorium, pluss et par andre relativt små analyseserier; totalt er det snakk om drøyt 130 variabler/SNP-er foreløpig, med resultater for i snitt 4000 individer hver. Dette håndteres uproblematisk, omtrent på samme måte som andre variabler i databanken.

GWAS

Erfaringer

HUNT databank har vært involvert i én datautlevering, av immunochip-data for 989 individer, produsert i forbindelse med Vibeke Videms prosjekt "Rheumatoid arthritis, ankylosing spondylitis (Bechterews disease) and cardiovascular risk in the HUNT study", levert til Tom Hemming Karlsens prosjekt "Genetiske studier ved primær skleroserende colangitt, immunochip PSC".

Datafilene var produsert i Australia, og ble overført til kongs3.medisin.ntnu.no uten at HUNT databank var involvert. Filene er store mengder idat-, jpg-, txt- og xml-filer. Prøvene er identifisert i filene ved brett/beholder (id-nummer/strekkode, kalt "SentrixBarcode_A") pluss posisjon/koordinat (rad og kolonne, kalt "SentrixPosition_A"). Disse numrene/kodene forekommer både i filnavn, mappenavn og i selve filene. Filene ser ikke ut til å inneholde andre personopplysninger enn selve gendataene.

Kobling til HUNT databanks prosjektspesifikke person-id, for kobling til HUNT-data, er i egen fil, kalt "sample sheet". Dette ser ut til å være det eneste stedet HUNTs id-nummer forekommer, så det er enkelt å bytte ut dette. Dette ble gjort for Karlsens prosjekt, og filene sendt via Cloudstor, etter noe omorganisering(?) utført av Oddgeir.

Spørsmål

To prosjekt som får hvert sitt sample sheet med de samme prøvene, vil kunne mappe mellom sine respektive prosjektspesifikke HUNT-person-ID-er, og dermed relativt enkelt kunne bruke hverandres HUNT-datafiler. Dette er selvsagt ikke lov i henhold til kontrakten med HUNT, men kan være fristende. HUNT databank benytter prosjektspesifikke person-ID-er i utleveringsfilene nettopp for å gjøre dette mindre aktuelt, og sample sheet-teknikken undergraver dette. Imidlertid vil det nesten alltid være mulig for to prosjekt å gjøre dette uansett, selv med mer utstrakt pseudonymisering av datafilene, spesielt med gendata -- fordi man kan sammenligne selve dataene for å avgjøre om to individer/resultatsett er identiske. Spørsmålet er om sample sheet-teknikken gjør det for enkelt, og vi dermed må erstatte alle SentrixBarcode/-Position-er med prosjektspesifikke nummer også. Imidlertid er idat et lukket og muligens kryptert format, så det er tvilsomt om dette er praktisk mulig.

HUNT databank har lagret koblingen mellom person og SentrixBarcode/-Position for Videms datafiler, og kan dermed enkelt generere sample sheets for andre prosjekt. Tilsvarende kan og må selvsagt gjøres for andre data. Spørsmålet er om systemet med SentrixBarcode/-position er universelt (hva er Sentrix?); hvilke andre prøveidentifiseringsskjema som ev. er i bruk; om strekkodene/beholder-id-ene er globalt unike; og hva som ev. må registreres i tillegg for å skille dem fra andre (f.eks. id-en til prosjektet som produserte dataene, hvis det alltid er HUNT-prosjekt.

Vil det være aktuelt å dele ut deler av et datasett? Deler av utvalget/individene, og/eller deler av analysene? HUNT databank ønsker å være restriktiv med datautlevering, både av personvernhensyn og for å unngå at forskere "fisker" i data og ender opp med å forske på noe annet enn de har søkt om, men jeg vet ikke hvor relevant dette er for gendata.

Hva kan/bør lagres av metadata om hvert datasett, slik at de kan presenteres som et tilbud til forskere som ikke vet om dem fra før? Og slik at vi databehandlere og ingeniører vet hvilke data det snakkes om? :-)

MR-data

Erfaringer

HUNT databank har vært involvert i en datautlevering av MR-bilder, 1006 individer med snaut 1000 bilder hver, fra Asta Håbergs HUNT3 MR-kohortundersøkelse til Aleksander Grande Hansens prosjekt "MR bihuler og nesekvalitet av normalbefolkningen (HUNT) i relasjon til symptomer".

Datamaterialet består av en mengde DICOM-filer. Dette er bildedata pluss attributt/verdi-baserte metadata, i et åpent format. Filene var avidentifiserte ved at navn og fødselsdato (som vanligvis forekommer blant attributtene i slike filer) var fjernet, men HUNT-id-en (spesifikk for MR-studien) gjensto. I tillegg har hver bilde i henhold til DICOM-standarden en globalt unik identifikator, og det samme har bildeserien, og instrumentet som produserte den. Disse id-ene ligger fortsatt i filene. Filene er organisert noe inkonsekvent/tilfeldig i mapper, navnet på forskjellige nivåer etter undersøkelsesmåned, HUNT-id og serienummer (fra 1 og forløpende oppover for hvert individ).

Siden det er bare én type fil, og filtypen hadde et åpent format, var det relativt enkelt å gå gjennom alle filer og mapper og erstatte id-nummeret med Grande Hansens prosjektspesifikke person-id. Det var altså ikke aktuelt med noe "sample sheet" i dette tilfellet. Imidlertid inneholde bildefilene som sagt globalt unike id-nummer som kan brukes for å koble sammen data fra ulike HUNT-prosjekt -- det er dog atskillig vanskeligere enn med et sample sheet. Og analogt med gendata-tilfellet: selve bildet utgjør en i praksis global identifikator som ikke kan endres.

Data ble overlevert personlig på USB-harddisker.

Spørsmål

MR-bilder kommer naturlig i serier av forskjellige typer. Det viktigste er visstnok hvordan bildet produseres, altså hva forskjellige intensitetsnivåer i bildet indikerer, men andre viktige kriterier er oppløsning og plan/posisjon/vinkel. Dette kan til en viss grad trekkes ut fra metadata, selv om det later til at en del av dette gikk tapt i anonymiseringen MR-studien gjennomførte før HUNT databank fikk tilgang til bildene. Uansett, bildeserier må klassifiseres, og hvordan gjøres dette best?

Ellers er spørsmålet om hvordan man håndterer koblingen mellom individ i HUNT databank og MR-bilde relativt enkelt, i hvert fall så lenge vi begrenser oss til DICOM-bilder, så jeg går ikke videre inn på dette her.

Lagring

Dette er vel mest et spørsmål om diskplass og minne, dvs. penger til drift og innkjøp). Det er dog også et sikkerhetsaspekt ved det, siden det trolig er mest praktisk å få data ut og inn via Internett.

Levering

Jeg ser for meg to mulige alternativer for utlevering av store datamengder fra HUNT databank: Cloudstor og eksterne harddisker.

Cloudstor

Cloudstor (https://www.uninett.no/cloudstor) er en tjeneste fra Uninett for overføring av store datafiler. Den funker visst utmerket. Vi må dog ha troverdige prosedyrer for kryptering av filene når de sendes ut.

Disk

Dette funket greit i MR-prosjekt ovenfor, ikke minst fordi mottaker var i Trondheim og kunne levere og hente disker personlig. Det blir selvsagt mer knot om disker må sendes frem og tilbake i posten, og dermed krypteres, men det er en mulighet. En fordel med den løsningen er at det da er like greit at dataene i utgangspunktet ligger på HUNTs sikkersone, siden databanken da kan kopiere og re-identifisere filer (i MR-tilfellet) direkte, i stedet for å generere skript e.l. som så må flyttes til dit dataene ligger og kjøres.

Nettjenester

Et tredje alternativ er å ikke levere datafiler, men tilby interaktive analysetjenester via terminal, web e.l. Dette vil trolig også redusere potensialet for uønsket kobling mellom prosjekter. Men det vil kreve ressurser til administrasjon og drift; forskerkompetanse for å avgjøre hvilke analyseverktøy vi skal tilby; og ingeniørkompetanse for å bygge opp systemet. Jeg vet ikke om dette er noe HUNT kan ev. leie av andre, eller leie noen til å lage.