Tilrettelegge data for analyseformål
Å dele data krever – som nevnt – bevisste valg og et reflektert forhold til dataene man forvalter.
Data egnet for å dele for bruk i analyser skiller seg, som beskrevet under «Data oppstår», på noen områder fra operasjonelle data brukt for å levere en tjeneste.
Dersom dataene man forvalter i hovedsak er operasjonelle tjenestedata er det som regel nødvendig og hensiktsmessig å bearbeide de på en måte som gjør at de egner seg for analyse.
Å velge ut data som skal tilgjengeliggjøres
Siden det kan være arbeidskrevende å tilgjengeliggjøre data bør man nøye vurdere hvilke data som kan gi verdi for andre. Om man har fulgt DigDirs retningslinjer rundt «Orden i eget hus», så har man kanskje allerede kontroll på dette. Hvis ikke anbefaler vi en nøye vurdering av hvilke data som kan være interessant for andre og relevant å dele. Ta gjerne kontakt med KUDAF dersom du ønsker bistand på dette området.
En god start på arbeidet er å gjøre en vurdering av hvilke data som – sett fra virksomhetens ståsted – kan være hensiktsmessig å dele. Et godt utgangspunkt for denne vurderingen kan for eksempel være å se på hva samfunnsoppdraget til virksomheten er. Hvilke data forvalter man som kan si noe om dette? En annen tilnærming er å vurdere hvilke data man allerede deler i dag, f.eks. via statistikk-portaler, registre, raporter eller gjennom direkte henvendelser fra interessenter; om noen allerede synes data er interessant, er det store sjanser for at også andre synes de kan være verdifulle.
En metode som kan være nyttig for å kartlegge og skape en felles forståelse rundt dette er verdikjedeanalyser; en visuell fremstilling av datakonsumenter, deres kunnskapsbehov, datatilbydere og deres data, samt muligheter og utfordringer for deling av data.
Når man har identifisert data man ønsker å tilgjengeliggjøre kan man begynne å jobbe konkret med se på den eksisterende datamodellen, om det er nødvendig å transformere dataene, vurdere infrastrukturen den ligger lagret i, og hvorvidt denne egner seg som
Dataenes struktur
En vanlig måte å strukturere data på er i datasett. Den mest kjente er i form av tabeller:
I en tabell beskriver kolonner ulike aspekter av en enhet.
Hver rad representerer én spesifikk forekomst av en enhet.
I KUDAF er det ønskelig at tabellene er så små at de kun beskriver én kolonne av gangen. Dette kaller vi for enkeltvariabel-datasett.
Det er mulig å dele data uten at dette er gjort, men grunnet følgende fordeler har vi som målsetting for denne struktureringen av data i KUDAF-programmet:
Spesifisitet:
Ved å fokusere på enkeltvariabler kan man tilby mer spesifikke og detaljerte data til brukere som bare er interessert i en bestemt type informasjon. Dette kan gjøre det enklere for brukerne å finne og anvende dataene de trenger uten å måtte filtrere gjennom irrelevant informasjon.
Datamengde:
Store datasett kan være utfordrende å håndtere og analysere på grunn av deres størrelse og kompleksitet. Mindre datasett er lettere å håndtere, raskere å bearbeide, og enklere å forstå og analysere.
Ytelse:
Analyseverktøy og databaser kan fungere raskere med mindre datamengder, noe som fører til forbedret ytelse i databehandling og dataanalyse.
Sikkerhet og personvern:
Det er enklere å anonymisere enkeltvariabeldatasett, noe som kan redusere risikoen for at sensitiv informasjon blir kompromittert. Man kan fjerne eller aggregere identifiserbare data for å overholde personvernregler.
Gjenbrukbarhet:
Enkeltvariabel-datasett kan gjenbrukes i flere forskjellige sammenhenger og kombineres med andre datasett for å skape nye innsikter, uten å måtte håndtere kompleksiteten av det fullstendige datasettet.
Kontroll på datakvalitet:
Det kan være enklere å identifisere og korrigere feil, inkonsistenser, eller utelatelser i data når man jobber med enkeltvariabler.
Fleksibilitet ved analyse:
Forskere og analytikere kan være interessert i å utføre svært spesifikke analyser som bare krever en eller noen få variabler. Ved å splitte datasettene, kan man tilrettelegge for mer målrettet og tilpasset analyse.
Effektiv deling:
Det kan være mer effektivt å dele og overføre mindre mengder data, spesielt over nettverk eller på plattformer der det er begrensninger på båndbredde eller lagring.
Det er altså ønskelig å splitte opp evt. større tabeller som – hvor hver enkelt kolonne forteller noe om noe – i flere små tabeller med én kolonne hver, hvor hver enkelt av dem forteller noe helt spesifikt om noe.
Denne transformasjonen kan gjøres manuelt, eller om det er snakk om jevnlig rapportering av data så kan det være hensiktsmessig å automatisere denne jobben.