Bilde av datakvalitetsmodellen med ordene korrekt, komplett, tidsriktig, standardisert, konsistent, relevant, andvendelig, strukturert, nøyaktig

Datakvalitet

Datakvalitet handler om at data er av god nok kvalitet til at den kan brukes til et gitt formål. Er dataene konsistente? Kan jeg stole på dataene? Er de oppdaterte?

Hvis du ønsker at andre skal gjenbruke dine data er det spesielt viktig at datakvaliteten er beskrevet. Det er ikke realistisk at alle disse parameterne alltid er 100 %. Og det er greit, så lenge det er beskrevet godt nok. Dette kan beskrives i metadataene når du registrerer et datasett.

Så hvordan kan man vite om dataene er av god nok kvalitet?

  • Er dataene korrekte?

  • Har datasettet manglende felt og/eller verdier som har betydning for helheten?

  • Blir dataene oppdatert på tidspunktet det er forventet?

  • Er datasettet konsistent? Brukes det samme språk eller standard for å beskrive et felt i datasettet? Brukes det samme datoformater i hele datasettet?

  • Representerer dine data virkeligheten? Er sammenhengen mellom verdier og felter korrekt?

Hvordan kan man øke kvaliteten?

Brukervennlighet, rutiner, standardisering, automasjon og validering kan øke datakvaliteten ved systemdesign og registrering av data.

Her er noen konkrete eksempler:

Kvalitetsdimensjon Systemdesign Registrering
Korrekt Feltnavn må representere virkeligheten. Bruk av standardiserte felt, obligatoriske felt eller predefinerte verdier kan øke datakvalitet. Informasjonen som blir registrert må være korrekt.
Komplett Unngå null-verdier. Obligatoriske felt og predefinerte verdier kan øke datakvalitet. Informasjon som er obligatorisk må registreres.
Nøyaktig Feltnavn må stemme med verdiene som kommer inn og ikke kunne misforstås. Bruk av obligatoriske felt eller predefinerte verdier kan øke datakvalitet. Informasjonen som blir registrert må være i henhold til forventet format. For eksempel riktig datoformat, måleenhet, tall eller tekst.
Konsistent Vær konsistent ved bruk av feltnavn og referanser på tvers av dataene. Bruk kjente kodeverk. Bruk samme språk. Sjekk om det finnes et kodeverk slik at datasettet blir konsistente med andre lignende data.

Vask dine data!

Men hva kan man gjøre når dataene er av dårlig kvalitet i ettertid? Dårlig kvalitet på data kalles ofte skitten data, for å kunne klargjøre skitne data for bruk kan du vaske dataene. Vask av data kan bety flere ting, dette er avhengig av hva dataene skal brukes til.

Eksempler på datavask:

  • Fjerne informasjon som ikke skal være med
  • Fjerne duplikater og andre forstyrrelser (eks tomme tabeller, ubrukte feltnavn)
  • Endre feltnavn hvis man finner inkonsistente navn (f.eks. «datetime» og «dato»)
  • Anonymisere (f.eks. bytte ut personnavn med en ID)
  • Rette opp i datoformater
  • Identifisere og legge til koblinger/nøkler mellom tabeller og felt
  • ÆØÅ-problemer

Bli kjent med dine data!

Les mer om kvalitet på datasett:

Ønsker du mer informasjon om dette? Ta kontakt med oss!