Begreper

Her finner du en oversikt over ord og begreper som dukker opp i forbindelse med bruk av dataplattformen.


Gruppering av data av samme «type». F.eks. boligpriser eller besøkstall. Et datasett kan være basert på rapporter, for eksempel en liste i en excel-fil, eller uttrekk fra en database. Datasett kan også inneholde sanntidsdata fra en sensor. Et datasett blir beriket med metadata som skal beskrive datasettet, slik som tittel, beskrivelse og tilgangsnivå.

Datasettet har versjoner. En ny versjon bør lages når dataformatet endres.

Når du skal laste opp ny data til datasettet, gjøres dette som en utgivelse, for eksempel nyeste statistikk for boligpriser.

En fil i en utgivelse.

Sanntidsdata kan publiseres til datasettet, og du kan lytte på datasettet etter nye sanntidsdata. Sanntidsdata kan for eksempel være data som sendes fra en sensor, som badetemperaturer eller besøkstall. Les mer om datasett basert på sanntidsdata.

En sink kan brukes for en strøm med sanntidsdata i et datasett. Sanntidsdata som publiseres blir lagret.

Sink kan bruke AWS S3 (s3) eller Elasticsearch (elasticsearch).

Enkelte tjenester i dataplattformen tilbyr webhook tokens som en alternativ metode for å autorisere operasjoner. Et webhook token er et tilfeldig generert ID-nummer som har en unik tilknytning til et datasett og en dataplattform-tjeneste.

Pipelines i dataplattformen er databehandlingstjenester som innebærer aggregering, akkumulering, samstilling, oppsplitting, filtrering, transformasjoner av dine data. Du kan velge å bruke eksisterende pipelines, eller lage din egen pipeline. Vi har for eksempel en pipeline som transformerer Excel-formatet til CSV-format.

Å prosessere data kan være nødvendig for å kunne bruke et visualiseringsverktøy som har behov for et bestemt filformat. Eller for å validere at dataene dine er standardiserte slik at du får korrekte data inn.

Les mer om dataprosessering og validering.

Rådata slik de er lastet inn i plattformen, uten noen endringer. Disse dataene eksponeres ikke utad, men er kun tilgjengelige for systemprosessene i dataplattformen. Typiske aksjoner på disse dataene er forskjellige varianter av datavasking; omskriving til andre filformater, transformasjon av innhold, filtrering, deteksjon av (utilsiktede) persondata, osv.

Resultater av videre prosessering eller foredling av data i plattformen (enten rådata eller andre prosesserte data).

Datakvalitet angir i hvilken grad data i et system er i overensstemmelse med det virkelige scenarioet dataene representerer og er mulig å bruke til et gitt formål. Les mer om datakvalitet.

Metadata er informasjon som beskriver dine data. For å oppnå god datakvalitet har metadata en viktig rolle. Metadata skal beskrive ditt datasett enten ved at du manuelt skriver inn informasjon om dine datasett, eller det blir automatisk registrert. Les mer om metadata.