Data lake – Bygg én felles data-sjø for hele bedriften

Mengden data vokser eksponentielt i alle bransjer. For norske bedrifter representerer den voksende datamengden en ny utfordring, men også nye muligheter.

Alle moderne bedrifter ønsker å ta informerte, data-drevne beslutninger på tvers av avdelinger på en rask og trygg måte.

Det er her en data lake (eller det som på norsk kalles data-sjø) kommer inn i bildet:

Modellen viser en data lake i midten og ulike avdelinger rundt.

All data på ett sted med egen data lake

En data lake er et felles arkiv der alle data lagres i sitt naturlige råformat.

En typisk data kaje inneholder:

  • Strukturerte data fra relasjonsdatabaser hvor data er organisert som rader i tabeller (f.eks SQL)
  • Semi-strukturert data (f.eks CSV-filer, logger, XML og JSON)
  • Ustrukturerte data (f.eks sosiale medier, e-post, dokumenter og pdf-filer)
  • Binære data (f.eks bilder, lyd og video)

Det er mange fordeler med å samle all data på ett sted. Mye handler om fleksibilitet:

  • Du kan skape innsikt fra alle typer datakilder.
  • Du lagrer rådata og trenger dermed ikke ha alle problemstillingene du ønsker besvart klare i forkant.
  • Ubegrenset antall måter å analysere dataene på.
  • Eliminering av data-siloer.
  • Demokratisert tilgang til data på tvers av organisasjonen.

En data lake i kombinasjon med data science

En data lake må ikke forveksles med et datavarehus. En data lake er som et stort basseng med rå-data fra alle tenkelige og utenkelige kilder, der formålet ennå ikke er definert. Et datavarehus er er derimot et lagringssted for strukturerte, filtrerte data som allerede er behandlet for et bestemt formål. Et datavarehus vil typisk samle data fra bedriftens økonomi-, ERP- og CRM-system. Dataen fra et datavarehus vil med andre ord være naturlig å inkludere i en data-sjø.

Med en data lake får man som nevnt samlet all data på ett sted, men den må også bearbeides for å skape forretningsverdi – enten det er i form av rapporter, visualisering, analyse eller automatisering.

Kunnskapen om hvordan man utnytter dataene blir ofte betegnet som Data Science. I denne sammenhengen brukes alt fra tradisjonell analyse til kunstig intelligens i form av maskinlæring og dyp læring.

Lønnsom bruk av data

Det er mange avdelinger i bedriften som kan ha glede av et slikt initiativ. Hvordan en data lake og tilhørende bruk av data kan bidra til økt innsikt vil variere fra bedrift til bedrift og avdeling til avdeling, men la oss se på noen eksempler:

  • Markedsførere kan predikere sjanse for kundefrafall, optimalisere salgsaktiviteter på tvers av kanaler og estimere hvilke prospekter som mest sannsynlig vil kjøpe. Personalisert markedsføring på tvers av kanaler blir også mer presist.
  • En butikkjede kan finne nye mønstre i hva slags produkter som kundene kjøper sammen. Gjerne fordelt per ukedag eller årstid. Dette kan igjen påvirke innredning av butikk, sortimentstrategi og markedsføring.
  • Innkjøp kan gjøres mer effektivt, da man får mer presise prediksjoner på omsetning og unngår for store varelager eller utsolgt-situasjoner.
  • Et energiselskap kan foreta kritisk vedlikehold i perioder med forventet lave strømpriser.
  • Finansbransjen kan bruke innsikten for å predikere fremtidig kursutvikling på fond og aksjer basert på en rekke faktorer.
  • Transportselskaper kan knytte eksterne GPS-, vær- og veiarbeidsdata sammen med intern informasjon om bemanningsnivå og tilgang på kjøretøy for å optimalisere kjøreruter.

Gyldendal-konsernet satser på egen data lake

La oss ta et eksempel fra vår egen kundeportefølje og se hvordan man kan bygge en data lake og bruke den i praksis.

Sannsyn har i lang tid hatt gleden av jobbe med ARK Bokhandel, der vi har hjulpet kjeden med søk og personalisering. I senere tid har vi også jobbet med morselskapet Gyldendal ASA. Mens vi i første fase “bare“ analyserte data fra ARKs nettbutikk og fysiske butikker, bygger vi nå sammen en komplett data-sjø.

I prosjektet har vi med sammen med ulike samarbeidspartnere bygd en data lake for hele konsernet og utviklet en data-strategi som gjør at Gyldendal nå lett kan stille teser og teste disse mot data-settene som er samlet og få raske svar. Det er også mulig å generere rapporter og automatisere løsninger for å skape kontinuerlig verdi.

Løsningen bruker flere forskjellige metoder for å skape verdi ut av dataene. Det strekker seg fra vanlige statistiske analyser av store data-mengder til mer avansert bruk av kunstig intelligens i form av maskinlæring og dyp læring basert på nevrale nettverk.

I dette tilfelle ble data-sjøen satt opp i Azure, men det er ingen hindring å benytte sky-løsninger fra AWS eller Google.

La oss sammen bygge en data lake og skape konkurransekraft!

Ta gjerne kontakt med Sannsyn om du ønsker å vite mer. Vi kommer gjerne på besøk og diskuterer temaer som:

  • Hva vil det egentlig si å være en «datadrevet bedrift»?
  • Hvordan skape forretningsverdi basert på data?
  • Hvordan går man frem teknisk sett for å bygge en data-sjø?
  • Hvordan jobbe med kultur og opplæring for å gjøre bedriften mer datadrevet?
  • Vi hjelper gjerne også til med datavisualisering og dataanalyse, slik at dere fått tolket og formidlet all deres innsamlede data.

Kontakt oss

Sannsyn AS

c/o Epicenter

Edvard Storms gate 2 0166 Oslo, Norway

+ 47 905 31 877

info@sannsyn.com

Personvernerklæring