Maskinlæring finnes i mange former – her er de viktigste

Maskinlæring eller det man på engelsk kaller «machine learning» handler om å identifisere mønstre i store mengder data for deretter å ta intelligente beslutninger (automatisering), men også forutse hendelser og resultater.

Autonome kjøretøy, tale- og lydgjenkjenning, målrettet reklame og anbefalinger (f.eks produkter, filmer og musikk) og prediksjon (forutse fremtidige hendelser) er i stor grad blitt mulig på grunn av maskinlæring.

Maskinlæring regnes ofte som et subdomene innen kunstig intelligens, men det er et er egentlig litt upresist da avansert maskinlæring også inneholder teknikker som ikke tilhører AI-feltet. På den annen side finnes det 100-150 forskjellige AI-teknikker, hvorav kun et fåtall av dem er maskinlæringsteknikker.

Hva er maskinlæring?

Maskinlæring kan sees på som generiske algoritmer som kan fortelle deg noe interessant om et datasett uten at du trenger å skrive egendefinert kode som er spesifikk for problemet. I stedet for å skrive kode, kan man si at du mater data til den generiske algoritmen, og den bygger egen logikk basert på dataene. Dette i motsetning til regelbaserte systemer der reglene er gitt av mennesker, gjerne basert på eksperterfaring, forretningslogikk eller regelverk:

Et eksempel på dette er en klassifiseringsalgoritme. Den samme klassifiseringsalgoritmen som ble brukt til å gjenkjenne håndskrevne tall, kan også brukes til å klassifisere e-post som er spam og ikke spam uten å endre en kode. Det er den samme algoritmen, men den blir matet med forskjellige treningsdata og kommer dermed med en annen klassifiseringslogikk.

  • Bank: Automatisert anbefalinger av potensielle handler og investeringer, handelsstrategier, robotrådgivere, analyse av kundeatferd, chatbots for kundetjenester, identitetsbekreftelse og svindeloppdagelse.
  • Offentlig sektor: Smart overvåking, avdekke trusler, «Smart Cities» og smarte forsyninger. AI-forbedret og personlig utdanning og opplæring, chatbots for informasjonsdistribusjon og inkludering av borgere.
  • Medier: Kundeanalyse, prognoser, trendanalyse, videoanalyse og datasyn (f.eks. i videospill).
  • Retail: Kundeanalyse, prognoser, forutse etterspørselstrender, redusere inntektsløp, supply chain management, lagerautomatisering, chatbots for kundetjenester og enklere check-outs.
  • Forsikring: Administrasjon av utbetalinger og oppdagelse av svindel, analyse av kundeatferd, automatisert forsikring, prising, samtaleplattformer for kundetjenester i samsvar med regelverk og handelsstrategier.
  • Energi: Predikere etterspørsel basert på AI-drevet analyse, prediktivt vedlikehold, dynamisk prising basert på forbruksanalyse levert av smarte målere, for eksempel chatbots for kundeservice.

Maskinlæringens historie

Maskinlæring baserer seg på statistiske modeller, matematisk optimalisering og algoritmer. Det er slik sett ikke et nytt fagfelt, men fagfelt har utvilsomt blitt mer aktuelt med kraftigere teknologi, mer avanserte algoritmer og stadig mer data.

Begrepet kunstig intelligens dukket opp for første gang i 1956, mens begrepet maskinlæring ble introdusert kort tid etter. Et av de første prosjektene innen maskinlæring ble igangsatt av Frank Rosenblatt så tidlig som i 1957  (kjent som «Preceptron»).

En annen milepæl fant sted i 1965 da Alexey Ivakhnenko skisserte det første dype nevrale nettverket og beskrev hvordan man kunne løse store utfordringer ved hjelp av maskinlæring. Deretter skjedde det lite innen dette fagfeltet frem til 1975 da Paul Werbos lanserte en løsning for å endre vektingen i nevrale nettverk (kjent som «Backpropagation»), noe som igjen er relevant for trening av nevrale nettverk. Paul Werbos arbeid var for øvrig viktig for Yann LeCun sin praktiske løsning for å identifisere håndskrift ved hjelp av en datamaskin (1989).

Flere typer maskinlæring

Maskinlæringsalgoritmer bygger matematiske modeller basert på eksempeldata eller treningsdata. Disse modellene brukes deretter til å ta beslutninger.

Vi skiller i hovedsak mellom to typer maskinlæring:

  • Supervised machine learning: Ved «veiledet læring» brukes algoritmer gjerne på merkede datasett som består av både spørsmål og svar, der modellen lærer seg å predikere riktig svar, gjerne basert på store mengder data. Classification og regression er to av de mest utbredte formene for supervised learning. Classification er evnen til å kategorisere et resultat (f.eks «rød» eller «grønn» – eller «sykdom» eller «ikke sykdom»), mens regression handler om å gi et eksakt svar (f.eks et beløp eller vekt, nyttig for eksempel om du skal predikere eiendomspriser). Nyttige algoritmer her kan være for eksempel lineær regressjon og nevrale nettverk.
  • Unsupervised machine learning: Ved «ikke-veiledet læring» brukes algoritmene på «umerkede» datasett, der man kun har eksempler på inputdata og ingen tilhørende output (det finnes altså ikke noe eksakt og riktig svar). Her må modellen forsøke å finne mønster og organisere innholdet. Clustering og associationer eksempler på denne typen maskinlærings-algoritmer. Clustering kan for eksempel brukes for å gruppere kunder etter kjøpsatferd, mens association for eksempel kan brukes for å beskrive typisk atferd (f.eks «kunder som har kjøpt dette produktet, kjøper ofte også dette»). Dyplæringsalgoritmer trenes gjerne opp med denne typen maskinlæring.

Kort sagt kan man si at supervised machine learning passer godt når man har god oversikt over problemområdet, en stor mengde tilgjengelig data med riktige svar og en viss forståelse av sammenhengen mellom input-data og output-data. Unsupervised learning er derimot mest aktuelt når det ikke finnes noe riktig svar og det i stedet handler om å se sammenhenger mellom forskjellige datapunkter.

I mange tilfeller er kun deler av dataen merket, da snakker vi gjerne om semi-supervised machine learning, hvilket er en blanding av supervised machine learning og unsupervised machine learning. Et eksempel på dette er et fotoarkiv, der kun deler av bildedatabasen er merket (f.eks med «hund», «katt» eller «Menneske»).

I tillegg har vi en tredje form for maskinlæring, reinforcement learning (såkalt «forsterkende læring»). Her bygges algoritmen sin modell basert på unsupervised machine learning, men får fortløpende tilbakemelding om beslutningen den foreslår er god eller dårlig.  Dette forklares best med et enkelt eksempel: Når du lærer å sykle, handler alt om å bli værende på sykkelen og ikke falle. Hjernen lærer seg hva som gjør at man faller (feil atferd) og hva som gjør at man blir værende på sykkelen (riktig atferd). Dette har for eksempel vært nyttig i utviklingen av sjakk-spill og selvkjørende biler.

Hva er «Kunstig intelligens» og hvorfor har det plutselig blitt så relevant?

Kunstig intelligens handler om å skape datamaskiner som er minst like smarte og kreative som menneskehjernen.

Begrepet kunstig intelligens (på engelsk “artificial intelligence”, ofte forkortet “AI”) ble brukt for første gang på en konferanse på Dartmouth University i USA i 1956.

Forskeren John McCarthy påpekte den gangen at kunstig intelligens ikke var en teknologi, men en hel vitenskap. Ja, vi vil hevde at «AI» er et enormt tverrfaglig bredt fagfelt med viktige bidrag fra både informatikk, matematikk, statistikk, nevrologi, psykologi og lingvistikk – der man har en rekke tilhørende konsepter og problemer, samt metoder for å løse dem.

En ganske vanlig definisjon på kunstig intelligens tar utgangspunkt i  EUs ekspertgruppes definisjon:

Kunstig intelligente systemer utfører handlinger, fysisk eller digitalt, basert på tolkning og behandling av strukturerte eller ustrukturerte data, i den hensikt å oppnå et gitt mål. Enkelte KI-systemer kan også tilpasse seg gjennom å analysere og ta hensyn til hvordan tidligere handlinger har påvirket omgivelsene.

Se også vår egen teknologidirektør Petter Egesund prate om kunstig intelligens og fortelle hvorfor det er så vanskelig å gi en god definisjon på kunstig intelligens:

Kunstig intelligens og maskinlæring er ikke det samme

Kunstig intelligens omtales ofte som et synonym til maskinlæring. Det er egentlig litt upresist da avansert maskinlæring også inneholder teknikker som ikke tilhører AI-feltet – og av de 100-150 forskjellige AI-teknikkene som finnes, er kun et fåtall maskinlæringsteknikker. 

En annen utfordring er at mye som omtales som AI-teknologi, i praksis bare er statistikk og matematikk. Begrepsforvirringen er utvilsomt stor.

Vanskelig å gjenskape menneskelig intelligens

For å beskrive hensikten med kunstig intelligens, er det relevant å se på menneskehjernen. Menneskeheten kan for eksempel resonnere, bruke strategi, kjenne igjen bilder/taler/lyd, løse problemer, håndtere usikkerhet, ta vare på og bruke kunnskap, vise sunn fornuft, planlegge for å nå et mål, lære av sine feil og kommunisere på et forståelig språk.

For et menneske er dette helt naturlige egenskaper, mens det er vanskelig å gjenskape i en IT-verden. Om vi i tillegg tar med oss at menneskeheten har en egen evne til å sjonglere mellom de ulike områdene og at det ikke finnes noen universell og felles definisjon på «intelligens», er det ingen tvil om at det er et krevende domene Sannsyn og andre «AI-selskaper» har beveget seg inn i.

I denne sammenhengen er det verdt å merke seg at kunstig intelligens som ligner menneskelig intelligens, ofte omtales som kunstig generell intelligens (på engelsk «Artificial General Intelligence») eller «sterk» KI. Annen kunstig intelligens kalles gjerne «svak» eller «smal». Vi må være så ærlig å si at dagens KI-løsninger stort sett er ganske «smale». Det betyr imidlertidig ikke at de ikke er effektive, men at det er snakk om spesifikke løsninger laget for å løse spesifikke oppgaver (f.eks bilde- eller tale gjenkjenning).

Når vi snakker om betydningen av kunstig intelligens, er det med andre ord på mange måter et stort tema der man fort vil ha behov for å definere hva intelligens egentlig er for noe for deretter å se se dette opp mot kunstig intelligens. Dette er åpenbart et stort og komplekst emne med klare paralleller til filosofiens univers.

Gjennombrudd for AI

Slik vi ser det er er drivkraften i kunstig intelligens algoritmer, der særlig utviklingen innen nevrale nettverk og dyp læring har fått stor betydning for jakten på kunstig intelligens.

Selv om kunstig intelligens i disse dager får mye oppmerksomhet, betyr det ikke at temaet er nytt. Kunstig intelligens har vært diskutert i mange år, men det er nå vi virkelig begynner å få fart på maskineriet. Det finnes selvsagt mange milepæler, men en av de store er utvilsomt da IBMs supermaskin Deep Blue slo sjakkgeniet Gary Kasparov i sjakk i 1996 og 1997.

Neste store milepæl er også fra brettspillets univers. Da selskapet DeepMind og deres AI-robot AlphaGo klarte å slå verdensmesteren i det svært avanserte brettspillet Go (denne spillmotoren ble senere knust av DeepMinds nye satsinger AlphaGo Master, AlphaGo Zero og AlphaZero), hadde menneskeheten omsider klart å lage en datamaskin som var både kreativ og selvlærende. Kanskje ikke så rart av DeepMind senere ble solgte til Google for et milliardbeløp.

Norske eksempler på kunstig intelligens

Det skjer nå mye spennende innen domenet kunstig intelligens, også her i Norge. Vi lister under opp en del eksempler på praktisk bruk av kunstig intelligens gjengitt i media de siste årene. Eksemplene er ikke nødvendigvis fra våre egne prosjekter, så detaljene vi gjengir er normalt basert på innholdet i artiklene vi lenker til:

Dyp læring er en grunnpilar i avanserte automatiseringsoppgaver

Dyp læring eller det man på engelsk kaller «deep learning» muliggjør avanserte automatiseringsoppgaver. 

Dyp læring er en læreprosess der man trener opp nevrale nettverk. Dette er sentralt innen maskinlæring og drømmen om å utvikle kunstig intelligens.

Dyp læring brukes i dag blant annet i forbindelse med simultanoversettelser mellom språk i sanntid og talegjenkjenning med smarthøytalere, men også innen medisin for å spesialtilpasse medisin til hver enkelt pasient eller for å hjelpe leger å lese medisinske bilder på jakt etter riktig diagnose.

Eksempler på dyp læring

La oss se på et enkelt eksempel på hvordan dyp læring eller «deep learning»  fungerer.

Se for deg at du skal spå prisen på en leilighet som skal selges. Da vil du som en voksen og erfaren person raskt etterspørre informasjon som kan påvirke prisen. Alt fra størrelse og antall rom til tilgang på parkeringsplass og plassering i byen vil trolig oppfattes som relevant. For å gjøre en slik markedsanalyse med mye input, vil hjernen raskt forsøke å dele informasjonen inn i ulike kategorier (f.eks geografi, tilgjengelighet til skole/kollektivtrafikk og familievennlighet), slik at det blir lettere å få oversikt. I tillegg kreves selvfølgelig en del prøving og feiling (livserfaring som mange vil kalle det) for å kunne gi et nøyaktig og godt prisestimat.

På samme fungerer dyp læring: Du må gi systemet masse input som deretter kategoriseres i et forsøk på å predikere output ved hjelp av masse prøving og feiling. For å lykkes med å analysere input og kategorisere denne informasjonen brukes nevrale nettverk.

Selv bruker vi i Sannsyn blant annet dyp læring for å predikere den fremtidige utviklingen til aksjefond for finansbransjen.

«Sort boks»

Når man snakker om kunstig intelligens, kommer man raskt inn på utfordringene med mangelen på transparens. Det kan for eksempel være en utfordring for en bankkunde som får avslag på et lån, der man i etterkant ikke kan svare godt på hvorfor kunden har fått avslått sin lånesøknad.

I disse tilfellene er det ofte dyplæringsalgoritmer som har vært i bruk. Man omtaler disse ofte som en «sort boks», der man ikke har innsyn i modellen og derfor ikke kan forklare hvorfor en gitt inndataverdi gir et gitt resultat.

Vi presiserer at normalt er metodene etterprøvbare og mulig å dokumentere, men det er viktig å være klar over utfordringen med den «sorte boksen». Særlig i de tilfeller der forklarbarhet er sentralt, anbefaler vi å bruke AI-teknikker som ikke skaper slike utfordringer.

Sannsyn og dyp læring

Sannsyn har jobbet med dyp læring og trening av nevrale nettverk i mange år og regnes som et av Norges mest erfarne selskaper på dette området.

De mest brukte rammeverkene for dyp læring, er utviklet av TensorFlow og PyTorch, utviklet av henholdsvis Google og Facebook.

Hvordan lykkes med data mining? Her er de 7 stegene

Det produseres nå enorme mengder data. Utfordringen er dermed ikke lenger tilgang på data, men å skille relevant data fra støy.

Data mining er et fagfelt innen data science, der man ofte bruker statistikk, kunstig intelligens og maskinlæring. Målet med data mining er å finne meningsfull informasjon i datasett og bruke denne informasjonen til å avdekke fremtidige mer eller mindre skjulte mønstre. Data mining er med andre ord relevant for alt fra varehandel til finans-bransjen.

Hvordan jobbe med data mining?

1. Integrere data: Det første som må gjøres er å samle og kombinere data fra alle forskjellige datakilder.

2. Velge data: Ikke alle dataene som er samlet er nyttige, så i dette trinnet velger vi bare dataene som er relevante.

3. Data-rensing: De valgte dataene kan inneholde feil, manglende verdier og inkonsekvens. Dette må fikses.

4. Datatransformasjon: Utjevning, aggregering og normalisering er noen teknikker som brukes for å transformere data til et forståelig format.

5. Data mining: Endelig kan du komme igang med din data mining og finne interessante mønstre.

6. Evaluering: Fjerne irrelevante data og gjøre forbedringer.

7. Ta den nye kunnskapen i bruk: Det siste trinnet i denne pros er å gjøre riktig bruk av kunnskapen som blir oppdaget i denne data mining-prosessen.

Hva er egentlig en algoritme?

En algoritme er en eksakt beskrivelse som forteller hvilke operasjoner som skal utføres og i hvilken rekkefølge for å oppnå et visst resultat.

Ordet algoritme stammer fra den persiske matematikeren og astronomen Muhammad ibn Musa al-Khwarizmi (den latinske formen av Al-Khwārizmī er Algoritmi). Han skrev på 800-tallet flere bøker, blant annet boken Al-jabr wa’l muqabalah. Den inneholdt en beskrivelse, altså det vi nå gjerne kaller en algoritme, for hvordan visse annengradsligninger kunne løses.

På samme måte kan man se på en kakeoppskrift som en algoritme, der man får en eksakt oppskrift på hvordan man skal lage en bestemt kake.

En algoritme trenger med andre ord ikke å være relatert til big data, digitalisering, programmering og kunstig intelligens, selv om det nok er det folk flest i dag  forbinder med algoritmer.

Algoritmer og kunstig intelligens

Ordet algoritme har som nevnt sin opprinnelse i matematikkens verden, men har nå fått sitt oppsving mye takket være økt fokus på kunstig intelligens. Ordet algoritme har nesten blitt et synonym til kunstig intelligens. I praksis har de fleste algoritmer lite med selvtenkende datamaskiner å gjøre.

I hovedsak skiller man gjerne mellom:

  • Tradisjonelle algoritmer: Her vil output du får ut, være direkte relatert til input du har gitt og de reglene du har satt opp.
  • Maskinlæringsalgoritmer: Her brukes input for å prøve og feile og deretter brukes den nye erfaringen (output) som input for ytterligere prøving og feiling. På den måten blir algoritmen bare klokere og klokere.

Et lite hjertesukk fra oss i Sannsyn: Når vi snakker om algoritmer innen maskinlæring, er det ofte snakk om bruk av nevrale nettverk der man har som mål å etterlikne menneskehjernens måte å jobbe på. Men maskinlæringsalgoritmer kan også inkludere for eksempel regresjonsanalyse og ikke «AI», og da er det ikke lenger kunstig intelligens som gjelder, men «bare» avansert statistisk analyse.

Eksempler på algoritmer

De mest kjente algoritmene finner vi nok hos Facebook og Google. Når teknologigigantene gjør endringer i sine algoritmer, får det ofte store konsekvenser for hva hvilke nyheter folk får opp i sin nyhetsstrøm og hvilke søkeresultater man får opp i søkemotoren.

På liknende måte brukes algoritmer på nettsider (f.eks nettbutikker og nyhetsnettsider) for å gi deg som besøkende produkt- og artikkel-anbefalinger. Algortimene forsøker i denne sammehengen å gi deg mest mulig relevant innhold, blant annet basert på din kjøps- og navigasjonshistorikk.

– Solr er en fantastisk søkemotor og potensialet er enda større

Mange av landets nettbutikker, nettaviser og universiteter benytter Solr som søkemotor. Solr-ekspert Petter Egesund mener mange av nettsidene har et stort forbedringspotensial.

Da utvikleren Yonik Seeley jobbet med et internprosjekt i medieselskapet CNET Networks på midten av 2000-tallet, ante han lite om hvor viktig resultatet av hans arbeid ville bli.

For å gjøre en lang historie kort: Målet til unge Yonik Seeley var å lage en god søkemotor til CNET sine egne nettsider. Tidlig i 2006 gikk CNET live med søket og donerte samtidig kildekoden til Apache Software Foundation. I dag er Solr er en av to store open soure-databaser for å søke i tekst (den andre er Elastic Search).

Solr brukes i dag av mange av verdens største selskaper, inkludert Disney, Netflix, eBay og BestBuy. Også svært mange norske virksomheter har tatt i bruk Solr, inkludert Finn.no, Universitet i Oslo, ARK Bokhandel og Sprell.

Ingen over, ingen ved siden

Etter hvert har det også kommet mange kommersielle aktører på banen som tilbyr kurs, konsulenthjelp, skreddersøm, videreutvikling og support relatert til Solr.

Det norske selskapet Sannsyn AS er et slikt selskap. Petter Egesund, teknologidirektør og medgründer i Sannsyn, har jobbet med tekstsøk i nærmere tyve år.

– De fleste databaser støtter tekst på en eller annen måte, men Solr gir svært bra resultater, mye takket være stadig mer funksjonalitet og et lojalt community med et stort antall brukere, bidragsytere og programmerere.

Noe av det som gjør Solr populært er at søkemotoren er svært konfigurerbar og har gode verktøy for å vekte og justere søk i større datamengder.

Stadig testing og tuning

Sannsyn har bistått en rekke universiteter, nettaviser og nettbutikker med tekstanalyser og Solr-søk.

– Å sette opp Solr er ingen kunst og er ofte noe man kan gjøre uten ekstern bistand. Utfordringen er å ta i bruk alle mulighetene som ligger i teknologien. Det krever ofte mer Solr-kompetanse enn det man har internt i en bedrift.

For bedrifter som ønsker å forbedre sitt søk, anbefaler Egesund at man ikke iverksetter ett omfattende søkeprosjekt, men heller jobber i flere faser med stadig testing og tuning.

– Et typisk Solr-prosjekt kan grovt sett deles inn i tre deler. I første fase jobber vi med vektinger, tuning og språklige støttefunksjoner i søket. Deretter jobber vi med semantisk analyse og vekting av salg/popularitet i auto-complete og søkeresultat. I tredje og siste fase forsøker vi å personalisere søket mest mulig til hver enkelt bruker.

Store søkeforbedringer kan gjøres på noen uker, men det hele avhenger av nåsituasjon og ambisjonsnivå.

– Å jobbe med søk er både utfordrende og morsomt. Et nettsidesøk kan alltid bli litt bedre, smiler Egesund.

Lanserer egenutviklet plugin til Solr

Sannsyn leverer ikke bare Solr-rådgiving, i disse dager er Sannsyn også i ferd med å lansere en egen plugin til Solr.

– Solr er rett og slett en fantastisk søkemotor, men ingen er perfekt. Den største svakheten til Solr er at man som nettside-eier ikke får vite om søket fungerer eller ikke. Den mangler et statistisk apparat som gir innsikt i trender, nulltreff, svartid, antall feil, lengde på treffliste og så videre, sier Egesund.

– Videre mangler Solr funksjonalitet for semantiske søk og algoritmene den er basert på, forstår ikke intensjonen bak et søk.

Løsningen som kalles for TellusR og beta-testes i disse dager hos flere av Sannsyns kunder før den etter hvert skal lanseres internasjonalt.

CDP kan bli like viktig for kundedata som PIM er for produktberikelse

Stadig mer kundedata, økt konkurranse om kundene, GDPR og et stadig mer fragmentert marked for salg og markedsføring, er viktige drivere for at mange mellomstore og store bedrifter i disse dager vurderer en dedikert kundedataplattform, på engelsk kalt “Customer Data Platform” (CDP).

Hva er egentlig en CDP?

De siste årene har de fleste større selskaper innen varehandelen fått et forhold til PIM for systematisering av produktinformasjon. Noen har kanskje også implementert et eget system for ordrehåndtering (OMS) og grafisk innhold (DAM). Vi mener at det nå er på tide å rydde plass til enda en tre bokstavers forkortelse: CDP. 

The CDP Institute definerer en CDP som «pakket programvare som skaper en vedvarende, enhetlig kundedatabase som er tilgjengelig for andre systemer.»

Man kan se for seg CDP’en plassert slik i en rask skisse over økosystemet til en butikkjede eller nettbutikk:

Man kan altså se på CDP’en som navet i kundedialogen med nære knytninger til både personalisering, søk, markedsføring, kundeklubb, kundesenter, CRM og nettbutikk.

Hvem trenger en CDP?

En CDPs fokus er å faktisk etablere det komplette kundebildet vi har snakket om de siste 10 årene. Sett med netthandelsøyne er en CDP særlig relevant for virksomheter med følgende kjennetegn: 

  • Selskaper med mye kontaktinformasjon og kjøps- og webhistorikk.
  • Selskaper som selger eller markedsfører i flere kanaler.
  • Selskaper som har mange verktøy som brukes i kundedialogen og erfarer at disse er vanskelig å integrere med hverandre.
  • Selskaper som ønsker mer kontroll og muligheter enn man får med et CRM-system.

I praksis er dette alle mellomstore og store nettbutikker og butikkjeder. 

CDP’er er komplekse og kommer med en kombinasjon av forskjellige funksjoner hos de utallige løsningene som finnes på markedet. Hvilken verktøy skal man velge? For å besvare dette er det flere områder vi må se nærmere på:

  • Behov: Først og fremst, hva planlegger du å bruke CDP’en til? Mange retailere ønsker bedre kontroll på sine kundedata med tanke på GDPR, personalisering på egne nettsider, mer effektiv reklame, mer relevante nyhetsbrev og et personlig tilpasset søk i egen nettbutikk. I tillegg er det ofte et stort behov for datavisualisering og internrapportering. Men kanskje finnes det også andre interne behov i bedriften? I denne prosessen er det viktig å involvere markedsavdelingen, men glem ikke teknologoene og data scientists slik at de får muligheten til å gjøre de mer avanserte analysene.
  • Datainnsamling: I en CDP samler man inn kundedata fra flere kilder, gjennomgår dataene og lager 360-graders kundeprofiler. Før man velger plattform er det viktig å diskutere hvilke data man ønsker å samle og hvordan de skal samles inn; være seg transaksjonsdata (fra alle salgskanaler), interaksjondata (f.eks klikk og søk på nettside), CRM-data osv.
  • 360 graders kundeprofil: Innsamlet data brukes for å skape en 360-graders kundeprofil med en unik ID for hver eneste kunde. I denne sammenhengen er det viktig å identifisere hvorvidt det er opprettet mer enn én profil for en enkelt kunde. Dette problemet oppstår vanligvis når man har flere epost-adresser på én kunde, kunden hopper mellom desktop og mobil – eller når det har vært interaksjon mellom kunden og forskjellige avdelinger i selskapet, hvor alle skaper en egen post for samme kunde. Velfungerende CDPer oppdager disse duplikatene og sletter dem fra systemet. Med en CDP får man i stedet ett lagringspunkt for kundedata. Hver avdeling i bedriften har tilgang til disse kundedataene, der eventuelle endringer tilgjengeliggjøres for hele bedriften.
  • Segmenter og målgrupper: Mange tenker kanskje at en 360 graders kundeprofil først og fremst er interessant med tanke på personalisert markedsføring (1:1), men vi må heller ikke glemme at i en del sammenhenger er det fortsatt aktuelt med samme budskap til flere kunder. I et CRM-system segmenterer man typisk dette basert på for eksempel kjønn, geografisk tilhørighet eller kjøpsatferd, men med en CDP er det også mulig å skape langt mer avanserte segmenter og målgrupper basert på store mengder sanntidsdata, der man setter sammen flere kunder som likner på hverandre. For mange retailere handler mye fortsatt om kampanjer, med en CDP og litt nytenkning kan man gjøre kampanjene langt mer effektive.
  • Ekstern data: Basert på 360 graders kundeprofiler gir man hver enkelt kunde tilpasset innhold. Samtidig er det viktig at man tar hensyn til en rekke andre faktorer, som for eksempel lagerbeholdning, kampanjer, sesong og produktanmeldelser. 

Hvordan velge riktig CDP?

Kort oppsummert kan vi oppsummere punktene over i følgende modell, der det røde området er selve CDP’en:

Slik vi ser det, finnes det ikke en CDP som passer alle bedrifter. Noen løsninger er svært avanserte, men de er ofte kostbare og krevende å sette opp og drifte. Andre løsninger er enkle og koster lite, men er kanskje ikke et verktøy for bedriften på lengre sikt.

En annen måte å se dette på er fra et mer teknisk perspektiv. Mange som har begynt å sette seg inn i CDP-markedet, vil fort kikke på store løsninger fra globale selskaper som Segment, Adobe, SAP, IBM etc. Det er solide tekniske løsninger, men løsningene er kostbare, selskapene er kun representert i Norge gjennom sine partnere og løsningene er ikke alltid tilpasset det norske markedet. Mange av disse er også stasjonert utenfor Europa, noe som skaper en del juridiske komplikasjoner. Et alternativ er slik sett å se på nordiske CDP’er; disse er ofte mindre og enklere. Et tredje alternativ er å se på open source-baserte løsninger, slik som Apache Unomi. Der får man avanserte løsninger, samtidig som man slipper de kostbare lisensene og man har bedre kontroll på sine data. Ulempen er at dette krever en del kompetanse, der man ofte må ofte må kombinere interne kompetanse med ekstern konsulentbistand fra et spesialisert byrå om man ønsker en konkurransedyktig løsning.

Det er ikke slik at alle trenger en CDP, men for mellomstore og store retailere, mener vi at et CDP-verktøy bør være relevant. Samtidig minner vi om at de virkelig verdiene først skapes når man benytter den innsamlede dataen til noe som skaper verdi for kundene, gjerne automatisert og i sanntid ved hjelp av maskinlæring. Eksempler på dette kan være produktanbefalinger i nettbutikken, mer relevant reklame i form av presisjonsmarkedsføring eller et bedre produkt-søk i nettbutikken. CDP-verktøyet vil fremover også bli sentral i digitale tjenester i fysisk butikk og bidra til å bygge den viktige broen mellom digitale og fysiske kanaler.

Derfor er det så viktig med en tydelig datastrategi

Mange bedrifter samler inn store mengder data, uten å ha en god plan for hva de vil gjøre med alle disse dataene. Andre bedrifter er så overveldet av alternativer, at de ikke kommer igang. Ingen av alternativene er gode.

I stedet for å starte med dataene, bør enhver virksomhet starte med strategi. En god datastrategi handler ikke om å samle mest mulig data. Det handler om hva virksomheten deres ønsker å oppnå, og hvordan data kan hjelpe dere med å komme dit.

Vi erfarer at mange selskaper har egne datastrategier for hver enkelt det av virksomheten, for eksempel markedsavdelingen eller økonomiavdeling, men det finnes ingen virksomhetsomfattende dataplan.

En annen utfordring vi ofte ser, er at det fokuseres for mye på datalagring og eierskap i stedet for virksomhetens langsiktige strategiske mål og hvordan data kan bidra til å nå disse målene. En datastrategi bør utvilsomt eies av ledergruppen og ikke IT-avdelingen eller markedsavdelingen.

All data samles på ett sted med en Data lake

Mengden data vokser eksponentielt i alle bransjer. For norske bedrifter representerer den voksende datamengden en ny utfordring, men også nye muligheter.

Alle moderne bedrifter ønsker å ta informerte, data-drevne beslutninger på tvers av avdelinger på en rask og trygg måte.

En data lake er et felles arkiv der alle data lagres i sitt naturlige råformat.

En typisk data lake inneholder:

  • Strukturerte data fra relasjonsdatabaser hvor data er organisert som rader i tabeller (f.eks SQL)
  • Semi-strukturert data (f.eks CSV-filer, logger, XML og JSON)
  • Ustrukturerte data (f.eks sosiale medier, e-post, dokumenter og pdf-filer)
  • Binære data (f.eks bilder, lyd og video)
Et eksempel på en data lake-skisse fra vår egen virksomhet.

All data på ett sted med egen data lake

Det er mange fordeler med å samle all data på ett sted. Mye handler om fleksibilitet:

  • Du kan skape innsikt fra alle typer datakilder.
  • Du lagrer rådata og trenger dermed ikke ha alle problemstillingene du ønsker besvart klare i forkant.
  • Ubegrenset antall måter å analysere dataene på.
  • Eliminering av data-siloer.
  • Demokratisert tilgang til data på tvers av organisasjonen.

En data lake i kombinasjon med data science

En data lake må ikke forveksles med et datavarehus. En data lake er som et stort basseng med rå-data fra alle tenkelige og utenkelige kilder, der formålet ennå ikke er definert. Et datavarehus er er derimot et lagringssted for strukturerte, filtrerte data som allerede er behandlet for et bestemt formål. Et datavarehus vil typisk samle data fra bedriftens økonomi-, ERP- og CRM-system. Dataen fra et datavarehus vil med andre ord være naturlig å inkludere i en data-sjø.

Med en data lake får man som nevnt samlet all data på ett sted, men den må også bearbeides for å skape forretningsverdi – enten det er i form av rapporter, visualisering, analyse eller automatisering.

Kunnskapen om hvordan man utnytter dataene blir ofte betegnet som Data Science. I denne sammenhengen brukes alt fra tradisjonell analyse til kunstig intelligens i form av maskinlæring og dyp læring.

Lønnsom bruk av data

Det er mange avdelinger i bedriften som kan ha glede av et slikt initiativ. Hvordan en data lake og tilhørende bruk av data kan bidra til økt innsikt vil variere fra bedrift til bedrift og avdeling til avdeling, men la oss se på noen eksempler:

  • Markedsførere kan predikere sjanse for kundefrafall, optimalisere salgsaktiviteter på tvers av kanaler og estimere hvilke prospekter som mest sannsynlig vil kjøpe. Personalisert markedsføring på tvers av kanaler blir også mer presist.
  • En butikkjede kan finne nye mønstre i hva slags produkter som kundene kjøper sammen. Gjerne fordelt per ukedag eller årstid. Dette kan igjen påvirke innredning av butikk, sortimentstrategi og markedsføring.
  • Innkjøp kan gjøres mer effektivt, da man får mer presise prediksjoner på omsetning og unngår for store varelager eller utsolgt-situasjoner.
  • Et energiselskap kan foreta kritisk vedlikehold i perioder med forventet lave strømpriser.
  • Finansbransjen kan bruke innsikten for å predikere fremtidig kursutvikling på fond og aksjer basert på en rekke faktorer.
  • Transportselskaper kan knytte eksterne GPS-, vær- og veiarbeidsdata sammen med intern informasjon om bemanningsnivå og tilgang på kjøretøy for å optimalisere kjøreruter.

Gyldendal-konsernet satser på egen data lake

La oss ta et eksempel fra vår egen kundeportefølje og se hvordan man kan bygge en data lake og bruke den i praksis.

Sannsyn har i lang tid hatt gleden av jobbe med ARK Bokhandel, der vi har hjulpet kjeden med søk og personalisering. I senere tid har vi også jobbet med morselskapet Gyldendal ASA. Mens vi i første fase “bare“ analyserte data fra ARKs nettbutikk og fysiske butikker, bygger vi nå sammen en komplett data-sjø.

I prosjektet har vi med sammen med ulike samarbeidspartnere bygd en data lake for hele konsernet og utviklet en data-strategi som gjør at Gyldendal nå lett kan stille teser og teste disse mot data-settene som er samlet og få raske svar. Det er også mulig å generere rapporter og automatisere løsninger for å skape kontinuerlig verdi.

Løsningen bruker flere forskjellige metoder for å skape verdi ut av dataene. Det strekker seg fra vanlige statistiske analyser av store data-mengder til mer avansert bruk av kunstig intelligens i form av maskinlæring og dyp læring basert på nevrale nettverk.

I dette tilfelle ble data-sjøen satt opp i Azure, men det er ingen hindring å benytte sky-løsninger fra AWS eller Google.

La oss sammen bygge en data lake og skape konkurransekraft!

Ta gjerne kontakt med Sannsyn om du ønsker å vite mer. Vi kommer gjerne på besøk og diskuterer temaer som:

  • Hva vil det egentlig si å være en «datadrevet bedrift»?
  • Hvordan skape forretningsverdi basert på data?
  • Hvordan går man frem teknisk sett for å bygge en data-sjø?
  • Hvordan jobbe med kultur og opplæring for å gjøre bedriften mer datadrevet?
  • Vi hjelper gjerne også til med datavisualisering og dataanalyse, slik at dere fått tolket og formidlet all deres innsamlede data.