Både privat og offentlig sektor besitter og produserer nå enormt mye data. For å håndtere de store datamengdene må man ta i bruk ulike vitenskapelige metoder, prosesser, algoritmer og systemer.
Vitenskapen om å trekke ut kunnskap eller innsikt fra ulike typer data er det vi gjerne omtaler som «Data Science».
I praksis er data science et tverrfaglig fagfelt der man kombinerer fagfelt som datavitenskap, statistikk, informasjonsvitenskap, matematikk, visualisering, dataintegrasjon, grafisk design, dataarkitektur, etc.
Hvor kommet begrepet «Data Science» fra?
I 1962 beskrev John Tukey et fagfelt han kalte «dataanalyse», som ligner det vi i dag omtaler som Data Science. Selve begrepet Data Science dukket vssitnok opp på en forelesning i 1985 på det kinesiske vitenskapsakademiet C.F. i Beijing i Kina.
Jeff Wu brukte da begrepet Data Science for første gang som et alternativt navn for statistikk.
Data Science vs statistikk og dataanalyse. Hva er forskjellen ?
Statistikk legger ofte mest vekt på kvantitative data der man gjerne ønsker å beskrive noe. I motsetning til dette bruker en data scientists både kvantitative og kvalitative data (f.eks. bilder eller tale) og legger vekt på prediksjon og handling.
I den digitale tidsalderen har det blitt produsert mye innhold som inkluderer alt fra bilder og videoer til tekst og tall. For å finne dypere innsikt her, trengs det kompetanse som i dag sorterer under Data Science. Kanskje bør vi i dag se på statistikk som en del av Data Science-domenet og ikke omvendt.
Men det trenger i praksis ikke å være så store forskjeller. I mange prosjekter Sannsyn har vært involvert, så står statistiske beregninger helt sentralt.
Om vi avslutningsvis så ser på forskjellen på Data Science og dataanalyse, så kan vi si at en data scientist lager spørsmål og forsøker å spå fremtiden basert på store og uoversiktlige data, mens en dataanalytiker finner svar basert på eksisterende sett med spørsmål.
Hva er en Data scientist?
Data Science handler om å håndtere store datamender og inkluderer datarensing, forberedelse og analyser. En data scientist samler data fra flere kilder og bruker maskinlæring, prediktiv analyse og sentimentanalyse for å trekke ut kritisk informasjon fra de innsamlede datasettene. De forstår data fra et forretningssynspunkt og kan gi nøyaktige spådommer og innsikt som kan brukes til å styre kritiske forretningsbeslutninger.
Se hvorfor vi mener at det å finne en god data scientist nesten er som å finne en enhjørning:
Hva skal til for å bli en dyktig Data Scientist?
Dyktige Data Scientists er gjerne gode på analyse og programmering, men de har også nødvendig domenekunnskap. I praksis betyr dette:
- Solid kunnskap om f.eks Python, R, Scala, SAS etc.
- SQL-databaser
- Evne til å jobbe med ustrukturerte data (f.eks fra forskjellige kilder som video og sosiale medier)
- Forstå flere analytiske funksjoner
- Kunnskap om maskinlæring
- Forståelse for domenet og dermed kunne bruke sunn fornuft i jakten på meningsfylte funn.
Data Science er som nevnt høyere opp i teksten, et fellesbegrep som omfatter flere disipliner, herunder dataanalyse, data mining, maskinlæring og flere andre relaterte disipliner. Mens en data scientist forventes å forutsi fremtiden basert på tidligere mønstre, henter dataanalytikere ut meningsfull innsikt fra ulike datakilder. En data scientist lager spørsmål, mens en dataanalytiker finner svar på det eksisterende settet med spørsmål.
Hva er forskjellen på Data Science og maskinlæring?
Data science er som nevnt høyere opp et bredt begrep som inkluderer flere disipliner, inkludert maskinlæring. Hovedforskjellen mellom de to begrepene er at Data Science ikke bare fokuserer på algoritmer og statistikk, men også tar seg av hele databehandlingsmetoden. Dataanalyse og maskinlæring er to av mange verktøy og prosesser som brukes innen Data Science.
Noen selskaper vi har jobbet med
Noen artikler relatert til Data Science
Master i data science fra Harvard – blir leder for Sannsyns konsulentavdeling
Øyvind Spørck blir leder for konsulentsatsingen i Sannsyn.