Det produseres nå enorme mengder data. Utfordringen er dermed ikke lenger tilgang på data, men å skille relevant data fra støy.
Data mining er et fagfelt innen data science, der man ofte bruker statistikk, kunstig intelligens og maskinlæring. Målet med data mining er å finne meningsfull informasjon i datasett og bruke denne informasjonen til å avdekke fremtidige mer eller mindre skjulte mønstre. Data mining er med andre ord relevant for alt fra varehandel til finans-bransjen.
Hvordan jobbe med data mining?
1. Integrere data: Det første som må gjøres er å samle og kombinere data fra alle forskjellige datakilder.
2. Velge data: Ikke alle dataene som er samlet er nyttige, så i dette trinnet velger vi bare dataene som er relevante.
3. Data-rensing: De valgte dataene kan inneholde feil, manglende verdier og inkonsekvens. Dette må fikses.
4. Datatransformasjon: Utjevning, aggregering og normalisering er noen teknikker som brukes for å transformere data til et forståelig format.
5. Data mining: Endelig kan du komme igang med din data mining og finne interessante mønstre.
6. Evaluering: Fjerne irrelevante data og gjøre forbedringer.
7. Ta den nye kunnskapen i bruk: Det siste trinnet i denne pros er å gjøre riktig bruk av kunnskapen som blir oppdaget i denne data mining-prosessen.