Webinaaritallenne: Digitalisaation myötä tulevat suuret datamassat – ota ne haltuun big data -analytiikan avulla

Big dataan kuuluvat suuret datamassat sekä ei-strukturoidut datat. Big datan moninaisuuden takia sen hyödyntäminen teettää muutoksia organisaation tietoarkkitehtuuriin ja tiedonkäsittelyn prosesseihin. Lisäksi tulee huomioida uudenlaiset osaamistarpeet liittyen esimerkiksi datan esikäsittelyyn ja analysointiin sekä riskienhallintaan.

Big data -webinaarissa asiantuntijamme Erika Patrikainen luotsasi näkemään aihealueen ratkaisut, riskit ja mahdollisuudet. Katso tallenne tai lue tiivistelmä videon alta.

Webinaarin aiheena mm.

  • Big data -ratkaisut, arkkitehtuuri ja esimerkkejä
  • Big datan hyödyntämistä tukevat liiketoimintaprosessit
  • Big datan erityispiirteitä analytiikan näkökulmasta

Big data – mahdollisuus ja riski

Big dataan kuuluvat muun muassa IoT– ja muut mittalaitteet, paikkatieto sekä ääni-, kuva- ja videotallenteet. Big dataa kertyy dokumenteista, kirjoista, sosiaalisesta mediasta sekä monenlaisista liiketoiminnan transaktioista. Kertynyttä dataa voidaan hyödyntää yrityksissä monin tavoin toiminnan tehostamiseksi ja kehittämiseksi. Liiketoiminnot ja päätöksenteko tarvitsevat yhä enemmän kertaluonteisia analyyseja ja ennustemalleja. Tekoälyn myötä operatiiviset analyysimallit ovat tulleet osaksi liiketoimintaprosesseja.

Organisaatioissa on huomattu, että Big datan avulla päätöksenteko pohjautuu aiempaa paremmin tosiasialliseen tietoon ja uusia liiketoimintamahdollisuuksia pystytään tunnistamaan entistä tehokkaammin. Liiketoimia voidaan optimoida ja luoda useita mahdollisia skenaarioita, joiden avulla voidaan arvioida eri vaihtoehtojen riskejä organisaatiolle. Kun dataa on käytössä paljon, analyysimallit ovat parempia ja tarkempia. Algoritmit huomioivat heikotkin signaalit, ja tästä saadaan syöte mallien jatkokehitykseen. Esimerkiksi asiakastyytyväisyyskyselyiden tekemisen tarve vähenee, kun voidaan säännöllisesti analysoida asiakkaiden todellista käyttäytymistä ja tehdä ennusteita niiden pohjalta.

Riskien hallinta tietoturvan näkökulmasta

Datan käyttö ei aina ole yksilön edun mukaista. Big dataan sisältyy siten myös riskejä, joista datan väärinkäytön mahdollisuus on yksi merkittävimmistä. Tietovarastoja yhdistelemällä voi avautua pääsy luvanvaraiseen ja luottamukselliseen dataan, mikä vaarantaa käyttäjien yksityisyyden sekä yksilöiden toimintavapauden. Esimerkiksi Facebookin on julkisuudessa kerrottu myyvän tietoja käyttäjistään kolmansille osapuolille markkinointitarkoituksia varten. Tietoja on kerrottu käytetyn myös poliittiseen vaikuttamiseen ja muihin kyseenalaisiin tarkoituksiin. EU:n yleinen tietosuoja-asetus GDPR otettiin käyttöön siksi, että datan määrä ja sen hyödyntämisen luonne ovat muuttuneet merkittävästi viime vuosina. Sekä yhteisöt että yhteiskunnat joutuvat nyt osoittamaan, että tietosuoja otetaan vakavasti. Myös yksilöille osoitetaan enemmän vastuuta ”My datan” muodossa.

Tietojen käsittelijät on perehdytettävä ja ohjeistettava henkilötietojen käsittelyyn. GDPR edellyttää tarkkaa dokumentointia henkilötiedoista, ja sen myötä tietovarantoja on alettu kuvata järjestelmällisesti sekä yrityksissä että julkishallinnossa. Nykyisin tiedetään aiempaa paremmin, mitä tietoa on missäkin ja millaisia sääntöjä liittyy esimerkiksi datan säilyttämiseen. Dataa ei enää saa kerätä varmuuden vuoksi, vaan keräämiselle on oltava selkeä peruste. Jos käyttäjällä itsellään on hallintaoikeus dataan, käyttöoikeushallinta helpottuu.

Tietosuoja ja -turva on otettava huomioon jo tietojärjestelmien suunnitteluvaiheessa. Valmiita työkaluja ja prosesseja tätä varten löytyy useita. Uhkamallinnuksen ja riskianalyysin tekoa suositellaan. Lisäksi tulee ottaa huomioon sovellusten suojaus. Vaikka palvelimet ovat yleensä hyvin suojattuja, sovellusten käyttäjille jää suuri vastuu tietoturvan käytännön toteuttamisesta. Jokainen voi vaikuttaa tähän lataamalla sovellukset luotettavasta sovelluskaupasta, suojaamalla käyttäjätilinsä huolellisesti sekä välttämällä suojaamattomien verkkoyhteyksien käyttöä.

Big data -tietoarkkitehtuuri

Big data -tietoarkkitehtuurille hyödyllinen skaalautuvuus saavutetaan pilvipalveluja hyödyntämällä. Suurimmat pilvialustan tarjoajat ovat AWS, Azure, Google ja IBM, jotka ovat myös Suomessa yleisiä. Big data -tietoarkkitehtuurissa erotetaan datalähteet, integrointi, varastointi ja sovelluskerros.

Datalähteitä on kahta päätyyppiä: sanomapohjainen ja eräajopohjainen. Nämä vaativat hieman erilaisia työkaluja. Sanomapohjainen datalähde tarvitsee puskurin eli bufferin, johon reaaliaikaista dataa tulee ja josta se viedään tietovarastoon. Eräajopohjaista dataa käsitellään tavanomaisilla ELT/ETL-työkaluilla. Useampia tallennuskeinoja saatetaan tarvita, sillä dataa tulee usein eri nopeuksilla. Tähän vaikuttaa tietokannan nopeus kirjoittaa tai lukea. Sovelluskerros mukautuu tietokantaan.

Data lake liittyy olennaisesti Big dataan. Alun perin käsite kuvasi analyytikkojen ”hiekkalaatikkoa”. Ajatuksena tässä on, että useasta eri lähteestä kerätään dataa yhteen paikkaan, josta käsin sitä voidaan hyödyntää ketterästi eri malleilla. Data laken hyöty on se, ettei dataa tarvitse odotella ELT/ETL-prosessista useita päiviä. Data lakessa voidaan kansiorakenteiden ja käyttöoikeuksien avulla hallita, kuka mitäkin dataa pystyy lukemaan ja käsittelemään. Analyytikko osaa etsiä tiedot, joita mallinnusvaiheessa tarvitaan. Haasteena on karttaa data swamppia eli tilannetta, jossa kukaan ei tiedä, mitä dataa on olemassa ja mitä se sisältää.

Esimerkkinä big data -arkkitehtuurista voi toimia Aureoliksen oma Azure-pilvessä oleva Big data -ympäristö, jota käyttävät etenkin yrityksen omat analyytikot. Ympäristöä hyödynnetään myös erilaisissa kokeiluissa.

Big Data -arkkitehtuuri

Datan käsittelyprosessit analytiikkaa varten

Datan käsittely on monivaiheinen prosessi. Tietoturva- ja -suojavaatimuksista tulee varmistua jo dataa haettaessa tai kerättäessä. Usein master dataan eli ydintietoon yhdistetään perustietokannassa olevaa dataa. Seuraavana vuorossa on datan prosessointivaihe, jossa tarkastellaan datan laatua. Esimerkiksi päivämäärät muutetaan muotoon, joka organisaatiossa käytetään.

Prosessoitu data viedään tietovarastoon, mikäli historiaa halutaan tallentaa määrämuotoiseen muotoon. Näiden ohella voidaan käyttää dataintegraatio-hubia, josta päästään nopeammin kiinni data lakessa olevaan aineistoon. Analyytikot käyttävät datan käsittelyyn työvälineitä, jotka useimmiten ovat maksuttomia. Suosittuja välineitä ovat R ja Python.

Interaktiivisuus auttaa Big datan visualisoinnissa ja esimerkiksi porautumismahdollisuus nopeuttaa dataan perehtymistä. On hyvä ottaa huomioon, ettei analyysien tuloksia aina ole helppo visualisoida, jos käytetyt mallit ovat monimutkaisia tai moniulotteisia. Tässä tapauksessa pitää luottaa lukuihin ja verrata analyysin tuloksia toteutumiin.

Datan esikäsittely on tarpeen ennen Big datan visualisointia ja analysointia. Datan tulee olla koneluettavaa, ja tätä varten esimerkiksi ääni pitää muuttaa tekstiksi. Hahmontunnistuksen avulla kuvasta tunnistetaan algoritmin avulla objekteja: ihmisiä, autoja tai muita vastaavia analyyseihin tai ennusteisiin tarvittavia luokiteltuja kohteita. Tämä vaatii jonkin verran opettelua, mutta käytettävissä on hyviä maksuttomia työkaluja. Samoin löytyy ammattilaisia, jotka voivat auttaa näiden käyttötapausten toteuttamisessa.

Haluatko tiedon tulevista BI-akatemian tapahtumista sähköpostiisi?

  • Kenttä on validointitarkoituksiin ja tulee jättää koskemattomaksi.

Webinaarin puhujana toimi Aureoliksen Lead Data Scientist Erika Patrikainen. Erika on Aureoliksen analytiikka-alueen vastuuhenkilö. Erika on kokenut data scientist, jonka vahvuuksia ovat analytiikan mahdollisuuksien syvä ymmärrys sekä monipuolinen kokemus BI-alueen välineistä.