Sukella tekstianalytiikan maailmaan ja inspiroidu – Näkökulmia tekstianalytiikkaan blogisarja osa 2

17.02.2021 Analytiikka

Tekstianalytiikka (Text Analytics) – karkealta synonyymiltään tekstinlouhinta (Text Mining) – on yksinkertaistettuna prosessi, jolla strukturoimattomasta tekstidatasta saadaan kaivettua esiin ja analysoitua mielekästä, relevanttia informaatiota. Tekstianalytiikan avulla saatuja tuloksia on mahdollista hyödyntää muun analysoidun tiedon rinnalla rikastamaan ja syventämään kuvaa tarkasteltavasta ilmiöstä.

Tekstianalytiikan menetelmäkirjo on laaja

Tekstianalytiikassa hyödynnetään monenlaisia metodeja ja tekniikoita – ja paljon etenkin koneoppimisen menetelmiä. Mikäli halutaan käyttää ajankuvan mukaista trendisanaa ‘tekoäly’ – jonka osa koneoppiminen on – niin tekstianalytiikan ratkaisujen voidaan sanoa sisältävän ripauksen tai isomman ropsauksen tekoälyä. Tekstianalytiikka liittyy olennaisesti luonnollisen kielen käsittelyyn (Natural Language Processing, NLP), josta kerron lisää tämän blogisarjan kolmannessa, pian julkaistavassa, osassa. Siinä sivutaan myös sitä, kuinka hyvin suomen kieli nykyisin taipuu tekstianalytiikan ratkaisuihin. Aiheeseen liittyen kannattaa vilkaista myös kahden Senior Data Scientistimme, Villen ja Eevin, aiemmin julkaistu blogiteksti.

Tekstianalytiikalla suurista tekstiaineistoista voidaan tunnistaa ja analysoida muun muassa ilmiöitä, trendejä ja kaavoja. Tekstejä voidaan esimerkiksi luokitella ohjatun oppimisen menetelmin etukäteen määriteltyihin luokkiin (Classification) tai koneen voidaan antaa etsiä tekstistä aiheita ohjaamattomasti aihemallinnuksen (Topic Modeling) keinoin.

Myös tekstien sisältämiä sävyjä ja tunteita voidaan tunnistaa ja analysoida sävy- eli sentimenttianalyysin (Sentiment Analysis) avulla. Se voi olla hyödyllistä esimerkiksi tilanteessa, jossa asiakaspalautteita käsittelevän henkilökunnan koulutukseen on panostettu ja halutaan selvittää, onko negatiivisten palautteiden määrässä koulutuksen ansiosta laskeva trendi. Kaiken kaikkiaan tekstianalytiikan menetelmäkirjo on laaja, ja tekstianalytiikkaa voidaan tehdä erilaisista lähtöasetelmista ja monenlaisin tavoittein.

Digitaalista tekstidataa kertyy monenlaisista kanavista

Tekstinlouhinnan työstömateriaaliksi soveltuvat käytännössä lähes kaikki digitaaliset tekstiaineistot. Tekstianalytiikan avulla voidaan esimerkiksi automatioida tuki- ja huoltopyyntöjen, vikailmoitusten, reklamaatioiden tai korvaus- ja rahoitushakemusten käsittelyä ja luokittelua. Luokittelun avulla siis esimerkiksi IT-tukeen tulevat tiketit saadaan ohjattua jatkokäsittelijälle. Luokittelua voidaan hyödyntää myös esimerkiksi potilaskertomusten analysoinnissa ylätason tautiluokkien tunnistamiseksi.

Tekstianalytiikan menetelmin voidaan myös analysoida sosiaalisen median tekstisisältöjä ja kyselyjen avoimia vastauksia tai etsiä aiheita laajojen tietoaineistojen metatiedoista aihemallinnuksella. Myös esimerkiksi sähköpostit, chat-keskustelut, sopimus- ja muut sähköiset asiakirjat, asiakaspalautteet, tuotekuvaukset, palvelinten lokitiedot, tutkimuspaperit, pöytäkirjat sekä muistiot ovat sopivaa pureksittavaa tekstianalytiikan menetelmille.

Inspiroidu tekstianalytiikan mahdollisuuksista

Näkökulmia tekstianalytiikan käyttöönottoon tarjottiin tekstianalytiikan blogisarjamme ensimmäisessä osassa. Aiheesta lukemisen lisäksi yksi hyvä keino kartuttaa tietämystään aihepiiristä on tulla kuuntelemaan ja keskustelemaan aiheesta tekstianalytiikkademomme parissa. Ajan demoon saa varattua täältä.

Demossa aineiston käsittely ja analysointi on tehty R-ohjelmointikielellä, ja tulokset on raportoitu MS Power BI -välineellä. Demon tarkoitus on esitellä esimerkinomaisesti yhdenlainen tekstianalytiikkatoteutus. Demon aineistona on käytetty avointa, suomenkielistä palautekyselyn dataa. Demo sisältää useita vaiheita, kuten tekstin jäsentelyä, sävy- eli sentimenttianalyysia, luokittelua ja aihemallinnusta. Tervetuloa inspiroitumaan!

 

tekstianalytiikka demo

Jaa tämä artikkeli