| |
ONGELMAKESKEINEN DATA-ANALYYSI
- BayMiner auttaa löytämään neulan heinäsuovasta
Johdanto
1. Tapausten klusterointi (ryvästys)
2. Tilannekuvan tarkennus
2.1 Homogeenisuuden määritys
3. Ongelma-analyysi
4. Hypoteesin testaus ja tarkennus
5. Ennustaminen
6. Riskitekijän etsintä
Lopputoteamus
Johdanto
BayMiner-käytön hyödyt saadaan ennen muuta parempina ratkaisuina käytännön valintatilanteisiin. Tämä teksti esittelee yleisellä tasolla erityyppisiä data-analyysiin liittyviä päättelyongelmia ja BayMinerin käyttötapoja niiden ratkaisemiseksi.
1. Tapausten klusterointi (ryvästys)
Datan analyysissa on olennaista saada kokonaiskäsitys sen kuvaamasta tilanteesta. Klassisessa tilastotieteessä tähän tarkoitukseen käytetään mm. tilastollisia tunnuslukuja, esim. keskilukuja, joilla pyritään saamaan esiin kunkin muuttujan tyypillisimmät arvot. BayMiner-pohjaisessa analyysissä olennaisinta eivät ole muuttujakohtaiset tunnusluvut vaan data-aineiston kokonaisrakenteen havainnollinen kuvaus. Käytännössä tämä tarkoittaa datan sisältämien tapausten (datarivien) ryhmittelyä keskenään samankaltaisiin osajoukkoihin. Nämä joukot hahmottuvat suoraan kuvaruudulla lähekkäin sijaitsevista pisteistä, ja jatko analyysi kohdistuu tyypillisesti niiden ominaisuuksien vertailuun.
Ellei kunnollisia (selvästi ympäristöstään esiin piirtyviä) klustereita muodostu koko data-aineistoa käytettäessä, kannattaa jatkaa niiden etsimistä siirtymällä analysoitavien muuttujien valintaan (Uusi visualisointijoukko -kohdasta). Ohitettaviksi kannattaa valita sellaisia muuttujia, joiden sisältämä tieto on käsiteltävien kysymyksen asettelujen kannalta epäolennaista. Näin karsitulla muuttuja joukolla tehtävä laskenta johtaa usein paremmin klusteroituneen pistepilven muodostumiseen. Analyysin jatko riippuu sitten kulloisenkin ongelman luonteesta.
2. Tilannekuvan tarkennus
Kun käytettävissä on sekä omaa valmista asiantuntemusta data-aineiston kuvaamasta asiaintilasta että aineiston BayMiner-malli, omaa tilannekuvaa voi täydentää hyödyllisellä lisätiedolla valitsemalla aineistosta omalta kannalta luontevia ja kiintoisia osajoukkoja ja tutkimalla niiden profiileja sekä koko aineistoon että toisiinsa verrattuina. Näin toimien oma tilannekuva tarkentuu sekä siten, että sen tietyt piirteet (ne, jotka saavat selvää tukea datasta) vahvistuvat, että siten, että sen jotkin piirteet kenties kyseenalaistuvat (kun tilanne näyttääkin jossain suhteessa erilaiselta kuin oli totuttu ajattelemaan).
Lisäksi syntyy tarkempi käsitys asioiden määrällisistä suhteista: Vaikka olisi ollut jo alun pitäen selvää, että tietynlaiset tapaukset ovat yleisiä ja toiset harvinaisia, tällainen summittainen tietämys on varsin epätarkkaa. Data-aineiston osajoukkojen muuttujaprofiileihin tutustumalla selviää, kuinka yleisiä ja vastaavasti harvinaisia minkäkinlaiset tapaukset näyttävät olevan; näin laadullinen tietämys jalostuu määrälliseksi.
Samaten voi tulla esiin mielenkiintoisia erikoistapauksia tai sellaisia ilmiöitä, joita ei ollut tullut etukäteen ajatelleeksikaan. Päätöksentekotilanteessa tämä tarkentunut tilannekuva voi antaa pohjaa sekä omien vahvuuksien täysimittaisempaan hyödyntämiseen että mahdollisten uusien avauksien tekemiseen, kun ei tarvitse toimia pelkän sormituntuman varassa.
2.1 Homogeenisuuden määritys
Esimerkkinä tilannekuvan tarkennustehtävän suhteellisen yleisluontoisesta erikoistapauksesta voi pitää homogeenisuuden määritystä. Tässä kiinnostuksen kohteena on datan tiettyjen osajoukkojen sisäinen yhdenmukaisuus tai tasalaatuisuus. Tätä voi tutkia datan yleisestä mallista.
Ensin määritetään kiinnostuksen kohteena olevat osajoukot. Koska kysymyksenasettelu kohdistuu nyt ennalta valittuihin osajoukkoihin (esim. tietyn kaupungin tai kaupunginosan olosuhteet), tarkasteltavia klustereita ei valita kuvaruudulle piirtyvien tihentymien (tyypillisten tapausten) perusteella vaan käyttämällä haluttua muuttujaa luokittelumuuttujana, jonka arvo (esim. kaupungin tai kaupunginosan nimi) määrää osajoukkojaon. Luokittelumuuttujan arvot otetaan tarkasteluun (väritetään datapilvi niillä), valitaan (hiirenvasemmalla näppäimellä) sen vertailtavat arvot, yksi kerrallaan, ja nimetään näin saadut datapisteiden osajoukot jatkoanalyysiä varten. Näitä tarkastellaan sitten vuoron perään.
Jo pelkkä osajoukon sijoittuminen kokonaiskuvaan antaa viitteitä sen homogeenisuudesta: homogeeniset osajoukot muodostavat tyypillisesti tiiviitä ryppäitä, kun taas heterogeeniset jakautuvat laajalle alueelle ja niiden pisteet ovat sekaisin niihin kuulumattomien pisteiden joukossa. Tarkemman kuvan saa katsomalla muuttujaprofiilia: homogeenisten joukkojen jakaumissa on tyypillisesti selvästi erottuva moodiarvo, eli jakauma on keskittynyt, kun taas heterogeeniset joukot ovat enimmäkseen tasaisemmin jakautuneita. Tätä voi havainnollistaa myös värittämällä kulloinkin valitun osajoukon eri muuttujien arvoilla: homogeenisissa osajoukoissa on (suhteessa joukon kokoon) paljon keskenään samanvärisiä pisteitä ja jotkut värit voivat kokonaan puuttua, kun taas heterogeenisissa on useita, ehkä kaikkiakin värejä, joita on suunnilleen yhtä paljon kutakin.
3. Ongelma-analyysi
Erona edelliskohtaan on se, että nyt analyysin lähtökohtana on jokin päätöksiä vaativa ongelma. Yksinkertaisimmillaan BayMiner-analyysillä tunnistetaan ongelmatapausten tyypilliset piirteet vertaamalla ongelmatapausten muodostamaa osajoukkoa kaikki tapaukset sisältävään perusjoukkoon.
Analyysi edellyttää ongelmatapausten tunnistamista datasta. Tämä voidaan usein tehdä jonkin valmiin muuttujan arvon perusteella (vrt. luokittelu muuttujan käyttö edellä kohdassa 2.1). Ellei data-aineistossa ole valmiiksi mitään sellaista muuttujaa, jonka arvojen perusteella ongelmatapaukset ovat suoraan tunnistettavissa, siihen kannattaa lisätä mieluiten heti ensimmäiseksi sarakkeeksi uusi luokittelumuuttuja, joka erottaa ongelmatapaukset muista. Tämän muuttujan arvot saadaan joko uutena tietona tai lasketaan muistamuuttujista niin, että ne ilmaisevat, pidetäänkö kyseisen datarivin kuvaamaa tapausta ongelmallisena vai ei.
Elleivät ongelmatapaukset näytä muodostavan mitään tihentymiä, on syytä jatkaa analyysiä klusterien etsintänä (1. kohta). Jos ongelmatapaukset sijoittuvat toisistaan selvästi erillisiin saarekkeisiin, kutakin näistä voi vuorollaan verrata perusjoukkoon, muihin "ongelmasaarekkeisiin" ja muihin kiinnostaviin osajoukkoihin. Tällöin ongelma siis jakautuu erikseen käsiteltäviin osaongelmiin.
Muuttujaprofiili näyttää kerralla kaikkien muuttujien arvojakaumien erot vertailtavien joukkojen välillä, ja näin päästään nopeasti käsiksi mielenkiintoisiin asiayhteyksiin, jotka voivat sisältää ratkaisun avaimet. Ellei ongelman ratkaisu onnistu suoraan, vertailuprofiiliin tutustuminen voi ainakin antaa viitteitä siitä, mistä suunnasta lisäinformaatiota voisi kannattaa etsiä.
4. Hypoteesin testaus ja tarkennus
Eroina edelliskohtaan ovat nyt yhtäältä se, että lähtökohtana ei välttämättä ole akuutti ongelma vaan yleisempi kysymyksenasettelu, ja toisaalta se, että mielessä on valmis käsitys tutkittavaan seikkaan liittyvistä syy-yhteyksistä, joten kiinnostus on selvästi kohdentunutta jo alusta alkaen; tämä fokusoituneisuus on erona myös kakkoskohtaan verrattuna. Näin ollen kohdassa 2.1 käsiteltyä homogeenisuuden määrittelytehtävää voi tietyissä tilanteissa pitää hypoteesin testauksenakin, jos sillä näet pyritään hypoteesin testauksen mukaisiin päämääriin.
Hypoteesia testattaessa menetelmänä on datan valikointi siten, että kiinnostava kysymyksenasettelu saisi siitä mahdollisimman paljon valaistusta: mukaan kannattaa valita vain sellaiset muuttujat, joiden keskinäissuhteita hypoteesi suoranaisesti koskee, ynnä sellaiset, joiden arvot mahdollisesti vaikuttavat hypoteesin osuvuuteen. Vertailu koskee nytkin datarivien osajoukkojen keskinäisiä suhteita tai niiden suhteita koko data-aineistoon.
Syy-yhteyksiä ei voi pelkällä havaintoaineistolla sitovasti osoittaa, sillä ilmiöiden yhteisesiintyminen eli korrelaatio ei ole sama asia kuin niiden syy-seuraussuhde eli kausaatio (jäätelönsyönti ei aiheuta hukkumiskuolemia, vaikka molemmat lisääntyvätkin samaan aikaan vuodesta). Hypoteeseihin liittyvä intuitio tekee kuitenkin mahdolliseksi muodostaa mielessä datajoukkojen ominaisuuksia koskevia ennusteita, joiden toteutuminen (ja sen aste) on BayMiner-muuttujaprofiilia tarkastelemalla helposti havaittavissa ja myös muille osoitettavissa.
On esim. syytä olettaa, että kilpailutilanteen kiristyminen johtaa urakkahintojen laskuun, ja jos on todettavissa, että toisen yrityksen aloitettua toimintansa omilla kotimarkkinoilla urakkahinnat todella ovat jääneetkin aiempaa alemmiksi, hypoteesi on saanut sekä vahvistuksen että tarkennuksen (miten merkittävä hintatason lasku yrityksen kannalta minkäkinlaisten urakoiden osalta näyttää olevan). Intuitio antaa siis syyn olettaa vaikutuksen olemassaolo ja suunta, ja data-analyysi täydentää yksityiskohdat. Datasta tehdyt havainnot voivat toisaalta johtaa myös hypoteesin hylkäämiseen tai tarkentamiseen, ellei tilanne ollutkaan ennakko-odotusten mukainen.
5. Ennustaminen
Kysymyksenasettelu kohdistuu tässä tapauksessa tulevaisuuden arviointiin tähänastisesta saadun kokemuksen ja tutkittavasta tapauksesta jo käytettävissä olevien tietojen pohjalta. Esimerkkinä voisi olla vaikkapa urakkatarjouksen hinta: kun tiedetään, millä resursseilla kyseiseen urakkaan voisi tarttua ja mitkä ovat sen tunnuspiirteet, ja kun käytettävissä on aiempiin, jo päättyneisiin urakoihin liittyvää dataa, josta niiden kannattavuus selviää, on mahdollista arvioida uuden urakan riskejä ja oikeaa hintatasoa.
Tällöin käytetään suunnattua BayMiner-mallia, jonka kohdemuuttujaksi valitaan se, jonka arvoa pyritään ennustamaan (esim. urakan kokonaiskustannukset). Kun tämä malli on laskettu, muuttujaprofiilista kiinnitetään ennustettavan tapauksen tunnetut arvot (ja vain ne), ja valitaan Ennusta-toiminto, joka sijoittaa ennustettavaa tapausta kuvaavan kohdentimen todennäköisimmälle paikalleen aineiston tapauksia kuvaavien pisteiden joukkoon. Valitsemalla jatkotarkasteluun kohdentimen lähistölle sijoittuvista pisteistä koostuvan(uuden) osajoukon ja tutkimalla sen muuttujaprofiilia saa käsityksen siitä, millaiseksi uusi projekti näyttäisi todennäköisimmin muodostuvan.
6. Riskitekijän etsintä
Liiketoiminnassa eri tilanteissa eri tekijät voivat aiheuttaa riskejä. Epätyydyttävän asiaintilan korjaamiseksi on tärkeää tunnistaa sen perussyyt (root causes), jotta korjaustoimenpiteet voitaisiin valita ja kohdentaa oikein. Jos käytettävissä on liiketoiminnan kokonaisuutta riittävän kattavasti kuvaavaa data-aineistoa, sen BayMiner-analyysi auttaa tilanteen arvioinnissa.
Jos käytettävissä on historiadataa yrityksen toiminnasta, niin BayMiner-tarkastelussa nykytilannetta kuvaavan pisteen lähettyville sijoittuvat data-aineiston pisteet ovat kiinnostavia. Ne nimittäin edustavat nykytilanteen lähimpiä menneisyyden vertailukohtia. Jos nämä vertailukohdat ja niihin tepsineet lääkkeet ovat vielä muistissa, tämä voi antaa ratkaisun avaimia uudenkin tilanteen hallintaan.
Joka tapauksessa nykytilanteen ja sitä muistuttavien aiempien tilanteiden muodostaman osajoukon (klusterin) muuttujaprofiilia tutkimalla on mahdollista löytää niitä tekijöitä, jotka erottavat tarkasteltavat tapaukset muista. Varsinkin tilanteissa, joissa useat tekijät yhdessä aiheuttavat riskejä, BayMiner-analyysin kokonaisvaltaisuus pääsee oikeuksiinsa.
Perussyiden etsintä voi myös muistuttaa hypoteesien testaus- ja tarkennusongelmaa (4. kohta) sikäli, että tilannedatan analysointi voi joko tukea vallitsevia näkemyksiä tai toisaalta hälventää turhia epäluuloja. Jos tilanteesta keskustellaan ja erilaisia analyyseja ja korjausehdotuksia esitetään, BayMinerin samanaikainen käyttö antaa mahdollisuuden arvioida näkemysten ja ehdotusten osuvuutta datan perusteella välittömästi, ohittaa epätodennäköiset vaihtoehdot nopeammin ja kehitellä parhaita ideoita pidemmälle kuin mihin muuten tarjoutuisi mahdollisuutta.
Lopputoteamus
Yleisenä piirteenä BayMinerin käytöstä em. ongelmatyyppien ratkaisemiseksi voi todeta, että tarkempi tilannekuva mahdollistaa osuvammat toimet ja BayMiner-analyysi on nimenomaan asiantuntijan työkalu, ei asiantuntemuksen korvike.
|
|
|
|