Yleisiä näkökohtia
Tässä luvussa havainnollistettaviksi valituissa esimerkeissä käytettiin erilaisia koneoppimisstrategioita, ja joissakin tapauksissa myös hybridiverkkoja. Tärkeä käytännön kysymys liittyy algoritmin valintaan tietyn ongelman ratkaisemiseksi. Valitettavasti oikeaa vastausta ei ole olemassa. Tässä yhteydessä on tärkeää pohtia Wolpertin ja Macreadyn niin sanottua ”ei ilmaista lounasta” -teoriaa, jonka mukaan ”minkä tahansa algoritmin parempi suorituskyky yhdessä ongelmaluokassa kompensoituu suorituskyvyllä toisessa ongelmaluokassa.”
Yksinkertaisesti sanottuna ei ole olemassa yhtä mallia, joka toimisi parhaiten kaikkiin ongelmiin. Kukin menetelmä voi kuitenkin sopia parhaiten tiettyyn ongelmaluokkaan. Tämä tarkoittaa, että ei ole mahdollista yleistää, että tietyssä tutkimuksessa parhaiten suoriutunut algoritmi on paras strategia muihin koneoppimistehtäviin. Näin ollen on tärkeää valita tiettyyn ongelmaan sopiva malli. Valitettavasti ei ole olemassa teoreettista perustaa, jonka perusteella valita. Tämä on tehtävä empiirisesti kokeilemalla ja erehtymällä. Algoritmien arviointitutkimus antoi hyvän konkreettisen esimerkin tästä yleisestä periaatteesta.
Valinnasta riippumatta jokaisella mallilla on viritettävät parametrit eli hyperparametrit. Esimerkiksi neuroverkkojen tapauksessa viritettäviä parametreja ovat solmujen lukumäärä kussakin kerroksessa ja kerrosten lukumäärä. Backpropagaatiossa valitaan momentti ja oppimisnopeus. CNN:n osalta on tehtävä päätöksiä konvoluutiomatriisin koosta. Alkupainot on satunnaistettava, mutta siinä useimmat satunnaisluvut luodaan tietokoneella alkaen ”siemenluvusta”. Tämä siemen on myös parametri. Tämä luettelo ei ole mitenkään tyhjentävä. Satunnaismetsissä puiden lukumäärä, haarojen lukumäärä, puun syvyys ja niin edelleen ovat parametreja, jotka on valittava. K-means-menetelmää varten on valittava klusterien lukumäärä sekä k satunnaislukusiementä, jotka käynnistävät iteratiivisen prosessin klustereiden määrittämiseksi. Viritettävät parametrit ovat tosiasia tekoälylle.
Toinen näkökohta mallia valittaessa on mallin implisiittinen puolueellisuus. Tällä ei tarkoiteta ulkoisia ennakkoluuloja, kuten niitä, jotka johtuvat harjoitusjoukon elementtien valinnasta tai ominaisuuksien tai luokkien merkintöjen arvoon perustuvasta arvioinnista, vaan pikemminkin kuhunkin malliin sisäänrakennettuja oletuksia. Esimerkiksi K-means-mallissa oletetaan, että klusterit ovat suunnilleen pallomaisia ja samankokoisia (vaikka on olemassa parempia malleja, joissa näitä rajoituksia ei ole). Naïve Bayes olettaa, että ominaisuusvektoria kuvaavat attribuutit ovat toisistaan riippumattomia. Oletukset tietojen jakaumista ovat lähes kaikkien koneoppimisalgoritmien ytimessä. On tärkeää ymmärtää tietokokonaisuuden luonne riittävän yksityiskohtaisesti, jotta voidaan valita algoritmi, jonka rajoitukset ovat vähiten kriittisiä kyseiselle tietokokonaisuudelle. Valitettavasti termin ”bias” käytöllä on taipumus antropomorfisoida tekoälyohjelma ja hämärtää asiaan liittyviä kysymyksiä.
Syväoppimisverkon implisiittisen biasin havaitseminen on hankalaa, koska meillä ei ole todellista ymmärrystä siitä, miten kyseinen verkko käsittelee syötteitään päästäkseen oikeisiin tuotoksiin. Toisin sanoen selitettävyyteen ja tulkittavuuteen liittyy ongelmia. Tulkittavuus on kyky ennustaa syötteen tai algoritmisen (viritettävien) parametrien muutoksen vaikutus. Selitettävyys on kyky ymmärtää, millä perusteella algoritmi tekee johtopäätöksensä. Olisi esimerkiksi rauhoittavaa pystyä selittämään kirurgille, millä perusteella tekoäly päätyi diagnoosiin korkea-asteisesta pahanlaatuisesta kasvaimesta tai miten se erottaa toisistaan kaksi morfologisesti samanlaista mutta biologisesti erilaista kasvainta. On mielenkiintoista, että jos referenssitason, korkeasti koulutetulta patologilta kysytään, miten hän päätyi diagnoosiin, hän viittaa usein ”vuosien kokemukseen”, joka johti diagnoosiin. Kun heiltä kysytään tarkempia kriteerejä, he saattavat keksiä niitä, mutta se tapahtuu usein ad hoc -periaatteella perustellakseen intuitiivisesti jo tehtyä päätöstä. Tästä syystä neuroverkkojen musta laatikko -luonne, vaikka se huolestuttaakin joitakin, ei häiritse muita tekoälytieteilijöitä.
On olemassa keinoja, joiden avulla voimme saada jonkinlaisen käsityksen siitä, mitä kulissien takana tapahtuu, jotta voimme nostaa verhoa nähdaksemme velhon työssään. Esimerkiksi saliaatiokartat luovat visualisoinnin kuvan pikseleistä, jotka vaikuttavat eniten mallin tekemiin ennusteisiin. Laskemalla ennustetun luokan muutoksen soveltamalla pieniä muutoksia pikselien arvoihin voimme mitata kunkin pikselin suhteellista merkitystä lopulliseen tulostusarvoon. Tätä käsitellään artikkelissa Ref. . Muissa lähestymistavoissa yritetään määrittää piilevien kerrosten neuronien aktiivisuus backpropagationin edetessä ja lisäksi saada visuaalisia esityksiä piilevien kerrosten yhä monimutkaisemmiksi muuttuvista ulostuloista kartoittamalla niiden ominaisuuksia, kuten intensiteettiä, orientaatioita, värejä ja muotoja.
Nämä lähestymistavat voivat antaa jonkinlaista tietoa siitä, miten neuroverkko erottelee luokkia toisistaan, mutta eivät silti ”selitä” sitä, mitä tapahtuu inhimillisellä tasolla. Kun tekoäly tekee odottamattoman ja hätkähdyttävän shakkisiirron, jolla ei ole ilmeistä strategista merkitystä inhimilliselle tarkkailijalle, ja tämä siirto aloittaa voittavan sarjan, nämä sisäiset toimenpiteet eivät anna mitään vihjeitä siitä, miten ohjelma loi siirron, joka jälkikäteen osoittautui ”nerokkaaksi”. Näin ollen ne eivät luo todellista oppimiskokemusta ihmishavainnoitsijalle. Toisaalta näin käy toisinaan, kun ihmishavainnoitsijat katsovat ihmisen suurmestarin peliä. Tieto koneoppimisalgoritmin sisäisestä päätöksentekoprosessista voi kuitenkin auttaa kehittämään parempia algoritmeja, joten on syytä vaatia tekoälyn selitettävyyttä ja hyväksyä samalla ajoittainen kyvyttömyytemme ymmärtää ihmisen nerokkuutta.
Kaikista näistä varoituksista huolimatta tutkimukset, joissa käytetään erilaisia ”matalan oppimisen” tekoälystrategioita samassa aineistossa, saavat usein samanlaisia tuloksia. Syväoppimisen tulo johti siihen, että koneoppiminen parani huomattavasti useimpiin, ellei kaikkiin vaihtoehtoisiin lähestymistapoihin verrattuna. Kun käsitellään monimutkaisia, moniulotteisia ominaisuusjoukkoja, neuroverkot päihittävät huomattavasti muunlaisen koneoppimisen. Jopa tällöinkin, kun verrataan samoja tietokokonaisuuksia käsitteleviä julkaisuja, joissa käytetään erilaisia verkkomalleja, kunkin julkaisun väittämät parannukset ovat yleensä vain asteittaisia. Vaikka jotkin ovat parempia kuin toiset, ne kaikki näyttävät lähentyvän tuloksiin, joiden tarkkuus on yli 90-95 prosenttia (ja vastaavat tulokset muiden arviointimittareiden osalta). Tämä saattaa kuitenkin johtua pelkästään siitä, että kussakin mallissa on kiinnitetty huolellista huomiota valitun ohjelman optimointiin. Myös laskentatehossa on eroja, jotka on otettava huomioon. Viimeksi mainitusta syystä suorituskyvyn nopeutta ei pitäisi koskaan käyttää vertailtaessa yhtä algoritmia toiseen, elleivät ne toimi täsmälleen samalla alustalla. Toinen syy on se, että usein harjoitusjoukot ovat yksinkertaistettuja ja huolellisesti kuratoituja versioita luonnosta löytyvistä tiedoista. Näin ollen on mahdollista, että vähemmän jäsennellyissä tilanteissa voidaan havaita suurempia eroja. Lisäksi tietyllä algoritmilla yhdessä ympäristössä saadut tulokset eivät aina vastaa saman algoritmin tuloksia toisessa ympäristössä. Toisin sanoen aiempi suorituskyky ei ole tae tulevista tuloksista.
Tällaisten näkökohtien vuoksi on käytetty erilaisia ensemble-menetelmiä sekä hybridimalleja, joissa yhdistetään kahta tai useampaa eri algoritmia peräkkäin tai rinnakkain. Edellä on esitetty esimerkkejä sekä multilabel-tunnistuksesta että heikosta valvonnasta.