Generella överväganden
I det här kapitlet har de exempel som valts ut för att illustrera detta använt sig av en mängd olika strategier för maskininlärning, och i vissa fall har även hybridnätverk använts. En viktig praktisk fråga gäller valet av en algoritm för att lösa ett givet problem. Tyvärr finns det inget korrekt svar. I detta sammanhang är det viktigt att reflektera över Wolpert och Macreads s.k. ”no free lunch”-teorem , som säger att ”för varje algoritm uppvägs varje förhöjd prestanda för en klass av problem av prestanda för en annan klass.”
Simpelt uttryckt finns det ingen modell som fungerar bäst för varje problem. Varje metod kan dock vara bäst anpassad till en viss klass av problem. Detta innebär att det inte går att generalisera att den bäst presterande algoritmen i en viss studie är den bästa strategin för andra maskininlärningsuppgifter. Därför är det viktigt att välja lämplig modell för ett visst problem. Tyvärr finns det ingen teoretisk grund att välja på. Detta måste göras empiriskt genom försök och misstag. Studien av algoritmbedömningen gav ett bra specifikt exempel på denna allmänna princip.
Oavsett valet har varje modell inställbara parametrar eller hyperparametrar. När det gäller neurala nätverk är de inställbara parametrarna till exempel antalet noder i varje lager och antalet lager. Backpropagation innebär val av momentum och inlärningshastighet. För ett CNN måste beslut fattas om storleken på konvolutionsmatrisen. Initiala vikter måste slumpas, men där genereras de flesta slumpmässiga tal av datorn som börjar med ett ”seed”-tal. Detta frö är också en parameter. Denna förteckning är på intet sätt uttömmande. För slumpmässiga skogar är antalet träd, antalet grenar, träddjupet och så vidare parametrar som måste väljas. För k-means måste man välja antalet kluster samt de k slumptalsfrön som startar den iterativa processen för att definiera kluster. Justerbara parametrar är ett faktum för den artificiella intelligentian.
Det andra övervägandet när man väljer en modell är modellens implicita bias. Detta avser inte externa fördomar, t.ex. sådana som uppstår genom val av element i träningsuppsättningen, eller en värdebaserad bedömning av funktions- eller klassbeteckningar, utan snarare de antaganden som är inbakade i varje modell. K-means utgår till exempel från grovt sfäriska kluster som är lika stora som varandra (även om det finns bättre modeller som inte har dessa begränsningar). Naïve Bayes antar att de attribut som beskriver funktionsvektorn är oberoende av varandra. Antaganden om datafördelningar ligger till grund för nästan alla algoritmer för maskininlärning. Det är viktigt att förstå datasetets karaktär tillräckligt detaljerat för att kunna välja den algoritm vars begränsningar är minst kritiska för det datasetet. Tyvärr tenderar användningen av termen ”bias” att antropomorfisera AI-programmet och skymmer de berörda frågorna.
Detektering av implicit bias i ett djupinlärningsnätverk försvåras av att vi inte har någon riktig förståelse för hur nätverket bearbetar sina indata för att komma fram till korrekta utdata. Med andra ord finns det problem med förklarbarhet och tolkningsbarhet. Tolkningsbarhet är förmågan att förutsäga effekten av en förändring av inmatning eller algoritmiska (inställbara) parametrar. Förklarbarhet är förmågan att förstå den grund på vilken algoritmen drar sina slutsatser. Det kan t.ex. vara betryggande att kunna förklara för en kirurg på vilken grund den intelligenta intelligensen ställde diagnosen höggradig malignitet, eller hur den skiljer mellan två morfologiskt likartade men biologiskt olika tumörer. Det är intressant att om man frågar en högutbildad patolog på referensnivå hur han eller hon kom fram till en diagnos, hänvisar han eller hon ofta till de ”år av erfarenhet” som ledde fram till diagnosen. När de pressas att ange mer specifika kriterier kan de hitta på dem, men det är ofta på ad hoc-basis, för att rättfärdiga ett beslut som redan fattats intuitivt. Av denna anledning störs andra inom den artificiella intelligentian inte av den svarta lådan i neurala nätverk, även om den oroar vissa.
Det finns sätt att få en viss inblick i vad som händer bakom kulisserna, så att vi kan dra upp ridån för att se trollkarlen i arbete. Till exempel skapar saliency maps en visualisering av de pixlar i en bild som bidrar mest till modellens förutsägelser. Genom att beräkna förändringen i den förutspådda klassen genom att tillämpa små justeringar av pixelvärdena kan vi mäta den relativa betydelsen av varje pixel för det slutliga utgångsvärdet. Detta diskuteras i Ref. Andra tillvägagångssätt innebär att man försöker fastställa aktiviteten hos neuronerna i de dolda lagren när backpropagationen fortskrider, och dessutom att få fram visuella representationer av de alltmer komplexa utgångarna från de dolda lagren genom att kartlägga egenskaper hos dessa, t.ex. intensitet, orientering, färg och form.
Dessa tillvägagångssätt kan ge en viss insikt i hur det neurala nätverket diskriminerar mellan klasser, men ”förklarar” fortfarande inte vad som händer i mänskliga termer. När en AI gör ett oväntat och uppseendeväckande schackdrag som inte har någon uppenbar strategisk betydelse för en mänsklig observatör, och det draget inleder en vinnande sekvens, ger dessa interna åtgärder ingen ledtråd till hur programmet skapade det drag som i efterhand visade sig vara ”briljant”. De skapar således inte någon verklig inlärningsupplevelse för den mänskliga observatören. Å andra sidan händer detta ibland när mänskliga observatörer ser en mänsklig stormästare spela. Icke desto mindre kan kunskap om den interna beslutsprocessen för en algoritm för maskininlärning ge information om utvecklingen av bättre algoritmer, så det finns något som talar för att insistera på AI:s förklarbarhet samtidigt som vi accepterar vår tillfälliga oförmåga att förstå mänsklig genialitet.
Trots alla dessa förbehåll får studier som använder olika AI-strategier för ”ytlig” inlärning på samma datamängd ofta liknande resultat. Ankomsten av djup inlärning ledde till en stor förbättring av maskininlärning jämfört med de flesta, om inte alla, alternativa tillvägagångssätt. När det gäller komplexa, flerdimensionella funktionsuppsättningar överträffar neurala nätverk andra typer av maskininlärning avsevärt. Även här, när artiklar som behandlar samma dataset men som använder olika nätverksmodeller jämförs, tenderar de förbättringar som varje artikel hävdar att vara inkrementella. Även om vissa är bättre än andra verkar alla konvergera kring resultat som uppnår en noggrannhet på mer än 90-95 % (med liknande resultat för de andra utvärderingsmåtten). Detta kan dock bara bero på att man har varit noga med att optimera det valda programmet i varje modell. Det finns också skillnader i beräkningskraft som måste beaktas. Av det senare skälet bör prestandahastigheten aldrig användas för att jämföra en algoritm med en annan om de inte körs på exakt samma plattform. Ett annat skäl är att träningsuppsättningarna ofta är förenklade och noggrant kurerade versioner av data som finns i naturen. Detta ger upphov till möjligheten att större skillnader kan observeras i mindre strukturerade situationer. Slutligen kan det hända att de resultat som uppnås med en viss algoritm i en viss miljö inte alltid motsvarar de resultat som uppnås med samma algoritm i en annan miljö. Med andra ord är tidigare resultat ingen garanti för framtida resultat.
På grund av sådana överväganden har olika ensemblemetoder använts, liksom hybridmodeller som innebär att två eller flera olika algoritmer kombineras sekventiellt eller parallellt. Exempel har presenterats ovan för både multilabel-detektion och svag övervakning.