Considerații generale
În acest capitol, exemplele alese pentru ilustrare au folosit o varietate de strategii de învățare automată, iar în unele cazuri au fost utilizate și rețele hibride. O chestiune practică importantă implică alegerea unui algoritm pentru a rezolva o anumită problemă. Din păcate, nu există un răspuns corect. În acest context, este important să reflectăm asupra așa-numitei teoreme „no free lunch” a lui Wolpert și Macready , care afirmă că „pentru orice algoritm, orice performanță ridicată pe o clasă de probleme este compensată de performanța pe o altă clasă.”
Simplu spus, nu există un model care să funcționeze cel mai bine pentru fiecare problemă. Cu toate acestea, fiecare metodă poate fi cel mai bine aliniată la o anumită clasă de probleme. Acest lucru înseamnă că nu este posibil să se generalizeze faptul că cel mai performant algoritm dintr-un anumit studiu este cea mai bună strategie pentru alte sarcini de învățare automată. Astfel, este important să se aleagă modelul adecvat pentru o anumită problemă. Din păcate, nu există o bază teoretică pe care să se facă această alegere. Acest lucru trebuie făcut în mod empiric prin încercări și erori. Studiul de evaluare a algoritmilor a oferit un bun exemplu specific al acestui principiu general.
Indiferent de alegere, fiecare model are parametri reglabili sau hiperparametri. De exemplu, în cazul rețelelor neuronale, parametrii reglabili includ numărul de noduri din fiecare strat și numărul de straturi. Backpropagation implică alegerea impulsului și a ratei de învățare. În cazul unui CNN, trebuie luate decizii cu privire la dimensiunea matricei de convoluție. Greutățile inițiale trebuie să fie randomizate, dar acolo cele mai multe numere aleatoare sunt generate de calculator pornind de la un număr „sămânță”. Această sămânță este, de asemenea, un parametru. Această listă nu este în niciun caz exhaustivă. În cazul pădurilor aleatoare, numărul de arbori, numărul de ramuri, adâncimea arborelui și așa mai departe sunt parametri care trebuie aleși. Pentru k-means, trebuie să se aleagă numărul de clustere, precum și cele k semințe de numere aleatoare care încep procesul iterativ de definire a clusterelor. Parametrii reglabili sunt o realitate a vieții pentru inteligența artificială.
Celălalt considerent în selectarea unui model este prejudecata implicită a modelului respectiv. Aceasta nu se referă la prejudecăți externe, cum ar fi cele care rezultă din alegerile elementelor din setul de instruire sau dintr-o evaluare bazată pe valoare a etichetelor caracteristicilor sau claselor, ci mai degrabă la ipotezele încorporate în fiecare model. De exemplu, K-means presupune clustere aproximativ sferice, de dimensiuni similare între ele (deși există modele mai bune care nu au aceste constrângeri). Naïve Bayes presupune că atributele care descriu vectorul de caracteristici sunt independente unele de altele. Ipotezele privind distribuția datelor se află la baza aproape tuturor algoritmilor de învățare automată. Este important să se înțeleagă natura setului de date suficient de detaliat pentru a permite alegerea algoritmului ale cărui constrângeri sunt cel mai puțin critice pentru acel set de date. Din nefericire, utilizarea termenului „părtinire” tinde să antropomorfizeze programul de inteligență artificială și întunecă problemele implicate.
Dezvăluirea părtinirilor implicite într-o rețea de învățare profundă este îngreunată de faptul că nu avem o înțelegere reală a modului în care acea rețea își procesează intrările pentru a ajunge la ieșirile corecte. Cu alte cuvinte, există probleme de explicabilitate și de interpretabilitate. Interpretabilitatea este capacitatea de a prezice efectul unei modificări a intrărilor sau a parametrilor algoritmici (reglabili). Explicabilitatea este capacitatea de a înțelege baza pe care algoritmul își trage concluzia. De exemplu, ar putea fi liniștitor să se poată explica unui chirurg pe ce bază AI a ajuns la un diagnostic de malignitate de grad înalt sau cum a făcut diferența între două tumori similare din punct de vedere morfologic, dar diferite din punct de vedere biologic. Este interesant faptul că, dacă cineva întreabă un patolog de nivel de referință, cu pregătire înaltă, cum a ajuns la un diagnostic, acesta se va referi adesea la „anii de experiență” care au condus la diagnostic. Atunci când sunt presați pentru criterii mai specifice, aceștia pot să le inventeze, dar este adesea pe o bază ad-hoc, pentru a justifica decizia deja luată intuitiv. Din acest motiv, natura de cutie neagră a rețelelor neuronale, deși neliniștitoare pentru unii, nu-i deranjează pe ceilalți din inteligența artificială.
Există modalități de a obține o anumită perspectivă asupra a ceea ce se întâmplă în spatele scenei, astfel încât să putem ridica cortina pentru a vedea vrăjitorul la lucru. De exemplu, hărțile de saliență creează o vizualizare a pixelilor dintr-o imagine care contribuie cel mai mult la predicțiile făcute de model. Prin calcularea modificării clasei prezise prin aplicarea unor mici ajustări la valorile pixelilor, putem măsura importanța relativă a fiecărui pixel pentru valoarea finală de ieșire. Acest lucru este discutat în Ref. Alte abordări implică încercarea de a determina activitatea neuronilor din straturile ascunse pe măsură ce retropropagarea avansează și, în plus, de a obține reprezentări vizuale ale ieșirilor din ce în ce mai complexe ale straturilor ascunse prin cartografierea caracteristicilor acestora, cum ar fi intensitatea, orientările, culoarea și formele.
Aceste abordări pot oferi o anumită perspectivă asupra modului în care rețeaua neuronală discriminează între clase, dar tot nu „explică” ceea ce se întâmplă în termeni umani. Atunci când o inteligență artificială face o mutare de șah neașteptată și surprinzătoare, care nu are o importanță strategică evidentă pentru un observator uman, iar această mutare inițiază o secvență câștigătoare, aceste măsuri interne nu oferă niciun indiciu cu privire la modul în care programul a creat mutarea care, în retrospectivă, s-a dovedit a fi „genială”. Astfel, ele nu creează o adevărată experiență de învățare pentru observatorul uman. Pe de altă parte, acest lucru se întâmplă ocazional atunci când observatorii umani urmăresc un Mare Maestru uman la joc. Cu toate acestea, cunoștințele despre procesul decizional intern al unui algoritm de învățare automată pot informa dezvoltarea unor algoritmi mai buni, așa că este ceva de spus în ceea ce privește insistența asupra explicabilității AI, acceptând în același timp incapacitatea noastră ocazională de a înțelege geniul uman.
În ciuda tuturor acestor avertismente, studiile care utilizează diferite strategii AI de învățare „superficială” pe același set de date obțin adesea rezultate similare. Sosirea învățării profunde a dus la o mare îmbunătățire a învățării automate față de majoritatea, dacă nu chiar toate, abordările alternative. Atunci când au de-a face cu seturi de caracteristici complexe și multidimensionale, rețelele neuronale depășesc substanțial alte tipuri de învățare automată. Chiar și în acest caz, atunci când se compară lucrări care tratează același set de date, dar care utilizează variații ale modelelor de rețea, îmbunătățirile invocate de fiecare tind să fie incrementale. În timp ce unele sunt mai bune decât altele, toate par să converge în jurul unor rezultate care ating o acuratețe mai mare de 90%-95% (cu rezultate similare pentru ceilalți parametri de evaluare). Totuși, acest lucru se poate datora pur și simplu faptului că s-a acordat o atenție deosebită optimizării programului ales în fiecare dintre ele. Există, de asemenea, diferențe în ceea ce privește puterea de calcul care trebuie luate în considerare. Din acest ultim motiv, viteza de performanță nu ar trebui folosită niciodată pentru a compara un algoritm cu altul, cu excepția cazului în care aceștia rulează exact pe aceeași platformă. Un alt motiv este faptul că, adesea, seturile de instruire sunt versiuni simplificate și atent îngrijite ale datelor care se găsesc în natură. Acest lucru ridică posibilitatea ca, în situații mai puțin structurate, să se observe diferențe mai mari. În cele din urmă, este posibil ca rezultatele obținute de un anumit algoritm într-un anumit cadru să nu corespundă întotdeauna rezultatelor obținute cu același algoritm într-un cadru diferit. Cu alte cuvinte, performanțele din trecut nu reprezintă o garanție a rezultatelor viitoare.
Din cauza unor astfel de considerente, au fost utilizate diverse metode de ansamblu, precum și modele hibride care implică combinarea a doi sau mai mulți algoritmi diferiți secvențial sau în paralel. Au fost prezentate mai sus exemple atât pentru detecția cu mai multe etichete, cât și pentru supravegherea slabă.
.