Considerazioni generali
In questo capitolo, gli esempi scelti per illustrare hanno fatto uso di una varietà di strategie di apprendimento automatico, e in alcuni casi sono state utilizzate anche reti ibride. Un’importante questione pratica riguarda la scelta di un algoritmo per risolvere un dato problema. Sfortunatamente, non esiste una risposta corretta. In questo contesto, è importante riflettere sul cosiddetto teorema “no free lunch” di Wolpert e Macready, che afferma “per qualsiasi algoritmo, qualsiasi prestazione elevata su una classe di problemi è compensata dalla prestazione su un’altra classe.”
In poche parole, non c’è un modello che funziona meglio per ogni problema. Tuttavia, ogni metodo può essere meglio allineato con una particolare classe di problemi. Ciò significa che non è possibile generalizzare che l’algoritmo più performante in un dato studio sia la migliore strategia per altri compiti di apprendimento automatico. Quindi, è importante scegliere il modello appropriato per un dato problema. Sfortunatamente, non c’è una base teorica su cui scegliere. Questo deve essere fatto empiricamente attraverso prove ed errori. Lo studio di valutazione dell’algoritmo ha fornito un buon esempio specifico di questo principio generale.
A prescindere dalla scelta, ogni modello ha parametri regolabili o iperparametri. Per esempio, nel caso delle reti neurali, i parametri sintonizzabili includono il numero di nodi in ogni strato e il numero di strati. La backpropagation implica scelte di slancio e tasso di apprendimento. Per una CNN, le decisioni devono essere prese sulla dimensione della matrice di convoluzione. I pesi iniziali devono essere randomizzati, ma lì la maggior parte dei numeri casuali sono generati dal computer a partire da un numero “seed”. Questo seme è anche un parametro. Questa lista non è affatto esaustiva. Per le foreste casuali, il numero di alberi, il numero di rami, la profondità dell’albero, e così via sono parametri che devono essere scelti. Per k-means, si deve scegliere il numero di cluster, così come i k semi di numeri casuali che iniziano il processo iterativo di definizione dei cluster. I parametri sintonizzabili sono un fatto della vita per l’intellighenzia artificiale.
L’altra considerazione nella selezione di un modello è il bias implicito di quel modello. Questo non si riferisce a distorsioni esterne come quelle che derivano dalle scelte degli elementi del set di addestramento, o da una valutazione basata sul valore delle caratteristiche o delle etichette di classe, ma piuttosto alle assunzioni incorporate in ogni modello. Per esempio, K-means presuppone cluster approssimativamente sferici e di dimensioni simili tra loro (anche se ci sono modelli migliori che non hanno questi vincoli). Naïve Bayes assume che gli attributi che descrivono il vettore di caratteristiche siano indipendenti l’uno dall’altro. Le assunzioni sulle distribuzioni dei dati sono alla base di quasi tutti gli algoritmi di apprendimento automatico. È importante capire la natura del set di dati in modo sufficientemente dettagliato per permettere di scegliere l’algoritmo i cui vincoli sono meno critici per quel set di dati. Sfortunatamente, l’uso del termine “bias” tende ad antropomorfizzare il programma AI e oscura i problemi coinvolti.
Il rilevamento di bias impliciti in una rete di apprendimento profondo è reso difficile in quanto non abbiamo una vera comprensione di come quella rete sta elaborando i suoi input per arrivare agli output corretti. In altre parole, ci sono problemi di spiegabilità e interpretabilità. L’interpretabilità è la capacità di prevedere l’effetto di un cambiamento di input o di parametri algoritmici (accordabili). La spiegabilità è la capacità di comprendere la base su cui l’algoritmo sta traendo le sue conclusioni. Per esempio, potrebbe essere rassicurante essere in grado di spiegare a un chirurgo la base sulla quale l’IA è arrivata alla diagnosi di un tumore maligno di alto grado, o come ha differenziato tra due tumori morfologicamente simili ma biologicamente diversi. È interessante che se si interroga un patologo di livello di riferimento, ad alta formazione, su come è arrivato a una diagnosi, spesso si riferirà agli “anni di esperienza” che hanno portato alla diagnosi. Quando gli si chiedono criteri più specifici, possono inventarli, ma è spesso su una base ad hoc, per giustificare la decisione già presa intuitivamente. Per questo motivo, la natura di scatola nera delle reti neurali, anche se inquietante per alcuni, non disturba gli altri dell’intellighenzia artificiale.
Ci sono modi per ottenere una certa comprensione di ciò che accade dietro le quinte in modo da poter sollevare il sipario per vedere il mago al lavoro. Per esempio, le mappe di salienza creano una visualizzazione dei pixel di un’immagine che contribuiscono maggiormente alle previsioni del modello. Calcolando il cambiamento nella classe prevista applicando piccoli aggiustamenti ai valori dei pixel, possiamo misurare l’importanza relativa di ogni pixel per il valore finale dell’output. Questo è discusso in Rif. Altri approcci coinvolgono il tentativo di determinare l’attività dei neuroni negli strati nascosti mentre la retropropagazione procede, e inoltre di ottenere rappresentazioni visive degli output sempre più complessi degli strati nascosti mappando le caratteristiche di questi come intensità, orientamenti, colore e forme.
Questi approcci possono fornire alcune informazioni su come la rete neurale sta discriminando tra le classi, ma ancora non “spiegano” cosa sta succedendo in termini umani. Quando una IA fa una mossa di scacchi inaspettata e sorprendente che non ha un’ovvia importanza strategica per un osservatore umano, e quella mossa inizia una sequenza vincente, queste misure interne non forniscono alcun indizio su come il programma abbia creato la mossa che, a posteriori, si è rivelata “brillante”. Quindi, non creano una vera esperienza di apprendimento per l’osservatore umano. D’altra parte, questo accade occasionalmente quando gli osservatori umani guardano un Gran Maestro umano al gioco. Tuttavia, la conoscenza del processo decisionale interno di un algoritmo di apprendimento automatico può informare lo sviluppo di algoritmi migliori, quindi c’è qualcosa da dire sull’insistere sulla spiegabilità dell’IA pur accettando la nostra occasionale incapacità di comprendere il genio umano.
Nonostante tutti questi avvertimenti, gli studi che utilizzano diverse strategie di IA di apprendimento “superficiale” sullo stesso set di dati spesso ottengono risultati simili. L’arrivo del deep learning ha portato a un grande miglioramento dell’apprendimento automatico rispetto alla maggior parte, se non a tutti, gli approcci alternativi. Quando si tratta di insiemi di caratteristiche complesse e multidimensionali, le reti neurali superano sostanzialmente gli altri tipi di apprendimento automatico. Anche qui, quando si confrontano articoli che trattano lo stesso set di dati ma che usano variazioni di modelli di rete, i miglioramenti dichiarati da ciascuno tendono ad essere incrementali. Mentre alcuni sono migliori di altri, tutti sembrano convergere verso risultati che raggiungono una precisione superiore al 90%-95% (con risultati simili per le altre metriche di valutazione). Questo, tuttavia, può essere semplicemente dovuto al fatto che è stata fatta un’attenta attenzione per ottimizzare il programma di scelta in ognuno. Ci sono anche differenze nella potenza di calcolo che devono essere considerate. Per quest’ultima ragione, la velocità delle prestazioni non dovrebbe mai essere usata per confrontare un algoritmo con un altro, a meno che non siano in esecuzione esattamente sulla stessa piattaforma. Un’altra ragione è che spesso i set di allenamento sono versioni semplificate e accuratamente curate di dati che si trovano in natura. Questo solleva la possibilità che in situazioni meno strutturate si possano osservare differenze maggiori. Infine, i risultati ottenuti da un dato algoritmo in un contesto possono non corrispondere sempre ai risultati ottenuti utilizzando lo stesso algoritmo in un contesto diverso. In altre parole, le prestazioni passate non sono garanzia di risultati futuri.
A causa di considerazioni come queste, sono stati utilizzati vari metodi di ensemble, così come modelli ibridi che combinano due o più algoritmi diversi in sequenza o in parallelo. Esempi sono stati presentati sopra sia per il rilevamento multilabel che per la supervisione debole.