Rozważania ogólne
W tym rozdziale przykłady wybrane do zilustrowania wykorzystywały różne strategie uczenia maszynowego, a w niektórych przypadkach wykorzystano również sieci hybrydowe. Ważnym pytaniem praktycznym jest wybór algorytmu do rozwiązania danego problemu. Niestety, nie ma na nie poprawnej odpowiedzi. W tym kontekście ważne jest, aby zastanowić się nad tak zwanym twierdzeniem „nie ma darmowego lunchu” Wolperta i Macready’ego, które stwierdza „dla każdego algorytmu, każda podwyższona wydajność w jednej klasie problemów jest równoważona przez wydajność w innej klasie.”
Po prostu, nie ma jednego modelu, który działa najlepiej dla każdego problemu. Jednak każda metoda może być najlepiej dostosowana do konkretnej klasy problemów. Oznacza to, że nie można uogólnić, że najlepiej działający algorytm w danym badaniu jest najlepszą strategią dla innych zadań uczenia maszynowego. Ważne jest więc, aby wybrać odpowiedni model dla danego problemu. Niestety, nie ma podstaw teoretycznych, na których można dokonać wyboru. Trzeba to zrobić empirycznie, metodą prób i błędów. Badanie oceny algorytmów dostarczyło dobrego konkretnego przykładu tej ogólnej zasady.
Niezależnie od wyboru, każdy model ma przestrajalne parametry lub hiperparametry. Na przykład, w przypadku sieci neuronowych, przestrajalne parametry obejmują liczbę węzłów w każdej warstwie i liczbę warstw. Backpropagacja wymaga wyboru pędu i szybkości uczenia. W przypadku CNN należy podjąć decyzję o wielkości macierzy konwolucji. Początkowe wagi muszą być randomizowane, ale tam większość liczb losowych jest generowana przez komputer, zaczynając od liczby „seed”. To ziarno jest również parametrem. Ta lista nie jest w żaden sposób wyczerpująca. Dla lasów losowych, liczba drzew, liczba gałęzi, głębokość drzewa i tak dalej są parametrami, które muszą być wybrane. W przypadku k-średnich, należy wybrać liczbę klastrów, jak również k nasion liczb losowych, które rozpoczynają iteracyjny proces definiowania klastrów. Przestrajalne parametry są faktem dla sztucznej inteligencji.
Innym aspektem przy wyborze modelu jest ukryta stronniczość tego modelu. Nie odnosi się to do zewnętrznych uprzedzeń, takich jak te, które wynikają z wyboru elementów zbioru treningowego lub opartej na wartościach oceny cech lub etykiet klas, ale raczej do założeń wbudowanych w każdy model. Na przykład, K-means zakłada z grubsza sferyczne klastry podobne do siebie pod względem wielkości (choć istnieją lepsze modele, które nie mają tych ograniczeń). Naïve Bayes zakłada, że atrybuty opisujące wektor cech są niezależne od siebie. Założenia dotyczące rozkładów danych są podstawą niemal każdego algorytmu uczenia maszynowego. Ważne jest, aby zrozumieć naturę zbioru danych na tyle szczegółowo, aby umożliwić wybór algorytmu, którego ograniczenia są najmniej krytyczne dla tego zbioru danych. Niestety, użycie terminu „stronniczość” ma tendencję do antropomorfizowania programu AI i zaciemnia związane z tym kwestie.
Detekcja ukrytej stronniczości w sieci głębokiego uczenia jest utrudniona, ponieważ nie mamy prawdziwego zrozumienia, jak ta sieć przetwarza swoje dane wejściowe, aby dojść do prawidłowych danych wyjściowych. Innymi słowy, istnieją problemy z wytłumaczalnością i interpretowalnością. Interpretowalność to zdolność do przewidzenia efektu zmiany parametrów wejściowych lub algorytmicznych (przestrajalnych). Wyjaśnialność jest zdolnością do zrozumienia podstawy, na której algorytm wyciąga swoje wnioski. Na przykład, możliwość wyjaśnienia chirurgowi, na jakiej podstawie SI postawiła diagnozę o wysokim stopniu złośliwości, lub jak rozróżniła dwa morfologicznie podobne, ale biologicznie różne guzy, może być uspokajająca. Interesujące jest to, że jeśli ktoś zapyta patologa na poziomie referencyjnym, wysoko wyszkolonego, w jaki sposób postawił diagnozę, często powołuje się on na „lata doświadczeń”, które doprowadziły do postawienia diagnozy. Kiedy zostaniemy poproszeni o bardziej szczegółowe kryteria, możemy je wymyślić, ale często jest to doraźne, aby uzasadnić decyzję, która została już podjęta intuicyjnie. Z tego powodu, czarne skrzynki charakter sieci neuronowych, podczas gdy niepokojące dla niektórych nie przeszkadza innym sztucznej inteligencji.
Istnieją sposoby, aby uzyskać pewien wgląd w to, co dzieje się za kulisami, tak, że możemy podnieść kurtynę, aby zobaczyć czarodzieja w pracy. Na przykład, mapy saliency stworzyć wizualizację pikseli w obrazie, który przyczynia się najbardziej do przewidywań przez model. Obliczając zmianę w przewidywanej klasie przez zastosowanie małych korekt do wartości pikseli, możemy zmierzyć względną wagę każdego piksela do ostatecznej wartości wyjściowej. Jest to omówione w odnośniku . Inne podejścia polegają na próbie określenia aktywności neuronów w warstwach ukrytych w miarę postępu wstecznej propagacji, a dodatkowo na uzyskaniu wizualnych reprezentacji coraz bardziej złożonych wyników warstw ukrytych poprzez odwzorowanie ich cech, takich jak intensywność, orientacja, kolor i kształty.
Podejścia te mogą zapewnić pewien wgląd w to, w jaki sposób sieć neuronowa dokonuje dyskryminacji między klasami, ale nadal nie „wyjaśniają” tego, co się dzieje w kategoriach ludzkich. Kiedy SI wykonuje nieoczekiwany i zaskakujący ruch w szachach, który nie ma oczywistego znaczenia strategicznego dla ludzkiego obserwatora, a ten ruch inicjuje zwycięską sekwencję, te wewnętrzne środki nie dostarczają żadnych wskazówek, jak program stworzył ruch, który, z perspektywy czasu, okazał się „genialny”. Tak więc, nie tworzą one prawdziwego doświadczenia uczenia się dla ludzkiego obserwatora. Z drugiej strony, zdarza się to czasami, gdy ludzcy obserwatorzy przyglądają się ludzkiemu Wielkiemu Mistrzowi podczas gry. Niemniej jednak wiedza o wewnętrznym procesie decyzyjnym algorytmu uczenia maszynowego może przyczynić się do rozwoju lepszych algorytmów, więc jest coś, co można powiedzieć o naleganiu na wytłumaczalność AI przy jednoczesnej akceptacji naszej okazjonalnej niezdolności do zrozumienia ludzkiego geniuszu.
Pomimo wszystkich tych zastrzeżeń, badania wykorzystujące różne strategie „płytkiego” uczenia AI na tym samym zbiorze danych często uzyskują podobne wyniki. Pojawienie się głębokiego uczenia się doprowadziło do ogromnej poprawy uczenia maszynowego w stosunku do większości, jeśli nie wszystkich, alternatywnych podejść. Kiedy mamy do czynienia ze złożonymi, wielowymiarowymi zestawami cech, sieci neuronowe znacząco przewyższają inne rodzaje uczenia maszynowego. Nawet w tym przypadku, gdy porównuje się prace dotyczące tego samego zbioru danych, ale wykorzystujące różne warianty modeli sieciowych, poprawa deklarowana przez każdą z nich ma charakter przyrostowy. Podczas gdy niektóre z nich są lepsze od innych, wszystkie wydają się zbieżne wokół wyników, które osiągają ponad 90%-95% dokładności (z podobnymi wynikami dla innych metryk oceny). Może to jednak wynikać jedynie z faktu, że w każdym z nich zwrócono szczególną uwagę na optymalizację wybranego programu. Istnieją również różnice w mocy obliczeniowej, które należy wziąć pod uwagę. Z tego ostatniego powodu, szybkość działania nigdy nie powinna być używana do porównywania jednego algorytmu z drugim, chyba że działają one na dokładnie tej samej platformie. Innym powodem jest to, że często zbiory treningowe są uproszczonymi i starannie opracowanymi wersjami danych, które można znaleźć w naturze. Rodzi to możliwość, że w mniej ustrukturyzowanych sytuacjach można zaobserwować większe różnice. Wreszcie, wyniki uzyskane przez dany algorytm w jednym otoczeniu nie zawsze muszą odpowiadać wynikom uzyskanym przy użyciu tego samego algorytmu w innym otoczeniu. Innymi słowy, wyniki uzyskane w przeszłości nie są gwarancją przyszłych rezultatów.
Ze względu na takie rozważania zastosowano różne metody zespołowe, a także modele hybrydowe polegające na łączeniu dwóch lub więcej różnych algorytmów sekwencyjnie lub równolegle. Przykłady zostały przedstawione powyżej zarówno dla detekcji wieloznakowej, jak i słabego nadzoru.
.