Obecné úvahy
V této kapitole byly pro ilustraci vybrány příklady využívající různé strategie strojového učení a v některých případech byly použity i hybridní sítě. Důležitá praktická otázka se týká volby algoritmu pro řešení daného problému. Na tuto otázku bohužel neexistuje správná odpověď. V této souvislosti je důležité zamyslet se nad takzvaným „no free lunch“ teorémem Wolperta a Macreadyho , který říká, že „pro jakýkoli algoritmus je jakýkoli zvýšený výkon nad jednou třídou problémů kompenzován výkonem nad jinou třídou.“
Zjednodušeně řečeno, neexistuje jeden model, který by fungoval nejlépe pro každý problém. Každá metoda však může být nejlépe sladěna s určitou třídou problémů. To znamená, že nelze zobecnit, že nejvýkonnější algoritmus v dané studii je nejlepší strategií pro jiné úlohy strojového učení. Je tedy důležité zvolit vhodný model pro daný problém. Bohužel neexistuje žádný teoretický základ, na jehož základě by bylo možné model vybrat. To je třeba provést empiricky metodou pokusů a omylů. Studie posuzování algoritmů poskytla dobrý konkrétní příklad tohoto obecného principu.
Bez ohledu na volbu má každý model laditelné parametry neboli hyperparametry. Například v případě neuronových sítí mezi laditelné parametry patří počet uzlů v každé vrstvě a počet vrstev. Zpětné šíření zahrnuje volbu hybnosti a rychlosti učení. V případě CNN je třeba rozhodnout o velikosti konvoluční matice. Počáteční váhy musí být náhodné, ale tam je většina náhodných čísel generována počítačem počínaje „seed“ číslem. Toto semínko je také parametrem. Tento seznam není v žádném případě vyčerpávající. U náhodných lesů jsou parametry, které je třeba zvolit, počet stromů, počet větví, hloubka stromu atd. Pro k-means je třeba zvolit počet shluků a také k náhodných čísel semen, která spustí iterační proces definování shluků. Laditelné parametry jsou pro umělou inteligenci samozřejmostí.
Dalším hlediskem při výběru modelu je implicitní zkreslení tohoto modelu. Nejedná se o vnější zkreslení, jako jsou ta, která vyplývají z volby prvků trénovací množiny nebo z hodnotového hodnocení příznaků či značek tříd, ale spíše o předpoklady zapečetěné v každém modelu. Například K-means předpokládá zhruba kulovité shluky podobné velikosti (ačkoli existují lepší modely, které tato omezení nemají). Naïve Bayes předpokládá, že atributy popisující vektor příznaků jsou na sobě nezávislé. Předpoklady o rozdělení dat jsou základem téměř každého algoritmu strojového učení. Je důležité dostatečně podrobně porozumět povaze souboru dat, aby bylo možné zvolit algoritmus, jehož omezení jsou pro daný soubor dat nejméně kritická. Bohužel používání termínu „zkreslení“ má tendenci antropomorfizovat program umělé inteligence a zastírá související problémy.
Detekce implicitního zkreslení v síti hlubokého učení je ztížena tím, že nemáme skutečnou představu o tom, jak tato síť zpracovává své vstupy, aby dospěla ke správným výstupům. Jinými slovy, jsou zde problémy s vysvětlitelností a interpretovatelností. Interpretovatelnost je schopnost předpovědět účinek změny vstupních nebo algoritmických (laditelných) parametrů. Vysvětlitelnost je schopnost pochopit základ, na jehož základě algoritmus vyvozuje své závěry. Například by mohlo být uklidňující, kdyby bylo možné vysvětlit chirurgovi, na základě čeho umělá inteligence dospěla k diagnóze zhoubného nádoru vysokého stupně nebo jak rozlišila mezi dvěma morfologicky podobnými, ale biologicky odlišnými nádory. Je zajímavé, že pokud se člověk zeptá patologa s referenční úrovní a vysokým vzděláním, jak dospěl k diagnóze, často se odvolává na „dlouholeté zkušenosti“, které k diagnóze vedly. Když jsou dotázáni na konkrétnější kritéria, mohou si je vymyslet, ale často je to ad hoc, aby ospravedlnili již intuitivně učiněné rozhodnutí. Z tohoto důvodu povaha černé skříňky neuronových sítí, ačkoli někoho zneklidňuje, ostatním členům umělé inteligence nevadí.
Existují způsoby, jak získat určitý vhled do toho, co se děje v zákulisí, abychom mohli poodhrnout oponu a spatřit čaroděje při práci. Například mapy salience vytvářejí vizualizaci pixelů v obraze, které nejvíce přispívají k předpovědím modelu. Výpočtem změny předpovězené třídy při použití malých úprav hodnot pixelů můžeme změřit relativní důležitost každého pixelu pro konečnou výstupní hodnotu. Tento postup je popsán v Ref. Jiné přístupy zahrnují snahu určit aktivitu neuronů ve skrytých vrstvách v průběhu zpětného šíření a navíc získat vizuální reprezentaci stále složitějších výstupů skrytých vrstev mapováním jejich charakteristik, jako je intenzita, orientace, barva a tvary.
Tyto přístupy mohou poskytnout určitý náhled na to, jak neuronová síť rozlišuje mezi třídami, ale stále „nevysvětlují“, co se děje z lidského hlediska. Když umělá inteligence provede nečekaný a překvapivý šachový tah, který nemá pro lidského pozorovatele žádný zřejmý strategický význam, a tento tah zahájí vítěznou sekvenci, neposkytují tato interní opatření žádné vodítko k tomu, jak program vytvořil tah, který se při zpětném pohledu ukázal jako „geniální“. Nevytvářejí tedy pro lidského pozorovatele skutečný zážitek z učení. Na druhou stranu se to občas stává, když lidský pozorovatel sleduje lidského velmistra při hře. Nicméně poznatky o vnitřním rozhodovacím procesu algoritmu strojového učení mohou poskytnout informace pro vývoj lepších algoritmů, takže je něco, co je třeba říci k tomu, abychom trvali na vysvětlitelnosti AI a zároveň akceptovali naši občasnou neschopnost pochopit lidskou genialitu.
Přes všechny tyto výhrady studie využívající různé strategie „mělkého“ učení AI na stejném souboru dat často dosahují podobných výsledků. Příchod hlubokého učení vedl k velkému zlepšení strojového učení oproti většině, ne-li všem alternativním přístupům. Při práci se složitými, vícerozměrnými soubory příznaků neuronové sítě podstatně překonávají ostatní druhy strojového učení. Dokonce i zde, když se porovnávají práce zabývající se stejným souborem dat, ale používající různé varianty síťových modelů, bývají zlepšení deklarovaná každou z nich přírůstková. I když některé jsou lepší než jiné, zdá se, že všechny konvergují kolem výsledků, které dosahují přesnosti vyšší než 90-95 % (s podobnými výsledky u ostatních hodnotících ukazatelů). To však může být způsobeno pouze tím, že v každém z nich byla věnována pečlivá pozornost optimalizaci zvoleného programu. V úvahu je třeba vzít také rozdíly ve výpočetním výkonu. Z tohoto posledního důvodu by se rychlost výkonu nikdy neměla používat při porovnávání jednoho algoritmu s druhým, pokud neběží na úplně stejné platformě. Dalším důvodem je, že trénovací sady jsou často zjednodušené a pečlivě upravené verze dat, která se vyskytují ve volné přírodě. To zvyšuje možnost, že v méně strukturovaných situacích mohou být pozorovány větší rozdíly. A konečně, výsledky získané daným algoritmem v jednom prostředí nemusí vždy odpovídat výsledkům při použití stejného algoritmu v jiném prostředí. Jinými slovy, minulý výkon není zárukou budoucích výsledků.
Vzhledem k těmto úvahám se používají různé metody souborů a také hybridní modely zahrnující kombinaci dvou nebo více různých algoritmů postupně nebo paralelně. Výše byly uvedeny příklady jak pro detekci více značek, tak pro slabý dohled.
.