Allgemeine Überlegungen

In diesem Kapitel wurden zur Veranschaulichung Beispiele gewählt, bei denen verschiedene Strategien des maschinellen Lernens zum Einsatz kommen, und in einigen Fällen wurden auch hybride Netzwerke verwendet. Eine wichtige praktische Frage ist die Wahl eines Algorithmus zur Lösung eines bestimmten Problems. Leider gibt es keine richtige Antwort. In diesem Zusammenhang ist es wichtig, über das so genannte „no free lunch“-Theorem von Wolpert und Macready nachzudenken, das besagt, dass für jeden Algorithmus jede höhere Leistung bei einer Klasse von Problemen durch die Leistung bei einer anderen Klasse ausgeglichen wird.“

Einfach ausgedrückt gibt es kein Modell, das für jedes Problem am besten geeignet ist. Allerdings kann jede Methode am besten auf eine bestimmte Klasse von Problemen abgestimmt sein. Das bedeutet, dass es nicht möglich ist, zu verallgemeinern, dass der beste Algorithmus in einer bestimmten Studie auch die beste Strategie für andere Aufgaben des maschinellen Lernens ist. Daher ist es wichtig, das geeignete Modell für ein bestimmtes Problem zu wählen. Leider gibt es keine theoretische Grundlage, auf der man diese Wahl treffen kann. Dies muss empirisch durch Versuch und Irrtum geschehen. Die Studie zur Bewertung von Algorithmen ist ein gutes Beispiel für dieses allgemeine Prinzip.

Ungeachtet der Wahl hat jedes Modell abstimmbare Parameter oder Hyperparameter. Bei neuronalen Netzen beispielsweise gehören zu den einstellbaren Parametern die Anzahl der Knoten in jeder Schicht und die Anzahl der Schichten. Bei der Backpropagation werden der Impuls und die Lernrate gewählt. Bei einem CNN müssen Entscheidungen über die Größe der Faltungsmatrix getroffen werden. Die anfänglichen Gewichte müssen nach dem Zufallsprinzip bestimmt werden, aber die meisten Zufallszahlen werden von einem Computer generiert, der mit einer „Seed“-Zahl beginnt. Dieser Seed ist ebenfalls ein Parameter. Diese Liste ist keineswegs erschöpfend. Bei Random Forests sind die Anzahl der Bäume, die Anzahl der Zweige, die Baumtiefe usw. Parameter, die gewählt werden müssen. Bei k-means müssen die Anzahl der Cluster sowie die k Zufallszahlen gewählt werden, mit denen der iterative Prozess der Clusterbildung beginnt. Abstimmbare Parameter sind eine Tatsache für die künstliche Intelligenz.

Die andere Überlegung bei der Auswahl eines Modells ist die implizite Voreingenommenheit des Modells. Dies bezieht sich nicht auf externe Verzerrungen, wie z. B. solche, die sich aus der Auswahl der Elemente des Trainingssatzes oder einer wertbasierten Bewertung der Merkmals- oder Klassenetiketten ergeben, sondern vielmehr auf die Annahmen, die in jedem Modell enthalten sind. K-means geht beispielsweise von grob kugelförmigen Clustern aus, die sich in ihrer Größe ähneln (obwohl es bessere Modelle gibt, die diese Beschränkungen nicht haben). Naïve Bayes geht davon aus, dass die Attribute, die den Merkmalsvektor beschreiben, unabhängig voneinander sind. Annahmen über Datenverteilungen sind das Herzstück fast jedes Algorithmus für maschinelles Lernen. Es ist wichtig, die Beschaffenheit des Datensatzes so genau zu verstehen, dass der Algorithmus gewählt werden kann, dessen Beschränkungen für diesen Datensatz am wenigsten kritisch sind. Leider neigt die Verwendung des Begriffs „Verzerrung“ dazu, das KI-Programm zu vermenschlichen und die damit verbundenen Probleme zu verschleiern.

Die Erkennung von impliziten Verzerrungen in einem Deep-Learning-Netzwerk wird dadurch erschwert, dass wir nicht wirklich verstehen, wie das Netzwerk seine Eingaben verarbeitet, um zu den richtigen Ausgaben zu gelangen. Mit anderen Worten: Es gibt Probleme mit der Erklärbarkeit und der Interpretierbarkeit. Interpretierbarkeit ist die Fähigkeit, die Auswirkung einer Änderung der Eingaben oder der (einstellbaren) algorithmischen Parameter vorherzusagen. Erklärbarkeit ist die Fähigkeit, die Grundlage zu verstehen, auf der der Algorithmus seine Schlussfolgerungen zieht. So könnte es beispielsweise beruhigend sein, einem Chirurgen erklären zu können, auf welcher Grundlage die KI die Diagnose eines hochgradig bösartigen Tumors gestellt hat, oder wie sie zwischen zwei morphologisch ähnlichen, aber biologisch unterschiedlichen Tumoren unterschieden hat. Interessant ist, dass ein hochqualifizierter Pathologe, wenn man ihn fragt, wie er zu einer Diagnose gekommen ist, oft auf die „jahrelange Erfahrung“ verweist, die zu dieser Diagnose geführt hat. Wenn sie nach spezifischeren Kriterien gefragt werden, können sie diese zwar erfinden, aber oft auf einer Ad-hoc-Basis, um die bereits intuitiv getroffene Entscheidung zu rechtfertigen. Aus diesem Grund stört die Blackbox-Natur der neuronalen Netze zwar einige, aber andere Vertreter der künstlichen Intelligenz nicht.

Es gibt Möglichkeiten, einen Einblick in die Vorgänge hinter den Kulissen zu gewinnen, so dass wir den Vorhang lüften können, um den Zauberer bei der Arbeit zu sehen. Mit Hilfe von Auffälligkeitskarten wird beispielsweise eine Visualisierung der Pixel in einem Bild erstellt, die am meisten zu den Vorhersagen des Modells beitragen. Durch die Berechnung der Veränderung der vorhergesagten Klasse durch kleine Anpassungen der Pixelwerte können wir die relative Bedeutung jedes Pixels für den endgültigen Ausgabewert messen. Dies wird in Ref. erörtert. Bei anderen Ansätzen wird versucht, die Aktivität der Neuronen in den verborgenen Schichten zu bestimmen, während die Backpropagation abläuft, und zusätzlich visuelle Darstellungen der immer komplexer werdenden Ausgaben der verborgenen Schichten zu erhalten, indem deren Merkmale wie Intensität, Ausrichtung, Farbe und Formen abgebildet werden.

Diese Ansätze können einen gewissen Einblick in die Art und Weise geben, wie das neuronale Netz zwischen den Klassen unterscheidet, aber sie „erklären“ immer noch nicht, was in menschlicher Hinsicht vor sich geht. Wenn eine KI einen unerwarteten und verblüffenden Schachzug macht, der für einen menschlichen Beobachter keine offensichtliche strategische Bedeutung hat, und dieser Zug eine Gewinnsequenz einleitet, geben diese internen Maßnahmen keinen Hinweis darauf, wie das Programm den Zug, der sich im Nachhinein als „brillant“ herausstellt, erzeugt hat. Sie schaffen also keine echte Lernerfahrung für den menschlichen Beobachter. Andererseits geschieht dies gelegentlich, wenn menschliche Beobachter einen menschlichen Großmeister beim Spielen beobachten. Nichtsdestotrotz kann das Wissen über den internen Entscheidungsfindungsprozess eines maschinellen Lernalgorithmus zur Entwicklung besserer Algorithmen beitragen. Es spricht also einiges dafür, auf der Erklärbarkeit von KI zu bestehen und gleichzeitig zu akzeptieren, dass wir gelegentlich nicht in der Lage sind, das menschliche Genie zu verstehen.

Trotz all dieser Vorbehalte kommen Studien, die verschiedene KI-Strategien für „seichtes“ Lernen auf denselben Datensätzen verwenden, oft zu ähnlichen Ergebnissen. Das Aufkommen des Deep Learning führte zu einer großen Verbesserung des maschinellen Lernens gegenüber den meisten, wenn nicht allen alternativen Ansätzen. Beim Umgang mit komplexen, mehrdimensionalen Merkmalen sind neuronale Netze anderen Arten des maschinellen Lernens deutlich überlegen. Selbst in diesem Fall, wenn Arbeiten verglichen werden, die sich mit demselben Datensatz befassen, aber verschiedene Netzwerkmodelle verwenden, sind die von allen behaupteten Verbesserungen eher inkrementell. Während einige besser sind als andere, scheinen sie alle bei Ergebnissen zu konvergieren, die mehr als 90-95 % Genauigkeit erreichen (mit ähnlichen Ergebnissen für die anderen Bewertungsmaßstäbe). Dies kann jedoch nur daran liegen, dass bei allen Programmen sorgfältig darauf geachtet wurde, das Programm der Wahl zu optimieren. Es gibt auch Unterschiede in der Rechenleistung, die berücksichtigt werden müssen. Aus dem letztgenannten Grund sollte die Leistungsgeschwindigkeit niemals zum Vergleich eines Algorithmus mit einem anderen herangezogen werden, es sei denn, sie laufen auf genau derselben Plattform. Ein weiterer Grund ist, dass es sich bei den Trainingssätzen häufig um vereinfachte und sorgfältig kuratierte Versionen von Daten handelt, die in der freien Natur vorkommen. Dadurch besteht die Möglichkeit, dass in weniger strukturierten Situationen größere Unterschiede beobachtet werden können. Schließlich entsprechen die Ergebnisse, die mit einem bestimmten Algorithmus in einer bestimmten Umgebung erzielt wurden, nicht immer den Ergebnissen, die mit demselben Algorithmus in einer anderen Umgebung erzielt wurden. Mit anderen Worten, frühere Leistungen sind keine Garantie für künftige Ergebnisse.

Aufgrund solcher Überlegungen wurden verschiedene Ensemble-Methoden sowie hybride Modelle verwendet, bei denen zwei oder mehr verschiedene Algorithmen sequentiell oder parallel kombiniert werden. Beispiele wurden oben sowohl für die Multilabel-Erkennung als auch für die schwache Überwachung vorgestellt.

Articles

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht.