Considérations générales

Dans ce chapitre, les exemples choisis pour l’illustration ont fait appel à une variété de stratégies d’apprentissage automatique, et dans certains cas, des réseaux hybrides ont également été utilisés. Une question pratique importante concerne le choix d’un algorithme pour résoudre un problème donné. Malheureusement, il n’y a pas de réponse correcte. Dans ce contexte, il est important de réfléchir au théorème dit « no free lunch » de Wolpert et Macready , qui stipule que « pour tout algorithme, toute performance élevée sur une classe de problèmes est compensée par la performance sur une autre classe. »

Simplement dit, il n’y a pas un modèle qui fonctionne le mieux pour chaque problème. Cependant, chaque méthode peut être mieux alignée avec une classe particulière de problèmes. Cela signifie qu’il n’est pas possible de généraliser que l’algorithme le plus performant dans une étude donnée est la meilleure stratégie pour d’autres tâches d’apprentissage automatique. Ainsi, il est important de choisir le modèle approprié pour un problème donné. Malheureusement, il n’existe pas de base théorique sur laquelle s’appuyer pour faire ce choix. Cela doit être fait de manière empirique, par essais et erreurs. L’étude d’évaluation des algorithmes a fourni un bon exemple spécifique de ce principe général.

Quoi qu’il en soit, chaque modèle possède des paramètres ou hyperparamètres accordables. Par exemple, dans le cas des réseaux neuronaux, les paramètres accordables comprennent le nombre de nœuds dans chaque couche et le nombre de couches. La rétropropagation implique de choisir le momentum et le taux d’apprentissage. Pour un CNN, des décisions doivent être prises concernant la taille de la matrice de convolution. Les poids initiaux doivent être aléatoires, mais là, la plupart des nombres aléatoires sont générés par l’ordinateur à partir d’un nombre « germe ». Cette graine est également un paramètre. Cette liste n’est en aucun cas exhaustive. Pour les forêts aléatoires, le nombre d’arbres, le nombre de branches, la profondeur de l’arbre, etc. sont des paramètres qui doivent être choisis. Pour les k-means, il faut choisir le nombre de clusters, ainsi que les k graines de nombres aléatoires qui lancent le processus itératif de définition des clusters. Les paramètres réglables sont une réalité pour l’intelligentsia artificielle.

L’autre considération dans la sélection d’un modèle est le biais implicite de ce modèle. Il ne s’agit pas de biais externes tels que ceux qui découlent des choix des éléments de l’ensemble d’entraînement, ou d’une évaluation basée sur la valeur des étiquettes de caractéristiques ou de classes, mais plutôt des hypothèses intégrées dans chaque modèle. Par exemple, K-means suppose que les clusters sont grossièrement sphériques et de taille similaire les uns aux autres (bien qu’il existe de meilleurs modèles qui n’ont pas ces contraintes). Naïve Bayes suppose que les attributs décrivant le vecteur de caractéristiques sont indépendants les uns des autres. Les hypothèses sur la distribution des données sont au cœur de presque tous les algorithmes d’apprentissage automatique. Il est important de comprendre la nature de l’ensemble de données de manière suffisamment détaillée pour pouvoir choisir l’algorithme dont les contraintes sont les moins critiques pour cet ensemble de données. Malheureusement, l’utilisation du terme  » biais  » tend à anthropomorphiser le programme d’IA et à obscurcir les problèmes en jeu.

La détection d’un biais implicite dans un réseau d’apprentissage profond est rendue difficile dans la mesure où nous n’avons pas de véritable compréhension de la façon dont ce réseau traite ses entrées pour arriver aux bonnes sorties. En d’autres termes, il existe des problèmes d’explicabilité et d’interprétabilité. L’interprétabilité est la capacité de prédire l’effet d’une modification des entrées ou des paramètres algorithmiques (réglables). L’explicabilité est la capacité à comprendre la base sur laquelle l’algorithme tire ses conclusions. Par exemple, il pourrait être rassurant de pouvoir expliquer à un chirurgien la base sur laquelle l’IA a établi un diagnostic de malignité de haut grade, ou comment elle a fait la différence entre deux tumeurs morphologiquement similaires mais biologiquement différentes. Il est intéressant de noter que si l’on demande à un pathologiste de niveau de référence, hautement qualifié, comment il est parvenu à un diagnostic, il se réfère souvent aux « années d’expérience » qui ont conduit au diagnostic. Lorsqu’on leur demande des critères plus spécifiques, ils peuvent les inventer, mais c’est souvent sur une base ad hoc, pour justifier la décision déjà prise intuitivement. Pour cette raison, la nature de boîte noire des réseaux neuronaux, bien qu’inquiétante pour certains, ne dérange pas les autres membres de l’intelligentsia artificielle.

Il existe des moyens d’avoir un aperçu de ce qui se passe dans les coulisses afin de pouvoir soulever le rideau pour voir le magicien à l’œuvre. Par exemple, les cartes de saillance créent une visualisation des pixels d’une image qui contribuent le plus aux prédictions du modèle. En calculant le changement de classe prédite en appliquant de petits ajustements aux valeurs des pixels, nous pouvons mesurer l’importance relative de chaque pixel pour la valeur de sortie finale. Cette approche est discutée dans la Réf. . D’autres approches impliquent d’essayer de déterminer l’activité des neurones dans les couches cachées au fur et à mesure de la rétropropagation, et en outre d’obtenir des représentations visuelles des sorties de plus en plus complexes des couches cachées en mettant en correspondance les caractéristiques de celles-ci telles que l’intensité, les orientations, la couleur et les formes.

Ces approches peuvent fournir un certain aperçu de la façon dont le réseau neuronal discrimine entre les classes, mais n’expliquent toujours pas « ce qui se passe » en termes humains. Lorsqu’une IA effectue un coup d’échecs inattendu et surprenant qui n’a aucune importance stratégique évidente pour un observateur humain, et que ce coup initie une séquence gagnante, ces mesures internes ne fournissent aucun indice sur la façon dont le programme a créé le coup qui, rétrospectivement, s’est avéré « brillant ». Elles ne créent donc pas une véritable expérience d’apprentissage pour l’observateur humain. D’un autre côté, cela se produit occasionnellement lorsque des observateurs humains regardent un Grand Maître humain en train de jouer. Néanmoins, la connaissance du processus décisionnel interne d’un algorithme d’apprentissage automatique peut informer le développement de meilleurs algorithmes, il y a donc quelque chose à dire pour insister sur l’explicabilité de l’IA tout en acceptant notre incapacité occasionnelle à comprendre le génie humain.

En dépit de toutes ces mises en garde, les études utilisant différentes stratégies d’IA d’apprentissage « superficiel » sur le même ensemble de données obtiennent souvent des résultats similaires. L’arrivée de l’apprentissage profond a conduit à une grande amélioration de l’apprentissage automatique par rapport à la plupart, voire à toutes les autres approches alternatives. Lorsqu’ils traitent des ensembles de caractéristiques complexes et multidimensionnels, les réseaux neuronaux surpassent largement les autres types d’apprentissage automatique. Même dans ce cas, lorsque l’on compare des articles traitant du même ensemble de données mais utilisant des variations de modèles de réseaux, les améliorations revendiquées par chacun ont tendance à être incrémentales. Bien que certains soient meilleurs que d’autres, ils semblent tous converger vers des résultats qui atteignent une précision supérieure à 90%-95% (avec des résultats similaires pour les autres paramètres d’évaluation). Cependant, cela peut être simplement dû au fait qu’une attention particulière a été portée à l’optimisation du programme de choix dans chacun d’eux. Il y a également des différences de puissance de calcul qui doivent être prises en compte. Pour cette dernière raison, la vitesse de performance ne devrait jamais être utilisée pour comparer un algorithme à un autre, à moins qu’ils ne fonctionnent exactement sur la même plate-forme. Une autre raison est que les ensembles d’entraînement sont souvent des versions simplifiées et soigneusement sélectionnées de données que l’on trouve dans la nature. Il est donc possible que dans des situations moins structurées, des différences plus importantes soient observées. Enfin, les résultats obtenus par un algorithme donné dans un contexte donné ne correspondent pas toujours aux résultats obtenus avec le même algorithme dans un contexte différent. En d’autres termes, les performances passées ne garantissent pas les résultats futurs.

En raison de considérations telles que celles-ci, diverses méthodes d’ensemble ont été utilisées, ainsi que des modèles hybrides impliquant la combinaison de deux ou plusieurs algorithmes différents de manière séquentielle ou en parallèle. Des exemples ont été présentés ci-dessus à la fois pour la détection multi-labels et la supervision faible.

Articles

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée.