Consideraciones generales
En este capítulo, los ejemplos elegidos para la ilustración hicieron uso de una variedad de estrategias de aprendizaje automático, y en algunos casos también se utilizaron redes híbridas. Una cuestión práctica importante es la elección de un algoritmo para resolver un problema determinado. Por desgracia, no existe una respuesta correcta. En este contexto, es importante reflexionar sobre el llamado teorema de Wolpert y Macready, que afirma que «para cualquier algoritmo, cualquier rendimiento elevado en una clase de problemas se ve compensado por el rendimiento en otra clase».
Simplemente, no hay un modelo que funcione mejor para todos los problemas. Sin embargo, cada método puede estar mejor alineado con una clase particular de problemas. Esto significa que no es posible generalizar que el algoritmo que mejor funciona en un estudio determinado sea la mejor estrategia para otras tareas de aprendizaje automático. Por lo tanto, es importante elegir el modelo adecuado para un problema determinado. Lamentablemente, no existe una base teórica sobre la que elegir. Esto debe hacerse de forma empírica a través de la prueba y el error. El estudio de evaluación de algoritmos proporcionó un buen ejemplo específico de este principio general.
Independientemente de la elección, todo modelo tiene parámetros sintonizables o hiperparámetros. Por ejemplo, en el caso de las redes neuronales, los parámetros sintonizables incluyen el número de nodos en cada capa y el número de capas. La retropropagación implica la elección del impulso y la tasa de aprendizaje. En el caso de una CNN, hay que decidir el tamaño de la matriz de convolución. Los pesos iniciales deben ser aleatorios, pero ahí la mayoría de los números aleatorios son generados por el ordenador empezando por un número «semilla». Esa semilla es también un parámetro. Esta lista no es en absoluto exhaustiva. Para los bosques aleatorios, el número de árboles, el número de ramas, la profundidad del árbol, etc., son parámetros que deben ser elegidos. Para k-means, hay que elegir el número de clusters, así como las k semillas de números aleatorios que inician el proceso iterativo de definición de clusters. Los parámetros ajustables son un hecho para la inteligencia artificial.
La otra consideración a la hora de seleccionar un modelo es el sesgo implícito de ese modelo. Esto no se refiere a los sesgos externos, como los que surgen de las elecciones de los elementos del conjunto de entrenamiento, o una evaluación basada en el valor de las etiquetas de características o clases, sino más bien a las suposiciones incorporadas en cada modelo. Por ejemplo, K-means asume que los clusters son aproximadamente esféricos y de tamaño similar (aunque hay modelos mejores que no tienen estas restricciones). Naïve Bayes asume que los atributos que describen el vector de características son independientes entre sí. Las suposiciones sobre las distribuciones de los datos son la base de casi todos los algoritmos de aprendizaje automático. Es importante comprender la naturaleza del conjunto de datos con suficiente detalle para poder elegir el algoritmo cuyas restricciones sean menos críticas para ese conjunto de datos. Lamentablemente, el uso del término «sesgo» tiende a antropomorfizar el programa de IA y oscurece las cuestiones implicadas.
La detección del sesgo implícito en una red de aprendizaje profundo se dificulta en la medida en que no tenemos una verdadera comprensión de cómo esa red está procesando sus entradas para llegar a las salidas correctas. En otras palabras, hay problemas de explicabilidad e interpretabilidad. La interpretabilidad es la capacidad de predecir el efecto de un cambio en los parámetros de entrada o algorítmicos (sintonizables). La explicabilidad es la capacidad de entender la base sobre la que el algoritmo saca sus conclusiones. Por ejemplo, podría ser tranquilizador poder explicar a un cirujano la base sobre la que la IA llegó a un diagnóstico de un tumor maligno de alto grado, o cómo diferenció entre dos tumores morfológicamente similares pero biológicamente diferentes. Es interesante que si uno pregunta a un patólogo de nivel de referencia y alta formación cómo ha llegado a un diagnóstico, a menudo se referirá a los «años de experiencia» que le llevaron al diagnóstico. Cuando se les presiona para que aporten criterios más específicos, puede que los inventen, pero a menudo es sobre una base ad hoc, para justificar la decisión ya tomada intuitivamente. Por esta razón, la naturaleza de caja negra de las redes neuronales, aunque inquieta a algunos, no molesta a otros de la intelligentsia artificial.
Hay formas de obtener alguna información sobre lo que ocurre entre bastidores para que podamos levantar el telón y ver al mago en acción. Por ejemplo, los mapas de saliencia crean una visualización de los píxeles de una imagen que más contribuyen a las predicciones del modelo. Calculando el cambio en la clase predicha aplicando pequeños ajustes a los valores de los píxeles, podemos medir la importancia relativa de cada píxel para el valor final de salida. Esto se discute en la Ref. Otros enfoques implican tratar de determinar la actividad de las neuronas en las capas ocultas a medida que avanza la retropropagación y, además, obtener representaciones visuales de las salidas cada vez más complejas de las capas ocultas mediante el mapeo de las características de éstas, como la intensidad, las orientaciones, el color y las formas.
Estos enfoques pueden proporcionar una cierta visión de cómo la red neuronal está discriminando entre las clases, pero todavía no «explican» lo que está sucediendo en términos humanos. Cuando una IA hace una jugada de ajedrez inesperada y sorprendente que no tiene una importancia estratégica obvia para un observador humano, y esa jugada inicia una secuencia ganadora, estas medidas internas no proporcionan ninguna pista sobre cómo el programa creó la jugada que, en retrospectiva, resultó ser «brillante». Por lo tanto, no crean una verdadera experiencia de aprendizaje para el observador humano. Por otro lado, esto ocurre ocasionalmente cuando los observadores humanos ven jugar a un Gran Maestro humano. No obstante, el conocimiento del proceso interno de toma de decisiones de un algoritmo de aprendizaje automático puede informar sobre el desarrollo de mejores algoritmos, por lo que hay que insistir en la explicabilidad de la IA mientras se acepta nuestra incapacidad ocasional para entender el genio humano.
A pesar de todas estas advertencias, los estudios que utilizan diferentes estrategias de IA de aprendizaje «superficial» en el mismo conjunto de datos suelen obtener resultados similares. La llegada del aprendizaje profundo supuso una gran mejora en el aprendizaje automático con respecto a la mayoría, si no a todos, los enfoques alternativos. Cuando se trata de conjuntos de características complejas y multidimensionales, las redes neuronales superan sustancialmente a otros tipos de aprendizaje automático. Incluso en este caso, cuando se comparan artículos que tratan el mismo conjunto de datos pero que utilizan variaciones de los modelos de redes, las mejoras que se atribuyen a cada uno tienden a ser incrementales. Aunque algunos son mejores que otros, todos parecen converger en torno a resultados que alcanzan una precisión superior al 90%-95% (con resultados similares para las demás métricas de evaluación). Sin embargo, esto puede deberse simplemente al hecho de que se ha prestado una cuidadosa atención a la optimización del programa elegido en cada uno de ellos. También hay que tener en cuenta las diferencias de potencia de cálculo. Por esta última razón, la velocidad de rendimiento nunca debe utilizarse para comparar un algoritmo con otro, a menos que se ejecuten exactamente en la misma plataforma. Otra razón es que a menudo los conjuntos de entrenamiento son versiones simplificadas y cuidadosamente curadas de datos que se encuentran en la naturaleza. Esto plantea la posibilidad de que en situaciones menos estructuradas se observen mayores diferencias. Por último, los resultados obtenidos por un determinado algoritmo en un entorno pueden no corresponder siempre a los resultados obtenidos con el mismo algoritmo en un entorno diferente. En otras palabras, el rendimiento pasado no es garantía de resultados futuros.
Debido a consideraciones como éstas, se han utilizado varios métodos de conjunto, así como modelos híbridos que implican la combinación de dos o más algoritmos diferentes de forma secuencial o en paralelo. Más arriba se han presentado ejemplos tanto para la detección multietiqueta como para la supervisión débil.