Considerações Gerais

Neste capítulo, os exemplos escolhidos para ilustração fizeram uso de uma variedade de estratégias de aprendizagem de máquinas e, em alguns casos, também foram utilizadas redes híbridas. Uma questão prática importante envolve a escolha de um algoritmo para resolver um determinado problema. Infelizmente, não há uma resposta correta. Neste contexto, é importante refletir sobre o chamado teorema “no free lunch” de Wolpert e Macready , que diz que “para qualquer algoritmo, qualquer performance elevada sobre uma classe de problemas é compensada pela performance sobre outra classe”

Simplesmente dito, não há um modelo que funcione melhor para cada problema. No entanto, cada método pode estar melhor alinhado com uma classe particular de problemas. Isto significa que não é possível generalizar que o algoritmo de melhor desempenho em um determinado estudo é a melhor estratégia para outras tarefas de aprendizagem da máquina. Portanto, é importante escolher o modelo apropriado para um determinado problema. Infelizmente, não existe uma base teórica sobre a qual escolher. Isto deve ser feito empiricamente através de tentativa e erro. O estudo de avaliação do algoritmo forneceu um bom exemplo específico deste princípio geral.

Independentemente da escolha, cada modelo tem parâmetros sintonizáveis ou hiperparâmetros. Por exemplo, no caso de redes neurais, os parâmetros sintonizáveis incluem o número de nós em cada camada e o número de camadas. A retropropagação envolve escolhas de momentum e taxa de aprendizagem. Para uma CNN, devem ser tomadas decisões sobre o tamanho da matriz de convolução. Os pesos iniciais devem ser aleatórios, mas a maioria dos números aleatórios são gerados por computador, começando com um número “semente”. Essa semente também é um parâmetro. Esta lista não é, de forma alguma, exaustiva. Para florestas aleatórias, o número de árvores, o número de ramos, a profundidade das árvores, etc., são parâmetros que devem ser escolhidos. Para k significa que se deve escolher o número de cachos, assim como o k número aleatório de sementes que iniciam o processo iterativo de definir cachos. Os parâmetros sintonizáveis são um fato da vida para a intelligentsia artificial.

A outra consideração na seleção de um modelo é o viés implícito desse modelo. Isto não se refere a vieses externos, como os que surgem das escolhas dos elementos do conjunto de treinamento, ou a uma avaliação baseada em valores das etiquetas de características ou classes, mas sim aos pressupostos cozidos em cada modelo. Por exemplo, K significa que os clusters são aproximadamente esféricos, de tamanho semelhante entre si (embora existam modelos melhores que não tenham essas restrições). Naïve Bayes assume que os atributos que descrevem o vector de características são independentes uns dos outros. As suposições sobre a distribuição de dados estão no centro de quase todos os algoritmos de aprendizagem de máquinas. É importante entender a natureza do conjunto de dados com detalhes suficientes para permitir a escolha do algoritmo cujas restrições são menos críticas para aquele conjunto de dados. Infelizmente, o uso do termo “viés” tende a antropomorfizar o programa de IA e obscurece as questões envolvidas.

A detecção de viés implícito em uma rede de aprendizagem profunda é dificultada na medida em que não temos um entendimento verdadeiro de como essa rede está processando suas entradas para chegar aos resultados corretos. Em outras palavras, há problemas com explicabilidade e interpretabilidade. Interpretabilidade é a capacidade de prever o efeito de uma mudança nos parâmetros de entrada ou nos parâmetros algorítmicos (sintonizáveis). Explicabilidade é a capacidade de compreender a base sobre a qual o algoritmo está a tirar a sua conclusão. Por exemplo, pode ser reconfortante ser capaz de explicar a um cirurgião a base sobre a qual a IA veio com um diagnóstico de malignidade de alto grau, ou como ela diferenciou entre dois tumores morfologicamente semelhantes, mas biologicamente diferentes. É interessante que se se questiona um nível de referência, patologista altamente treinado, sobre como ele ou ela chegou a um diagnóstico, muitas vezes eles se referem aos “anos de experiência” que levaram ao diagnóstico. Quando pressionados por critérios mais específicos, eles podem compô-los, mas muitas vezes é numa base ad hoc, para justificar a decisão já tomada de forma intuitiva. Por esta razão, a natureza de caixa negra das redes neurais, embora inquietante para alguns, não incomoda outros da intelligentsia artificial.

Existem formas de obter alguma percepção sobre o que está acontecendo nos bastidores para que possamos levantar a cortina para ver o feiticeiro em ação. Por exemplo, mapas de saliências criam uma visualização dos pixels em uma imagem que mais contribui para as previsões do modelo. Calculando a mudança na classe prevista aplicando pequenos ajustes nos valores dos pixels, podemos medir a importância relativa de cada pixel para o valor final de saída. Isto é discutido na Ref. . Outras abordagens envolvem tentar determinar a atividade dos neurônios nas camadas ocultas à medida que a retropropagação avança e, adicionalmente, obter representações visuais dos resultados cada vez mais complexos das camadas ocultas, mapeando características como intensidade, orientações, cor e formas.

Essas abordagens podem fornecer alguma percepção de como a rede neural está discriminando entre as classes, mas ainda não “explicam” o que está acontecendo em termos humanos. Quando uma IA faz um movimento de xadrez inesperado e surpreendente que não tem importância estratégica óbvia para um observador humano, e esse movimento inicia uma seqüência vencedora, essas medidas internas não fornecem nenhuma pista de como o programa criou o movimento que, em retrospectiva, acabou se tornando “brilhante”. Assim, elas não criam uma verdadeira experiência de aprendizagem para o observador humano. Por outro lado, isto acontece ocasionalmente quando observadores humanos observam um Grande Mestre humano em jogo. No entanto, o conhecimento sobre o processo interno de tomada de decisão de um algoritmo de aprendizagem de máquina pode informar o desenvolvimento de melhores algoritmos, então há algo a ser dito para insistir na explicabilidade da IA enquanto aceitamos nossa ocasional incapacidade de entender o gênio humano.

Apesar de todas essas advertências, estudos usando diferentes estratégias de aprendizagem “rasa” de IA no mesmo conjunto de dados frequentemente obtêm resultados similares. A chegada da aprendizagem profunda levou a uma grande melhoria na aprendizagem de máquinas sobre a maioria, se não todas, abordagens alternativas. Quando se lida com conjuntos de características complexas e multidimensionais, as redes neurais superam substancialmente outros tipos de aprendizagem de máquinas. Mesmo aqui, quando são comparados trabalhos que lidam com o mesmo conjunto de dados, mas usando variações de modelos de rede, as melhorias reivindicadas por cada um tendem a ser incrementais. Enquanto algumas são melhores que outras, todas parecem convergir em torno de resultados que atingem uma precisão superior a 90%-95% (com resultados semelhantes para as outras métricas de avaliação). Isto, no entanto, pode ser meramente devido ao facto de ter sido dada uma atenção cuidadosa para optimizar o programa de escolha em cada uma delas. Há também diferenças no poder computacional que devem ser consideradas. Por esta última razão, a velocidade de desempenho nunca deve ser usada na comparação de um algoritmo com outro, a menos que estejam rodando exatamente na mesma plataforma. Outra razão é que muitas vezes os conjuntos de treinamento são versões simplificadas e cuidadosamente curadas dos dados que são encontrados na natureza. Isto levanta a possibilidade de que em situações menos estruturadas, maiores diferenças possam ser observadas. Finalmente, os resultados obtidos por um determinado algoritmo em uma configuração podem nem sempre corresponder aos resultados usando o mesmo algoritmo em uma configuração diferente. Em outras palavras, o desempenho passado não é garantia de resultados futuros.

Por causa de considerações como estas, vários métodos de conjunto têm sido utilizados, assim como modelos híbridos envolvendo a combinação de dois ou mais algoritmos diferentes sequencialmente ou em paralelo. Exemplos foram apresentados acima, tanto para a detecção multilabel como para a fraca supervisão.

Articles

Deixe uma resposta

O seu endereço de email não será publicado.