Participantes

Vinte e um voluntários saudáveis com visão normal ou corrigida para a normal participaram do estudo. Cinco sujeitos foram excluídos antes da análise dos dados devido a pelo menos um dos seguintes critérios de exclusão: movimento excessivo durante o registro, desempenho comportamental abaixo de dois desvios padrão da média, ou registros incompletos devido a questões técnicas. Os dados de 16 sujeitos (oito mulheres; idade média 25,9 anos, DP = 4,33) permaneceram para a análise do MEG. O tamanho da amostra escolhida foi baseado em estudos anteriores utilizando a decodificação multivariada dos dados do EEG/MEG16,17,23. Catorze desses 16 sujeitos participaram adicionalmente de um experimento de acompanhamento comportamental online. Todos os sujeitos forneceram consentimento informado, por escrito, antes do experimento. O Comitê do Massachusetts Institute of Technology (MIT) sobre o Uso de Seres Humanos como Sujeitos Experimentais aprovou o protocolo experimental (COUHES No 1606622600) e o estudo foi conduzido em conformidade com todas as regulamentações éticas relevantes para o trabalho com participantes humanos.

Desenho experimental e estímulos

Para investigar a dinâmica temporal do processamento facial, os sujeitos visualizaram imagens faciais de diferentes identidades enquanto monitoravam para repetições consecutivas de imagens idênticas (ou seja 1 tarefa de costas; Fig. 1a) no MEG. Escolhemos oito celebridades familiares (ou seja, actores famosos nos EUA) e oito desconhecidas (ou seja, actores alemães) como identidades, que variavam ortogonalmente em género e idade, de tal forma que metade eram mulheres e metade homens e metade eram jovens (ou seja, a idade máxima era de 36 anos) e metade eram velhos (ou seja, a idade mínima era de 59 anos). Note que aqui, por sexo, nos referimos ao sexo de um rosto.

Para garantir que todos os sujeitos estavam de fato familiarizados com o conjunto de identidades familiares, os sujeitos completaram uma tarefa de triagem online antes do estudo. Nessa triagem, apresentamos uma imagem para cada uma das 16 identidades (diferente das imagens usadas no estudo MEG) e perguntamos se eles estavam familiarizados com a pessoa mostrada. Apenas os sujeitos que reconheceram cada uma das oito identidades familiares (por exemplo, dando seus nomes ou contextos nos quais se lembravam da pessoa) foram incluídos no estudo.

Estímulos finais usados no estudo MEG consistiram de cinco imagens em escala de cinza de cada uma das 16 identidades para um total de 80 estímulos. Para cada identidade, selecionamos cinco imagens da Internet que variaram em vários aspectos como expressão (pelo menos duas sorridentes e duas expressões faciais neutras), olhar (uma desviada para a esquerda, uma desviada para a direita, duas dirigidas e uma alinhada com a cabeça girada), postura (uma com a cabeça ligeiramente girada para o lado), relâmpago, cabelo, etc. Em seguida, padronizamos todas as imagens para um modelo, girando, escalonando e cortando-as com base na posição da ponta do nariz, do centro da boca e dos dois olhos e as salvamos como imagens em escala de cinza.

Durante o experimento MEG, os sujeitos visualizaram ensaios de imagens faciais (Fig. 1a). Cada estudo começou com a apresentação de uma imagem facial durante 0,2 s, seguida de um intervalo de 0,8-1 s de interstícios (ISI; uniformemente amostrado entre 0,8 e 1 s), durante o qual foi apresentada uma tela cinza. Os sujeitos foram instruídos a responder através de pressão de botão a uma repetição consecutiva de uma imagem idêntica durante a apresentação da imagem ou durante o ITI. Para evitar artefatos devidos a movimentos oculares ou piscadas, os sujeitos foram instruídos a fixar uma cruz de fixação preta no centro superior da tela durante a apresentação da imagem (ou seja, apresentada entre a ponta do nariz e os olhos de um rosto) e ISI. Foi-lhes ainda pedido que piscassem ao mesmo tempo ao dar uma resposta de botão, uma vez que estes ensaios não foram incluídos na análise dos dados.

Subjectos visualizados 28 blocos de ensaios em que cada uma das 80 imagens foi apresentada uma vez aleatoriamente intercalada com 20 ensaios de tarefa (1 ensaio de costas) para um total de 100 ensaios por bloco. As task trials foram pseudo-randomizadas de modo que cada uma das 80 imagens foi adicionalmente mostrada sete vezes como task trial para um total de 35 apresentações. A apresentação dos estímulos foi controlada e as respostas recolhidas usando o Psychtoolbox 3 para Matlab51,52. O experimento durou cerca de 70 min.

gravação e pré-processamentoMEG

dadosMEG foram coletados usando um sistema Elekta Triux de 306 canais com uma taxa de amostragem de 1000 Hz, e foram filtrados online entre 0,01 e 330 Hz. A posição da cabeça foi rastreada durante a gravação do MEG com base em um conjunto de cinco bobinas indicadoras de posição da cabeça colocadas em determinados pontos da cabeça. Nós pré-processamos os dados brutos com o software Maxfilter (Elekta, Estocolmo) para remover o movimento da cabeça e para denotar os dados usando filtros espaciotemporais. Usamos então o Brainstorm (versão 3.453) para extrair ensaios de -200 a 800 ms em relação ao início da imagem. No Brainstorm, todos os testes foram corrigidos por meio da remoção da ativação média de cada sensor MEG entre -200 ms e o início do estímulo e a análise dos componentes principais foi usada para remover artefatos de piscar os olhos que foram automaticamente detectados a partir dos dados MEG do sensor frontal. Utilizamos um limiar de rejeição de pico a pico de 6000 fT para descartar testes ruins, importamos os testes restantes em Matlab (versão 2016a; The Mathworks, Natick, MA) e os suavizamos com um filtro passa-baixo de 30 Hz. Note que também realizamos uma análise sobre os dados não filtrados que produziram resultados muito semelhantes (ver Nota Complementar 2). Para diminuir ainda mais o ruído e reduzir os custos computacionais, para cada assunto concatenamos os dados de cada sensor MEG ao longo do tempo e aplicamos a análise dos componentes principais aos dados do sensor MEG (mantendo todos os componentes que explicaram 99,99% da variância nos dados). Este passo reduziu o conjunto de características de 306 sensores MEG para cerca de 70 componentes principais (PCs) por assunto e realizamos todas as análises adicionais sobre este conjunto reduzido. Em seguida, corrigimos cada ensaio com a remoção da ativação média entre -200 ms e o início do estímulo de cada PC. Esses escores de PC para cada estudo e cada ponto de tempo foram usados para as análises subseqüentes.

Análise de padrão multivariadoMEG

Utilizamos a análise de padrão multivariado para extrair informações temporais sobre os estímulos faciais a partir dos dados do MEG (Fig. 2). Para obter uma medida de similaridade para cada par de estímulos, utilizamos a precisão da classificação de pares cruzados de máquinas vetoriais de suporte linear (SVM; libsvm54). A análise de classificação foi realizada separadamente para cada indivíduo, de uma forma que se resolveu no tempo (ou seja, independentemente para cada ponto de tempo). Um padrão na análise consistiu nos escores do PC para um ensaio e uma condição em um determinado ponto de tempo. No primeiro passo, nós subestimamos todas as tentativas de uma condição atribuindo aleatoriamente cada tentativa a uma das cinco partições e calculando a média das tentativas em cada partição (~5-7 tentativas por partição ao considerar más tentativas). Em seguida, dividimos os grupos em dados de treinamento e testes selecionando aleatoriamente um grupo para testes e os grupos restantes para treinamento (ou seja, cinco vezes a validação cruzada). Em seguida, realizamos uma classificação binária de todas as comparações de 3170 pares (ou seja, 80 × 79/2 combinações) entre condições. Este procedimento de classificação foi repetido 100 vezes. A precisão média de decodificação sobre as repetições serviu como valor na matriz de decodificação 80 × 80, chamada de matriz de dissimilaridade representacional (RDM). Esta RDM é simétrica e a diagonal é indefinida. Todo o procedimento resultou em um MEG RDM para cada assunto e ponto temporal.

Para obter uma medida de como cada estímulo facial pode ser discriminado de todas as outras imagens no MEG (ou seja, descodificação de imagens), calculamos a média de todas as precisões de descodificação em pares no triângulo inferior de cada RDM. Isto resultou em um valor médio de precisão de decodificação por assunto e ponto de tempo. O curso temporal da descodificação de imagens serve ainda como referência do curso temporal do processamento de imagens de baixo nível nos dados MEG. Para investigar como as respostas neurais persistentes eram para enfrentar as imagens, estendemos ainda mais o procedimento de decodificação SVM com uma abordagem de generalização temporal16,55,56. Detalhes e resultados dessa análise podem ser encontrados na Nota Complementar 4.

Análise de similaridade representacional

Para analisar a representação das dimensões faciais nos dados do MEG, usamos a análise de similaridade representacional (RSA). Criamos modelos RDMs para cada dimensão de face que eram 80 × 80 matrizes binárias onde 1 correspondia a uma comparação entre estímulos de categoria (por exemplo, masculino vs feminino para o modelo de gênero) e 0 a uma comparação entre estímulos de categoria dentro da categoria (por exemplo, feminino vs feminino). Este procedimento resultou em quatro modelos faciais correspondentes às dimensões de familiaridade, sexo, idade e identidade dos nossos estímulos. Para calcular as correlações entre cada modelo e os dados do MEG, extraímos a menor off-diagonal de cada uma dessas matrizes como vetores. Para cada modelo e sujeito, calculamos os coeficientes parciais (correlação de Spearman) entre o modelo e o MEG RDM em cada ponto de tempo, dividindo todos os outros modelos faciais. Este passo foi crucial porque alguns dos modelos estão correlacionados (por exemplo, entre comparações de identidade compreendidas entre comparações de gênero) e a partição dos outros modelos nos permitiu separar as contribuições dos modelos uns dos outros.

Para excluir ainda mais a contribuição de características de baixo nível dos nossos estímulos para os resultados, adicionalmente parcializamos um modelo de características de baixo nível. Este modelo de baixo nível de características foi calculado extraindo características para cada um dos 80 estímulos da segunda camada convolucional de uma rede neural artificial profunda e convolucional (CNN) treinada em milhares de identidades faciais (VGG-Face57). Utilizamos a correlação 1 – Pearson como medida de disparidade entre as unidades CNN de cada par de estímulos, resultando em um RDM 80 × 80 baseado em características de imagem de baixo nível. Note que também comparamos outros modelos de características de baixo nível (por exemplo, HMAX C258,59, Gist60, similaridade baseada em pixels), que produziram resultados semelhantes; reportamos aqui o modelo VGG-Face porque ele atingiu a correlação máxima com os dados do MEG e, portanto, explica a maioria dos dados (como responsável pelas características de baixo nível).

Investigamos o efeito da familiaridade no processamento facial, dividindo o MEG e o modelo RDM em RDMs familiares e não familiares, respectivamente. Cada um desses RDMs era um RDM 40 × 40, constituindo apenas imagens faciais familiares ou não familiares. Realizamos então a mesma análise do conjunto completo de estímulos (ver acima). Para testar ainda mais as diferenças entre o processamento de rostos familiares e não familiares, subtraímos os cursos de correlação temporal para rostos não familiares dos cursos de tempo obtidos para rostos familiares para cada sujeito e comparamos estatisticamente esses cursos de tempo de diferença a zero (ver Inferência estatística abaixo). Observe que, enquanto tentamos selecionar os diferentes conjuntos de imagens de rostos familiares e não familiares da forma mais objetiva possível, não podemos excluir totalmente que as diferenças entre os conjuntos de estímulos contribuíram para essa análise. Portanto, realizamos uma análise adicional da VGG-Face, testando os efeitos da familiaridade com os estímulos em uma camada precoce e tardia da VGG-Face, sugerindo que tais diferenças não poderiam explicar diretamente nossos achados (ver Nota Complementar 1).

Outras, é importante notar que as séries temporais de informação categórica (por exemplo gênero) foram construídas correlacionando a matriz MEG RDM com o modelo RMD composto por zeros correspondentes a dentro de uma categoria (por exemplo, feminino ou masculino) e aqueles correspondentes a comparações entre estímulos de uma categoria. A correlação entre os MEG RDMs e um modelo RDM (enquanto dividindo todos os outros modelos) serviu como medida de agrupamento por categoria de membros. Uma abordagem alternativa ao cálculo de séries temporais de informação categórica é treinar diretamente um classificador para discriminar categorias (por exemplo, feminino versus masculino através da identidade) de estímulos. Embora tal abordagem metodológica possa ser sensível a diferentes aspectos das informações de estímulos categóricos em geral, ela produziu resultados consistentes em nossos dados (ver Nota Complementar 3).

Experimento de similaridade comportamental

Quatorze dos 16 sujeitos realizaram adicionalmente uma tarefa de multiarranjo comportamental61 sobre os mesmos estímulos em um dia separado após o experimento MEG. Os sujeitos executaram o experimento multi-arranjo online usando seu próprio computador e fazendo login em uma plataforma online para executar experimentos comportamentais (). Os sujeitos tiveram de introduzir um código pessoal anónimo que lhes foi fornecido por e-mail para iniciar o experimento. No experimento, todos os 80 estímulos que o sujeito tinha visto anteriormente no experimento foram dispostos como miniaturas em torno de um círculo branco no centro da tela. Os sujeitos foram instruídos a organizar essas miniaturas com base em sua similaridade percebida (“imagens semelhantes juntas, imagens diferentes”, sem instruções explícitas sobre qual recurso usar), arrastando-as e soltando-as no círculo. O experimento terminou automaticamente quando uma relação sinal/ruído suficiente foi alcançada (ou seja, o peso da evidência foi ajustado para 0,5). A duração média do experimento foi de ~70 minutos. Após a conclusão do experimento, foram computadas as distâncias quadráticas entre os thumbnails arranjados, representando assim um RDM comportamental. Para cada assunto, extraímos os dados inferiores fora de diagonal do MDR comportamental e correlacionamos este vetor com os MDRs MEG correspondentes para cada ponto de tempo. Adicionalmente calculamos o teto de ruído para esta correlação para obter uma estimativa para o limite superior e inferior da correlação dada a variabilidade entre o conjunto restrito de sujeitos nesta análise. Estimamos o tecto de ruído seguindo um método aqui descrito62. Resumidamente, estimamos o limite superior da correlação como a correlação média de cada sujeito com a média do grupo. Como esta correlação inclui a correlação com o próprio sujeito, ela representa uma superestimação da correlação média do modelo verdadeiro. Em contraste, o limite inferior é computado tomando a correlação média de cada sujeito com a média de todos os outros sujeitos (excluindo o sujeito em si). Isto subestima a correlação média do modelo verdadeiro devido a um conjunto restrito de dados. Juntos, o teto de ruído fornece uma estimativa da correlação máxima obtida e é útil como referência, em particular quando são encontrados valores de correlação baixos mas significativos.

Outros, para avaliar a contribuição única de cada modelo para a variância compartilhada entre MEG e MDRs comportamentais, realizamos adicionalmente a análise de uniformidade, uma abordagem de partição de variância que estima a variância compartilhada entre mais de duas variáveis20,63. Resumidamente, calculamos a variância exclusivamente a partir de cada modelo de face (por exemplo, gênero) através do cálculo de dois coeficientes de correlação: Primeiro, para cada sujeito, calculamos a correlação parcial entre o MEG e os MDRs comportamentais, enquanto dividimos todos os modelos (sexo, idade, identidade e modelo de característica de baixo nível). Segundo, calculamos a correlação parcial entre o MEG RDM e o RDM comportamental, enquanto particionamos todos os modelos de face e o modelo de característica de baixo nível, mas deixando de fora um modelo de face (por exemplo, gênero). A diferença entre estes dois coeficientes de correlação parcial representa a variância única contribuída por esse modelo referido como coeficiente de uniformidade. Esse passo foi repetido para cada ponto de tempo do MEG, resultando em um curso de tempo do coeficiente de uniformidade para cada modelo facial.

Inferência estatística

Para todas as análises, usamos testes estatísticos não paramétricos que não se baseiam em suposições sobre as distribuições dos dados64,65. Para inferência estatística da precisão da decodificação (decodificação de imagens) ou correlação parcial (por exemplo, correlação de modelos) séries temporais, realizamos inferência baseada na permutação de tamanhos de clusters (ou seja, um cluster refere-se a um conjunto de pontos de tempo contíguos). A hipótese nula correspondeu a 50% de chance para a decodificação de precisões, e 0 para valores de correlação ou diferenças de correlação. Os clusters temporais significativos foram definidos da seguinte forma. Primeiro, permutamos as etiquetas de condição dos dados MEG multiplicando aleatoriamente as respostas dos sujeitos por + 1 ou -1 (ou seja, teste de permutação de sinais). Repetimos este procedimento 1000 vezes, resultando em uma distribuição de permutação para cada ponto de tempo. Segundo, pontos de tempo que excederam o percentil 95 da distribuição da permutação serviram como pontos de tempo indutores de agrupamento (ou seja, equivalente a p < 0,05; unilateral). Finalmente, clusters no tempo foram definidos como o percentil 95 do número máximo de pontos de tempo contíguos e significativos em todas as permutações (ou seja, equivalente a p < 0,05; unilateral).

Análise de latência de início e pico

Para testar diferenças estatísticas nas latências de início ou pico entre diferentes dimensões de face, realizamos testes de bootstrap. Iniciamos os cursos de tempo específicos do assunto (por exemplo, medidos como precisão de decodificação, correlação parcial ou coeficiente de uniformidade) 1000 vezes para obter uma distribuição empírica do início (ou seja, ponto de tempo mínimo significativo após o início do estímulo) e latências de pico (ou seja, valor máximo de correlação entre 80 e 180 ms após o início do estímulo). Nós restringimos a janela de tempo para a análise de pico a 180 ms após o início do estímulo, já que estávamos interessados em que o primeiro pico ocorresse após o início do estímulo, sem fundamento de picos posteriores (por exemplo, devido a respostas de compensação do estímulo66). Os percentis 2,5 e 97,5 dessas distribuições definiram o intervalo de confiança de 95% para o início e a latência dos picos, respectivamente. Para diferenças entre latências, calculamos 1000 amostras de bootstrap da diferença entre duas latências (por exemplo, onset) resultando em uma distribuição empírica das diferenças de latência. O número de diferenças que foram menores ou maiores que zero dividido pelo número de permutações definiu o valor de p (ou seja, teste bilateral). Estes valores de p foram corrigidos para comparações múltiplas usando a taxa de falsas descobertas (FDR) a um nível de 0,05.

Articles

Deixe uma resposta

O seu endereço de email não será publicado.