Participantes

Veintiún voluntarios sanos con visión normal o corregida a normal participaron en el estudio. Se excluyeron cinco sujetos antes del análisis de datos debido a al menos uno de los siguientes criterios de exclusión: movimiento excesivo durante la grabación, rendimiento conductual por debajo de dos desviaciones estándar de la media o grabaciones incompletas debido a problemas técnicos. Los datos de 16 sujetos (ocho mujeres; edad media 25,9, SD = 4,33) permanecieron para el análisis MEG. El tamaño de la muestra elegido se basó en estudios anteriores que utilizaban la decodificación multivariante de los datos EEG/MEG16,17,23. Catorce de estos 16 sujetos participaron además en un experimento de seguimiento conductual online. Todos los sujetos dieron su consentimiento informado y por escrito antes del experimento. El Comité del Instituto Tecnológico de Massachusetts (MIT) sobre el uso de seres humanos como sujetos experimentales aprobó el protocolo experimental (COUHES nº 1606622600) y el estudio se llevó a cabo de acuerdo con todas las normativas éticas pertinentes para el trabajo con participantes humanos.

Diseño experimental y estímulos

Para investigar la dinámica temporal del procesamiento de rostros, los sujetos vieron imágenes de rostros de diferentes identidades mientras vigilaban repeticiones consecutivas de imágenes idénticas (es decir, tarea de 1 vuelta; Fig. 1a) en el MEG. Elegimos como identidades ocho celebridades conocidas (es decir, actores famosos de Estados Unidos) y ocho desconocidas (es decir, actores alemanes), que variaban ortogonalmente en género y edad, de manera que la mitad eran mujeres y la mitad eran hombres y la mitad eran jóvenes (es decir, la edad máxima era de 36 años) y la mitad eran mayores (es decir, la edad mínima era de 59 años). Nótese que aquí, por género, nos referimos al sexo de una cara.

Para asegurarnos de que todos los sujetos estaban de hecho familiarizados con el conjunto de identidades familiares, los sujetos completaron una tarea de cribado online antes del estudio. En este cribado, les presentamos una imagen para cada una de las 16 identidades (diferentes de las imágenes utilizadas en el estudio MEG) y les preguntamos si estaban familiarizados con la persona mostrada. Sólo se incluyeron en el estudio los sujetos que reconocieron cada una de las ocho identidades familiares (por ejemplo, dando sus nombres o contextos en los que recordaban a la persona).

Los estímulos finales utilizados en el estudio MEG consistieron en cinco imágenes en escala de grises de cada una de las 16 identidades para un total de 80 estímulos. Para cada identidad, seleccionamos cinco imágenes de Internet que variaban en varios aspectos como la expresión (al menos dos expresiones faciales sonrientes y dos neutras), la mirada (una desviada hacia la izquierda, otra hacia la derecha, dos miradas dirigidas y una mirada alineada con la cabeza girada), la pose (una con la cabeza ligeramente girada hacia un lado), la iluminación, el pelo, etc. A continuación, estandarizamos todas las imágenes a una plantilla girándolas, escalándolas y recortándolas en función de la posición de la punta de la nariz, el centro de la boca y ambos ojos, y las guardamos como imágenes en escala de grises.

Durante el experimento MEG, los sujetos vieron ensayos de imágenes de caras (Fig. 1a). Cada ensayo comenzaba con la presentación de una imagen de cara durante 0,2 s seguida de un intervalo entre estímulos (ISI; muestreado uniformemente entre 0,8 y 1 s) de 0,8 a 1 s durante el cual se presentaba una pantalla gris. Se indicó a los sujetos que respondieran mediante la pulsación de un botón a una repetición consecutiva de una imagen idéntica durante la presentación de la imagen o durante el ITI. Para evitar los artefactos debidos a los movimientos oculares o al parpadeo, se indicó a los sujetos que fijaran una cruz de fijación negra en el centro superior de la pantalla durante la presentación de la imagen (es decir, presentada entre la punta de la nariz y los ojos de una cara) y el ISI. Además, se les pidió que parpadearan al mismo tiempo cuando dieran una respuesta con un botón, ya que estos ensayos no se incluyeron en el análisis de datos.

Los sujetos vieron 28 bloques de ensayos en los que cada una de las 80 imágenes se presentó una vez de forma aleatoria intercalada con 20 ensayos de tarea (tarea de 1 vuelta) para un total de 100 ensayos por bloque. Los ensayos de la tarea fueron pseudo-aleatorios, de manera que cada una de las 80 imágenes se mostró adicionalmente siete veces como ensayo de la tarea para un total de 35 presentaciones. La presentación del estímulo se controló y las respuestas se recogieron utilizando Psychtoolbox 3 para Matlab51,52 . El experimento duró unos 70 minutos.

Registro y preprocesamiento de MEG

Los datos de MEG se recogieron utilizando un sistema Elekta Triux de 306 canales con una frecuencia de muestreo de 1000 Hz, y se filtraron en línea entre 0,01 y 330 Hz. La posición de la cabeza se rastreó durante el registro de MEG basándose en un conjunto de cinco bobinas indicadoras de la posición de la cabeza colocadas en puntos de referencia concretos de la cabeza. Se preprocesaron los datos sin procesar con el software Maxfilter (Elekta, Estocolmo) para eliminar el movimiento de la cabeza y eliminar el ruido de los datos mediante filtros espaciotemporales. A continuación, utilizamos Brainstorm (versión 3.453) para extraer los ensayos de -200 a 800 ms con respecto al inicio de la imagen. En Brainstorm, cada ensayo se corrigió mediante la eliminación de la activación media de cada sensor MEG entre -200 ms y el inicio del estímulo y se utilizó el análisis de componentes principales para eliminar los artefactos de parpadeo de los ojos que se detectaron automáticamente en los datos MEG del sensor frontal. Utilizamos un umbral de rechazo de pico a pico de 6000 fT para descartar los ensayos malos, importamos los ensayos restantes en Matlab (versión 2016a; The Mathworks, Natick, MA) y los suavizamos con un filtro de paso bajo de 30 Hz. Obsérvese que también realizamos un análisis de los datos sin filtrar que arrojó resultados muy similares (véase la nota complementaria 2). Para disminuir aún más el ruido y reducir los costes computacionales, para cada sujeto concatenamos los datos de cada sensor MEG a lo largo del tiempo y aplicamos el análisis de componentes principales a los datos del sensor MEG (manteniendo todos los componentes que explicaban el 99,99% de la varianza de los datos). Este paso redujo el conjunto de características de 306 sensores MEG a unos 70 componentes principales (PC) por sujeto y realizamos todos los análisis posteriores en este conjunto reducido. A continuación, se corrigió la línea base de cada ensayo eliminando la activación media entre -200 ms y el inicio del estímulo de cada PC. Estas puntuaciones de PC para cada ensayo y cada punto de tiempo se utilizaron para los análisis posteriores.

Análisis de patrones multivariados de MEG

Utilizamos el análisis de patrones multivariados para extraer información temporal sobre los estímulos faciales de los datos de MEG (Fig. 2). Para obtener una medida de similitud para cada par de estímulos, utilizamos la precisión de la clasificación por pares validada cruzadamente de las máquinas de vectores de soporte lineal (SVM; libsvm54). El análisis de clasificación se realizó por separado para cada sujeto de forma resuelta en el tiempo (es decir, independientemente para cada punto temporal). Un patrón en el análisis consistió en las puntuaciones de PC para un ensayo y una condición en un punto de tiempo dado. En el primer paso, sub-promediamos todos los ensayos de una condición asignando aleatoriamente cada ensayo a una de las cinco divisiones y promediando los ensayos en cada división (~5-7 ensayos por división cuando se consideran los ensayos malos). A continuación, dividimos los grupos en datos de entrenamiento y de prueba seleccionando aleatoriamente un grupo para las pruebas y los grupos restantes para el entrenamiento (es decir, una validación cruzada de cinco veces). A continuación, realizamos una clasificación binaria de las 3170 comparaciones por pares (es decir, 80 × 79/2 combinaciones) entre condiciones. Este procedimiento de clasificación se repitió 100 veces. La media de las precisiones de descodificación a lo largo de las repeticiones sirvió como valor en la matriz de descodificación de 80 × 80, denominada matriz de disimilitud representativa (RDM). Esta RDM es simétrica y la diagonal es indefinida. Todo el procedimiento dio como resultado una MEG RDM para cada sujeto y punto de tiempo.

Para obtener una medida de lo bien que se puede discriminar cada estímulo facial de todas las demás imágenes en la MEG (es decir, decodificación de la imagen), promediamos todas las precisiones de decodificación por pares en el triángulo inferior de cada RDM. Esto dio como resultado un valor de precisión de decodificación promedio por sujeto y punto de tiempo. El curso temporal de la decodificación de imágenes sirve además como punto de referencia del curso temporal del procesamiento de imágenes de bajo nivel en los datos MEG. Para investigar la persistencia de las respuestas neuronales a las imágenes de caras, ampliamos el procedimiento de decodificación SVM con un enfoque de generalización temporal16,55,56. Los detalles y resultados de este análisis se pueden encontrar en la Nota Suplementaria 4.

Análisis de similitud representacional

Para analizar la representación de las dimensiones de la cara en los datos MEG, utilizamos el análisis de similitud representacional (RSA). Creamos modelos RDM para cada dimensión facial que eran matrices binarias de 80 × 80 en las que 1 correspondía a una comparación de estímulos entre categorías (por ejemplo, hombre frente a mujer para el modelo de género) y 0 a una comparación de estímulos dentro de una categoría (por ejemplo, mujer frente a mujer). Este procedimiento dio lugar a cuatro modelos de caras correspondientes a las dimensiones de familiaridad, género, edad e identidad de nuestros estímulos. Para calcular las correlaciones entre cada modelo y los datos de MEG, extrajimos la diagonal inferior de cada una de estas matrices como vectores. Para cada modelo y sujeto, calculamos los coeficientes de rango parcial (correlación de Spearman) entre el modelo y el MEG RDM en cada punto de tiempo partiendo todos los demás modelos faciales. Este paso fue crucial porque algunos de los modelos están correlacionados (por ejemplo, entre las comparaciones de identidad comprendidas entre las comparaciones de género) y la partición de los otros modelos nos permitió separar las contribuciones de los modelos entre sí.

Para excluir aún más la contribución de las características de bajo nivel de nuestros estímulos a los resultados, adicionalmente se partió un modelo de características de bajo nivel. Este modelo de características de bajo nivel se calculó extrayendo características para cada uno de los 80 estímulos de la segunda capa convolucional de una red neuronal artificial profunda (CNN) entrenada con miles de identidades faciales (VGG-Face57). Utilizamos la correlación 1 – Pearson como medida de disimilitud entre las unidades de la CNN de cada par de estímulos, lo que dio lugar a un RDM de 80 × 80 basado en características de imagen de bajo nivel. También comparamos otros modelos de características de bajo nivel (por ejemplo, HMAX C258,59, Gist60, similitud basada en píxeles), que produjeron resultados similares; aquí informamos del modelo VGG-Face porque alcanzó la máxima correlación con los datos de MEG y, por lo tanto, explica la mayor cantidad de datos (según las características de bajo nivel).

Investigamos el efecto de la familiaridad en el procesamiento de rostros dividiendo el MEG y los RDMs del modelo en RDMs dentro de lo familiar y dentro de lo no familiar, respectivamente. Cada uno de estos RDMs era un RDM de 40 × 40 constituido sólo por imágenes de caras familiares o no familiares. A continuación, realizamos el mismo análisis que para el conjunto completo de estímulos (véase más arriba). Para comprobar aún más las diferencias entre el procesamiento de caras familiares y no familiares, restamos los cursos temporales de correlación para las caras no familiares de los cursos temporales obtenidos para las caras familiares para cada sujeto y comparamos estadísticamente estos cursos temporales de diferencia con cero (véase Inferencia estadística más adelante). Hay que tener en cuenta que, aunque intentamos seleccionar los diferentes conjuntos de imágenes de caras familiares y no familiares de la forma más objetiva posible, no podemos excluir totalmente que las diferencias entre los conjuntos de estímulos hayan contribuido a este análisis. Por lo tanto, realizamos un análisis adicional de VGG-Face, probando los efectos de familiaridad impulsados por el estímulo en una capa temprana y otra tardía de VGG-Face, sugiriendo que tales diferencias no podrían explicar directamente nuestros hallazgos (véase la Nota Suplementaria 1).

Además, es importante tener en cuenta que las series temporales de información categórica (por ejemplo, género) se construyeron correlacionando la matriz MEG RDM con modelos RMD que consisten en ceros correspondientes a comparaciones de estímulos dentro de una categoría (por ejemplo, femenino o masculino) y unos correspondientes a comparaciones de estímulos entre categorías. La correlación entre las MEG RDM y un modelo RDM (excluyendo todos los demás modelos) sirvió como medida de agrupación por pertenencia a una categoría. Un enfoque alternativo para calcular las series temporales de información categórica es entrenar directamente un clasificador para discriminar las categorías (por ejemplo, femenino versus masculino a través de la identidad) de los estímulos. Aunque este enfoque metodológico puede ser sensible a diferentes aspectos de la información de los estímulos categóricos en general, dio resultados consistentes en nuestros datos (véase la Nota Suplementaria 3).

Experimento de similitud conductual

Catorce de los 16 sujetos realizaron adicionalmente una tarea de ordenación múltiple conductual61 sobre los mismos estímulos en un día separado después del experimento MEG. Los sujetos realizaron el experimento de ordenación múltiple en línea utilizando su propio ordenador e iniciando sesión en una plataforma en línea para realizar experimentos conductuales (). Los sujetos tuvieron que introducir un código anónimo y personal que se les proporcionó por correo electrónico para iniciar el experimento. En el experimento, los 80 estímulos que el sujeto había visto previamente en el experimento se dispusieron como miniaturas alrededor de un círculo blanco en el centro de la pantalla. Los sujetos tenían que ordenar estas miniaturas en función de su similitud percibida («imágenes similares juntas, imágenes disímiles separadas», sin instrucciones explícitas sobre qué característica utilizar) arrastrándolas y soltándolas en el círculo. El experimento finalizaba automáticamente cuando se alcanzaba una relación señal/ruido suficiente (es decir, el peso de la evidencia se fijaba en 0,5). La duración media del experimento fue de unos 70 minutos. Una vez finalizado el experimento, se calcularon las distancias en pantalla al cuadrado entre las miniaturas dispuestas, lo que representaba un RDM conductual. Para cada sujeto, extrajimos los datos inferiores fuera de la diagonal del RDM conductual y correlacionamos este vector con los correspondientes RDM de MEG para cada punto de tiempo. Además, calculamos el techo de ruido de esta correlación para obtener una estimación del límite superior e inferior de la correlación, dada la variabilidad en el conjunto restringido de sujetos de este análisis. Calculamos el techo de ruido siguiendo un método descrito aquí62. Brevemente, estimamos el límite superior de la correlación como la correlación media de cada sujeto con la media del grupo. Como esta correlación incluye la correlación con el propio sujeto, representa una sobreestimación de la correlación media del verdadero modelo. En cambio, el límite inferior se calcula tomando la correlación media de cada sujeto con la media de todos los demás sujetos (excluyendo al propio sujeto). Esto subestima la correlación media del modelo verdadero debido al conjunto restringido de datos. En conjunto, el límite superior del ruido proporciona una estimación de la correlación máxima obtenible y es útil como referencia, en particular cuando se encuentran valores de correlación bajos pero significativos.

Además, para evaluar la contribución única de cada modelo a la varianza compartida entre MEG y RDM conductual, realizamos adicionalmente el análisis de comunalidad, un enfoque de partición de la varianza que estima la varianza compartida entre más de dos variables20,63. Brevemente, calculamos la varianza aportada de forma exclusiva por cada modelo facial (por ejemplo, el género) mediante el cálculo de dos coeficientes de correlación: En primer lugar, para cada sujeto, calculamos la correlación parcial entre los MEG y los RDM conductuales, partiendo todos los modelos (género, edad, identidad y modelo de características de bajo nivel). En segundo lugar, calculamos la correlación parcial entre el MEG RDM y el RDM conductual, partiendo todos los modelos faciales y el modelo de rasgos de bajo nivel, pero dejando fuera un modelo facial (por ejemplo, el género). La diferencia entre estos dos coeficientes de correlación parcial representa la varianza única aportada por ese modelo, denominada coeficiente de homogeneidad. Este paso se repitió para cada punto de tiempo de MEG, lo que dio como resultado un curso de tiempo de coeficiente de homogeneidad para cada modelo de cara.

Inferencia estadística

Para todos los análisis, utilizamos pruebas estadísticas no paramétricas que no se basan en suposiciones sobre las distribuciones de los datos64,65. Para la inferencia estadística de la precisión de la decodificación (decodificación de imágenes) o de las series temporales de correlación parcial (por ejemplo, correlación de modelos), realizamos una inferencia del tamaño de los clusters basada en permutaciones (es decir, un cluster se refiere a un conjunto de puntos temporales contiguos). La hipótesis nula correspondía a un nivel de azar del 50% para las precisiones de descodificación, y 0 para los valores de correlación o las diferencias de correlación. Los clusters temporales significativos se definieron como sigue. En primer lugar, permutamos las etiquetas de condición de los datos MEG multiplicando aleatoriamente las respuestas de los sujetos por + 1 o -1 (es decir, prueba de permutación de signos). Se repitió este procedimiento 1.000 veces, dando como resultado una distribución de permutación para cada punto de tiempo. En segundo lugar, los puntos temporales que superaban el percentil 95 de la distribución de permutación servían como puntos temporales inductores de clusters (es decir, equivalentes a p < 0,05; unilateral). Por último, los grupos en el tiempo se definieron como el percentil 95 del número máximo de puntos de tiempo contiguos y significativos a través de todas las permutaciones (es decir, equivalente a p < 0,05; unilateral).

Análisis de inicio y latencia máxima

Para probar las diferencias estadísticas en el inicio o las latencias máximas entre las diferentes dimensiones de la cara, se realizaron pruebas bootstrap. Realizamos un bootstrap de los cursos de tiempo específicos de cada sujeto (por ejemplo, medidos como precisión de decodificación, correlación parcial o coeficiente de homogeneidad) 1.000 veces para obtener una distribución empírica del inicio (es decir, el punto de tiempo mínimo significativo tras el inicio del estímulo) y de las latencias máximas (es decir, el valor máximo de correlación entre 80 y 180 ms tras el inicio del estímulo). Restringimos la ventana de tiempo para el análisis de picos a 180 ms después del inicio del estímulo, ya que estábamos interesados en el primer pico que se produce después del inicio del estímulo, sin confusión de picos posteriores (por ejemplo, debido a las respuestas de desplazamiento del estímulo66). El percentil 2,5 y el percentil 97,5 de estas distribuciones definieron el intervalo de confianza del 95% para la latencia de inicio y de pico, respectivamente. Para las diferencias entre latencias, calculamos 1000 muestras bootstrap de la diferencia entre dos latencias (por ejemplo, el inicio), lo que dio lugar a una distribución empírica de las diferencias de latencia. El número de diferencias que eran menores o mayores que cero dividido por el número de permutaciones definió el valor p (es decir, la prueba de dos lados). Estos valores p se corrigieron para las comparaciones múltiples utilizando la tasa de falsos descubrimientos (FDR) a un nivel de 0,05.

Articles

Deja una respuesta

Tu dirección de correo electrónico no será publicada.