Participants
Vingt et un volontaires sains avec une vision normale ou corrigée à la normale ont participé à l’étude. Cinq sujets ont été exclus avant l’analyse des données en raison d’au moins un des critères d’exclusion suivants : mouvement excessif pendant l’enregistrement, performance comportementale inférieure à deux écarts types de la moyenne ou enregistrements incomplets en raison de problèmes techniques. Les données de 16 sujets (huit femmes ; âge moyen 25,9 ans, écart-type = 4,33) ont été conservées pour l’analyse MEG. La taille de l’échantillon choisi était basée sur des études antérieures utilisant le décodage multivarié des données EEG/MEG16,17,23. Quatorze de ces 16 sujets ont en outre participé à une expérience de suivi comportemental en ligne. Tous les sujets ont donné leur consentement éclairé et écrit avant l’expérience. Le comité du Massachusetts Institute of Technology (MIT) sur l’utilisation des humains comme sujets expérimentaux a approuvé le protocole expérimental (COUHES n° 1606622600) et l’étude a été menée conformément à toutes les réglementations éthiques pertinentes pour le travail avec des participants humains.
Dispositif expérimental et stimuli
Pour étudier la dynamique temporelle du traitement des visages, les sujets ont visionné des images de visages de différentes identités tout en surveillant les répétitions consécutives d’images identiques (c’est-à-dire, tâche 1-back ; Fig. 1a) dans le MEG. Nous avons choisi comme identités huit célébrités familières (c’est-à-dire des acteurs célèbres aux États-Unis) et huit non familières (c’est-à-dire des acteurs allemands), dont le sexe et l’âge variaient de façon orthogonale, de sorte que la moitié était des femmes et l’autre moitié des hommes, et que la moitié était jeune (c’est-à-dire que l’âge maximum était de 36 ans) et l’autre moitié était âgée (c’est-à-dire que l’âge minimum était de 59 ans). Notez qu’ici, par genre, nous faisons référence au sexe d’un visage.
Pour s’assurer que tous les sujets connaissaient effectivement l’ensemble des identités familières, les sujets ont effectué une tâche de dépistage en ligne avant l’étude. Lors de ce dépistage, nous leur avons présenté une image pour chacune des 16 identités (différentes des images utilisées dans l’étude MEG) et leur avons demandé s’ils étaient familiers avec la personne représentée. Seuls les sujets qui reconnaissaient chacune des huit identités familières (par exemple, en donnant leur nom ou les contextes dans lesquels ils se souvenaient de la personne) ont été inclus dans l’étude.
Les stimuli finaux utilisés dans l’étude MEG consistaient en cinq images en échelle de gris de chacune des 16 identités pour un total de 80 stimuli. Pour chaque identité, nous avons sélectionné cinq images sur Internet qui variaient sur plusieurs aspects tels que l’expression (au moins deux expressions faciales souriantes et deux neutres), le regard (un regard détourné vers la gauche, un regard détourné vers la droite, deux regards dirigés et un regard aligné avec la tête tournée), la pose (un avec la tête légèrement tournée sur le côté), l’éclairage, les cheveux, etc. Nous avons ensuite normalisé toutes les images par rapport à un modèle en les faisant pivoter, en les mettant à l’échelle et en les recadrant en fonction de la position de la pointe du nez, du centre de la bouche et des deux yeux, puis nous les avons enregistrées en tant qu’images à échelle de gris.
Pendant l’expérience MEG, les sujets ont visionné des essais d’images de visages (figure 1a). Chaque essai commençait par la présentation d’une image de visage pendant 0,2 s, suivie d’un intervalle interstimulus (ISI ; échantillonné uniformément entre 0,8 et 1 s) de 0,8-1 s pendant lequel un écran gris était présenté. Les sujets avaient pour instruction d’appuyer sur un bouton pour répondre à la répétition consécutive d’une image identique pendant la présentation de l’image ou pendant l’ITI. Pour éviter les artefacts dus aux mouvements oculaires ou au clignement des yeux, les sujets devaient fixer une croix de fixation noire dans le centre supérieur de l’écran pendant la présentation de l’image (c’est-à-dire entre le bout du nez et les yeux d’un visage) et l’ISI. Il leur était en outre demandé de cligner des yeux au même moment lorsqu’ils donnaient une réponse par bouton, ces essais n’ayant pas été inclus dans l’analyse des données.
Les sujets ont visionné 28 blocs d’essais dans lesquels chacune des 80 images était présentée une fois de manière aléatoire, entrecoupée de 20 essais de tâche (tâche 1-back) pour un total de 100 essais par bloc. Les essais de tâche étaient pseudo-randomisés de telle sorte que chacune des 80 images était en outre présentée sept fois comme essai de tâche, pour un total de 35 présentations. La présentation du stimulus a été contrôlée et les réponses recueillies à l’aide de Psychtoolbox 3 pour Matlab51,52. L’expérience a duré environ 70 min.
Enregistrement MEG et prétraitement
Les données MEG ont été recueillies à l’aide d’un système Elekta Triux à 306 canaux avec un taux d’échantillonnage de 1000 Hz, et ont été filtrées en ligne entre 0,01 et 330 Hz. La position de la tête a été suivie pendant l’enregistrement MEG sur la base d’un ensemble de cinq bobines indicatrices de la position de la tête placées sur des points de repère particuliers sur la tête. Nous avons prétraité les données brutes avec le logiciel Maxfilter (Elekta, Stockholm) afin de supprimer les mouvements de la tête et de débruiter les données à l’aide de filtres spatio-temporels. Nous avons ensuite utilisé Brainstorm (version 3.453) pour extraire les essais de -200 à 800 ms par rapport à l’apparition de l’image. Dans Brainstorm, chaque essai a été corrigé par rapport à la ligne de base en supprimant l’activation moyenne de chaque capteur MEG entre -200 ms et le début du stimulus, et une analyse en composantes principales a été utilisée pour supprimer les artefacts de clignement des yeux qui ont été automatiquement détectés à partir des données MEG du capteur frontal. Nous avons utilisé un seuil de rejet pic à pic de 6000 fT pour écarter les mauvais essais, importé les essais restants dans Matlab (version 2016a ; The Mathworks, Natick, MA) et les avons lissés avec un filtre passe-bas de 30 Hz. Notez que nous avons également effectué une analyse sur les données non filtrées qui a donné des résultats très similaires (voir la note supplémentaire 2). Afin de diminuer encore le bruit et de réduire les coûts de calcul, nous avons concaténé pour chaque sujet les données de chaque capteur MEG au fil du temps et appliqué une analyse en composantes principales aux données des capteurs MEG (en conservant toutes les composantes qui expliquaient 99,99 % de la variance des données). Cette étape a permis de réduire l’ensemble des caractéristiques des 306 capteurs MEG à environ 70 composantes principales (CP) par sujet et nous avons effectué toutes les analyses ultérieures sur cet ensemble réduit. Nous avons ensuite corrigé chaque essai en supprimant l’activation moyenne entre -200 ms et le début du stimulus de chaque PC. Ces scores PC pour chaque essai et chaque point temporel ont été utilisés pour les analyses ultérieures.
Analyse de motifs multivariés MEG
Nous avons utilisé l’analyse de motifs multivariés pour extraire des informations temporelles sur les stimuli du visage à partir des données MEG (figure 2). Pour obtenir une mesure de similarité pour chaque paire de stimuli, nous avons utilisé la précision de classification par paire validée par croisement des machines à vecteurs de support linéaires (SVM ; libsvm54). L’analyse de la classification a été effectuée séparément pour chaque sujet de manière résolue dans le temps (c’est-à-dire indépendamment pour chaque point temporel). Un modèle dans l’analyse consistait en des scores PC pour un essai et une condition à un point temporel donné. Dans un premier temps, nous avons sous-moyenné tous les essais d’une condition en assignant aléatoirement chaque essai à l’une des cinq divisions et en faisant la moyenne des essais de chaque division (~5-7 essais par division en tenant compte des mauvais essais). Nous avons ensuite divisé les groupes en données de formation et de test en sélectionnant aléatoirement un groupe pour le test et les autres groupes pour la formation (c’est-à-dire une validation croisée cinq fois). Nous avons ensuite procédé à une classification binaire des 3170 comparaisons par paires (c’est-à-dire 80 × 79/2 combinaisons) entre les conditions. Cette procédure de classification a été répétée 100 fois. Les précisions moyennes de décodage au cours des répétitions ont servi de valeur dans la matrice de décodage 80 × 80, appelée matrice de dissimilarité représentationnelle (RDM). Cette RDM est symétrique et la diagonale est indéfinie. L’ensemble de la procédure a donné lieu à une RDM MEG pour chaque sujet et point de temps.
Pour obtenir une mesure de la façon dont chaque stimulus de visage peut être discriminé de toutes les autres images dans le MEG (c’est-à-dire le décodage de l’image), nous avons fait la moyenne de toutes les précisions de décodage par paire dans le triangle inférieur de chaque RDM. Nous avons ainsi obtenu une valeur moyenne de précision de décodage par sujet et par point de temps. L’évolution dans le temps du décodage de l’image sert également de référence pour l’évolution dans le temps du traitement de bas niveau de l’image dans les données MEG. Pour étudier la persistance des réponses neuronales aux images de visage, nous avons étendu la procédure de décodage SVM avec une approche de généralisation temporelle16,55,56. Les détails et les résultats de cette analyse peuvent être trouvés dans la note supplémentaire 4.
Analyse de similarité représentationnelle
Pour analyser la représentation des dimensions du visage dans les données MEG, nous avons utilisé l’analyse de similarité représentationnelle (RSA). Nous avons créé des modèles RDM pour chaque dimension de visage qui étaient des matrices binaires 80 × 80 où 1 correspondait à une comparaison de stimulus entre catégories (par exemple, homme vs femme pour le modèle de genre) et 0 à une comparaison de stimulus à l’intérieur de la catégorie (par exemple, femme vs femme). Cette procédure a permis d’obtenir quatre modèles de visage correspondant aux dimensions de familiarité, de sexe, d’âge et d’identité de nos stimuli. Pour calculer les corrélations entre chaque modèle et les données MEG, nous avons extrait la diagonale inférieure de chacune de ces matrices sous forme de vecteurs. Pour chaque modèle et chaque sujet, nous avons calculé les coefficients de rang partiel (corrélation de Spearman) entre le modèle et le MEG RDM à chaque point de temps en éliminant tous les autres modèles de visage. Cette étape était cruciale car certains des modèles sont corrélés (par exemple, entre les comparaisons d’identité comprises entre les comparaisons de sexe) et l’élimination partielle des autres modèles nous a donc permis de démêler les contributions des modèles les unes des autres.
Pour exclure davantage la contribution des caractéristiques de bas niveau de nos stimuli aux résultats, nous avons en outre éliminé partiellement un modèle de caractéristiques de bas niveau. Ce modèle de caractéristiques de bas niveau a été calculé en extrayant les caractéristiques de chacun des 80 stimuli de la deuxième couche convolutive d’un réseau neuronal artificiel convolutif profond (CNN) entraîné sur des milliers d’identités de visage (VGG-Face57). Nous avons utilisé la corrélation 1 – Pearson comme mesure de la dissimilarité entre les unités CNN de chaque paire de stimuli, ce qui donne un RDM 80 × 80 basé sur des caractéristiques d’image de bas niveau. Notez que nous avons également comparé d’autres modèles de caractéristiques de bas niveau (par exemple, HMAX C258,59, Gist60, similarité basée sur les pixels), qui ont produit des résultats similaires ; nous rapportons ici le modèle VGG-Face parce qu’il a atteint la corrélation maximale avec les données MEG et explique donc le plus de données (comme comptabilisable par les caractéristiques de bas niveau).
Nous avons étudié l’effet de la familiarité sur le traitement des visages en divisant les RDM MEG et modèle en RDM au sein de familier et au sein de non familier, respectivement. Chacun de ces RDM était un RDM 40 × 40 constitué uniquement d’images de visages familiers ou uniquement d’images de visages non familiers. Nous avons ensuite effectué la même analyse que pour l’ensemble des stimuli (voir ci-dessus). Afin de tester davantage les différences entre le traitement des visages familiers et non familiers, nous avons soustrait les cours temporels de la corrélation pour les visages non familiers des cours temporels obtenus pour les visages familiers pour chaque sujet et nous avons comparé statistiquement ces cours temporels de différence à zéro (voir inférence statistique ci-dessous). Notez que, bien que nous ayons essayé de sélectionner les différents ensembles d’images de visages familiers et non familiers aussi objectivement que possible, nous ne pouvons pas totalement exclure que les différences entre les ensembles de stimuli aient contribué à cette analyse. Nous avons donc effectué une analyse supplémentaire de VGG-Face, en testant les effets de familiarité induits par le stimulus dans une couche précoce et une couche tardive de VGG-Face, ce qui suggère que de telles différences ne pourraient pas expliquer directement nos résultats (voir la note supplémentaire 1).
De plus, il est important de noter que les séries temporelles d’informations catégoriques (par ex, sexe) ont été construites en corrélant la matrice RDM MEG avec des RMD modèles constitués de zéros correspondant à des comparaisons de stimulus au sein de la catégorie (par exemple, femme ou homme) et de uns correspondant à des comparaisons de stimulus entre catégories. La corrélation entre les RDM MEG et un modèle RDM (tout en éliminant partiellement tous les autres modèles) a servi de mesure du regroupement par appartenance à une catégorie. Une autre approche pour calculer les séries temporelles d’informations catégorielles consiste à entraîner directement un classificateur pour discriminer les catégories (par exemple, femme contre homme à travers l’identité) de stimuli. Bien qu’une telle approche méthodologique puisse être sensible à différents aspects de l’information catégorielle des stimuli en général, elle a donné des résultats cohérents dans nos données (voir note supplémentaire 3).
Expérience de similarité comportementale
Quatorze des 16 sujets ont en outre effectué une tâche comportementale de multi-arrangement61 sur les mêmes stimuli un jour distinct après l’expérience MEG. Les sujets ont réalisé l’expérience de multi-arrangement en ligne en utilisant leur propre ordinateur et en se connectant à une plateforme en ligne pour réaliser des expériences comportementales (). Les sujets ont dû entrer un code personnel anonyme qui leur a été fourni par courriel pour commencer l’expérience. Dans l’expérience, les 80 stimuli que le sujet avait déjà vus dans l’expérience étaient disposés sous forme de vignettes autour d’un cercle blanc au centre de l’écran. Les sujets devaient organiser ces vignettes en fonction de leur similarité perçue (« images similaires ensemble, images dissemblables à part », sans instructions explicites sur la caractéristique à utiliser) en les faisant glisser et en les déposant dans le cercle. L’expérience se terminait automatiquement lorsqu’un rapport signal/bruit suffisant était atteint (c’est-à-dire que le poids des preuves était fixé à 0,5). La durée moyenne de l’expérience était d’environ 70 minutes. Une fois l’expérience terminée, nous avons calculé le carré des distances à l’écran par paire entre les vignettes disposées, ce qui représente un RDM comportemental. Pour chaque sujet, nous avons extrait les données hors diagonale inférieure du RDM comportemental et corrélé ce vecteur avec les RDM MEG correspondants pour chaque point temporel. Nous avons également calculé le plafond de bruit pour cette corrélation afin d’obtenir une estimation des limites supérieure et inférieure de la corrélation étant donné la variabilité de l’ensemble restreint de sujets dans cette analyse. Nous avons estimé le plafond de bruit en suivant une méthode décrite ici62. En bref, nous avons estimé la limite supérieure de la corrélation comme étant la corrélation moyenne de chaque sujet avec la moyenne du groupe. Comme cette corrélation inclut la corrélation avec le sujet lui-même, elle représente une surestimation de la corrélation moyenne du vrai modèle. En revanche, la limite inférieure est calculée en prenant la corrélation moyenne de chaque sujet avec la moyenne de tous les autres sujets (à l’exclusion du sujet lui-même). Cela sous-estime la corrélation moyenne du vrai modèle en raison de l’ensemble restreint de données. Ensemble, le plafond de bruit fournit une estimation de la corrélation maximale pouvant être obtenue et est utile comme référence, en particulier lorsque des valeurs de corrélation faibles mais significatives sont trouvées.
En outre, pour évaluer la contribution unique de chaque modèle à la variance partagée entre les RDM MEG et comportementaux, nous avons également effectué une analyse de communalité, une approche de partitionnement de la variance qui estime la variance partagée entre plus de deux variables20,63. En bref, nous avons calculé la variance apportée uniquement par chaque modèle de visage (par exemple, le sexe) en calculant deux coefficients de corrélation : Premièrement, pour chaque sujet, nous avons calculé la corrélation partielle entre les RDM MEG et comportementaux, en éliminant tous les modèles (sexe, âge, identité et modèle de caractéristiques de bas niveau). Deuxièmement, nous avons calculé la corrélation partielle entre le MEG RDM et le RDM comportemental en éliminant tous les modèles de visage et le modèle de caractéristiques de bas niveau, mais en laissant de côté un modèle de visage (par exemple, le sexe). La différence entre ces deux coefficients de corrélation partielle représente la variance unique apportée par ce modèle, appelée coefficient de communalité. Cette étape a été répétée pour chaque point de temps MEG résultant en un cours de temps de coefficient de commonalité pour chaque modèle de visage.
Inférence statistique
Pour toutes les analyses, nous avons utilisé des tests statistiques non paramétriques qui ne reposent pas sur des hypothèses sur les distributions des données64,65. Pour l’inférence statistique des séries chronologiques de précision de décodage (décodage d’image) ou de corrélation partielle (par exemple, corrélation de modèle), nous avons effectué une inférence de taille de cluster basée sur la permutation (c’est-à-dire qu’un cluster fait référence à un ensemble de points temporels contigus). L’hypothèse nulle correspondait à un niveau de chance de 50 % pour les précisions de décodage, et à 0 pour les valeurs de corrélation ou les différences de corrélation. Les clusters temporels significatifs ont été définis comme suit. Tout d’abord, nous avons permuté les étiquettes de condition des données MEG en multipliant de manière aléatoire les réponses des sujets par + 1 ou -1 (c’est-à-dire le test de permutation des signes). Nous avons répété cette procédure 1000 fois pour obtenir une distribution de permutation pour chaque point temporel. Ensuite, les points temporels qui dépassaient le 95e percentile de la distribution de permutation ont servi de points temporels induisant des clusters (c’est-à-dire équivalents à p < 0,05 ; unilatéral). Enfin, les grappes dans le temps ont été définies comme le 95e percentile du nombre maximal de points de temps contigus et significatifs dans toutes les permutations (c’est-à-dire équivalant à p < 0,05 ; unilatéral).
Analyse du début et de la latence de pointe
Pour tester les différences statistiques dans les latences de début ou de pointe entre les différentes dimensions du visage, nous avons effectué des tests bootstrap. Nous avons bootstrappé les parcours temporels spécifiques aux sujets (par exemple, mesurés en termes de précision de décodage, de corrélation partielle ou de coefficient de communalité) 1000 fois pour obtenir une distribution empirique du début (c’est-à-dire le point de temps significatif minimum après le début du stimulus) et des latences de pointe (c’est-à-dire la valeur de corrélation maximale entre 80 et 180 ms après le début du stimulus). Nous avons limité la fenêtre temporelle pour l’analyse des pics à 180 ms après le début du stimulus, car nous nous intéressions au premier pic survenant après le début du stimulus, sans tenir compte des pics ultérieurs (par exemple, en raison des réponses de décalage du stimulus66). Le 2,5ème et le 97,5ème percentile de ces distributions ont défini l’intervalle de confiance à 95% pour la latence du début et du pic, respectivement. Pour les différences entre les latences, nous avons calculé 1000 échantillons bootstrap de la différence entre deux latences (par exemple, le début), ce qui a donné une distribution empirique des différences de latence. Le nombre de différences inférieures ou supérieures à zéro divisé par le nombre de permutations a défini la valeur p (c’est-à-dire un test bilatéral). Ces valeurs p ont été corrigées pour les comparaisons multiples en utilisant le taux de fausse découverte (FDR) à un niveau de 0,05.