Come la percezione dei volti si sviluppa nel tempo | Nature Communications

Partecipanti

Ventuno volontari sani con vista normale o corretta fino a normale hanno partecipato allo studio. Cinque soggetti sono stati esclusi prima dell’analisi dei dati a causa di almeno uno dei seguenti criteri di esclusione: movimento eccessivo durante la registrazione, prestazioni comportamentali inferiori a due deviazioni standard della media, o registrazioni incomplete a causa di problemi tecnici. I dati di 16 soggetti (otto donne; età media 25.9, SD = 4.33) sono rimasti per l’analisi MEG. La dimensione del campione scelto è stato basato su studi precedenti utilizzando la decodifica multivariata di EEG / MEG dati 16,17,23. Quattordici di questi 16 soggetti hanno inoltre partecipato a un esperimento di follow-up comportamentale online. Tutti i soggetti hanno fornito il consenso informato e scritto prima dell’esperimento. Il Massachusetts Institute of Technology (MIT) Comitato per l’uso di esseri umani come soggetti sperimentali ha approvato il protocollo sperimentale (COUHES No 1606622600) e lo studio è stato condotto in conformità con tutte le norme etiche pertinenti per il lavoro con i partecipanti umani.

Disegno sperimentale e stimoli

Per indagare le dinamiche temporali di elaborazione volto, i soggetti visualizzati immagini volto di identità diverse, mentre il monitoraggio per ripetizioni consecutive di immagini identiche (cioè, compito 1-back; Fig. 1a) nella MEG. Abbiamo scelto come identità otto celebrità familiari (cioè, attori famosi negli Stati Uniti) e otto non familiari (cioè, attori tedeschi), che variavano ortogonalmente per sesso ed età, in modo che metà erano donne e metà erano uomini e metà di loro erano giovani (cioè, l’età massima era 36 anni) e metà erano vecchi (cioè, l’età minima era 59 anni). Si noti che qui, per genere, ci si riferisce al sesso di una faccia.

Per assicurarsi che tutti i soggetti avessero effettivamente familiarità con il set di identità familiari, i soggetti hanno completato un compito di screening online prima dello studio. In questo screening, abbiamo presentato loro un’immagine per ciascuna delle 16 identità (diverse dalle immagini utilizzate nello studio MEG) e abbiamo chiesto se avessero familiarità con la persona mostrata. Solo i soggetti che hanno riconosciuto ciascuna delle otto identità familiari (ad esempio, dando i loro nomi o i contesti in cui ricordavano la persona) sono stati inclusi nello studio.

Gli stimoli finali utilizzati nello studio MEG consistevano in cinque immagini in scala di grigi di ciascuna delle 16 identità per un totale di 80 stimoli. Per ogni identità, abbiamo selezionato cinque immagini da internet che variavano in diversi aspetti come l’espressione (almeno due espressioni facciali sorridenti e due neutre), lo sguardo degli occhi (uno distolto a sinistra, uno distolto a destra, due sguardi diretti e uno sguardo allineato con la testa ruotata), la posa (uno con la testa leggermente ruotata di lato), i fulmini, i capelli, ecc. Abbiamo poi standardizzato tutte le immagini a un modello ruotandole, ridimensionandole e ritagliandole in base alla posizione della punta del naso, del centro della bocca e di entrambi gli occhi e le abbiamo salvate come immagini in scala di grigi.

Durante l’esperimento MEG, i soggetti hanno visualizzato prove di immagini del viso (Fig. 1a). Ogni prova è iniziata con la presentazione di un’immagine del viso per 0,2 s seguita da un intervallo interstimolo (ISI) di 0,8-1 s; uniformemente campionato tra 0,8 e 1 s) durante il quale è stato presentato uno schermo grigio. I soggetti sono stati istruiti a rispondere tramite la pressione di un pulsante a una ripetizione consecutiva di un’immagine identica durante la presentazione dell’immagine o durante l’ITI. Per evitare artefatti dovuti ai movimenti oculari o all’ammiccamento, i soggetti sono stati istruiti a fissare una croce di fissazione nera nel centro superiore dello schermo durante la presentazione dell’immagine (cioè, presentata tra la punta del naso e gli occhi di un volto) e l’ITI. È stato inoltre chiesto loro di sbattere le palpebre allo stesso tempo quando si dava una risposta con un pulsante, dato che queste prove non sono state incluse nell’analisi dei dati.

I soggetti hanno visto 28 blocchi di prove in cui ciascuna delle 80 immagini è stata presentata una volta in modo casuale intervallata da 20 prove di compito (compito 1-back) per un totale di 100 prove per blocco. Le prove del compito sono state pseudo-randomizzate in modo tale che ciascuna delle 80 immagini è stata inoltre mostrata sette volte come prova del compito per un totale di 35 presentazioni. La presentazione dello stimolo è stata controllata e le risposte raccolte usando Psychtoolbox 3 per Matlab51,52. L’esperimento è durato circa 70 min.

Registrazione MEG e pre-elaborazione

I dati MEG sono stati raccolti utilizzando un sistema Elekta Triux 306 canali con una frequenza di campionamento 1000 Hz, e sono stati filtrati online tra 0,01 e 330 Hz. La posizione della testa è stata tracciata durante la registrazione MEG sulla base di una serie di cinque bobine indicatore di posizione della testa posto su particolari punti di riferimento sulla testa. Abbiamo preprocessato i dati grezzi con il software Maxfilter (Elekta, Stoccolma) per rimuovere il movimento della testa e per denoise i dati utilizzando filtri spazio-temporali. Abbiamo poi usato Brainstorm (versione 3.453) per estrarre le prove da -200 a 800 ms rispetto all’inizio dell’immagine. In Brainstorm, ogni prova è stata corretta dalla linea di base rimuovendo l’attivazione media da ogni sensore MEG tra -200 ms e l’inizio dello stimolo e l’analisi delle componenti principali è stata utilizzata per rimuovere gli artefatti di battito di ciglia che sono stati automaticamente rilevati dai dati MEG del sensore frontale. Abbiamo usato una soglia di rigetto da picco a picco di 6000 fT per scartare le prove sbagliate, abbiamo importato le prove rimanenti in Matlab (versione 2016a; The Mathworks, Natick, MA) e le abbiamo smussate con un filtro passa-basso di 30 Hz. Si noti che abbiamo anche eseguito un’analisi sui dati non filtrati che ha dato risultati molto simili (vedi nota supplementare 2). Per diminuire ulteriormente il rumore e per ridurre i costi di calcolo, per ogni soggetto abbiamo concatenato i dati di ogni sensore MEG nel tempo e applicato l’analisi delle componenti principali ai dati del sensore MEG (mantenendo tutte le componenti che ha spiegato 99.99% della varianza nei dati). Questo passo ha ridotto l’insieme delle caratteristiche da 306 sensori MEG a circa 70 componenti principali (PC) per soggetto e abbiamo condotto tutte le ulteriori analisi su questo insieme ridotto. Abbiamo poi corretto ogni prova rimuovendo l’attivazione media tra -200 ms e l’inizio dello stimolo da ogni PC. Questi punteggi PC per ogni prova e ogni punto di tempo sono stati utilizzati per le analisi successive.

Analisi multivariata dei pattern MEG

Abbiamo usato l’analisi multivariata dei pattern per estrarre informazioni temporali sugli stimoli del viso dai dati MEG (Fig. 2). Per ottenere una misura di somiglianza per ogni coppia di stimoli, abbiamo usato l’accuratezza di classificazione cross-validata a coppie di macchine vettoriali di supporto lineare (SVM; libsvm54). Analisi di classificazione è stata eseguita separatamente per ogni soggetto in un tempo risolto modo (cioè, indipendentemente per ogni punto di tempo). Un modello nell’analisi consisteva nei punteggi PC per una prova e una condizione in un dato punto temporale. Nella prima fase, abbiamo fatto una sub-media di tutte le prove di una condizione assegnando casualmente ogni prova a una delle cinque suddivisioni e facendo la media delle prove in ogni suddivisione (~ 5-7 prove per suddivisione se si considerano le prove negative). Abbiamo poi diviso i gruppi in dati di allenamento e di test selezionando casualmente un gruppo per il test e i gruppi rimanenti per l’allenamento (cioè, cinque volte la convalida incrociata). Abbiamo poi condotto una classificazione binaria di tutti i 3170 confronti a coppie (cioè, 80 × 79/2 combinazioni) tra le condizioni. Questa procedura di classificazione è stata ripetuta 100 volte. La media delle accuratezze di decodifica sulle ripetizioni è servita come valore nella matrice di decodifica 80 × 80, denominata matrice di dissimilarità rappresentazionale (RDM). Questa RDM è simmetrica e la diagonale è indefinita. L’intera procedura ha prodotto una RDM MEG per ogni soggetto e punto di tempo.

Per ottenere una misura di quanto bene ogni stimolo faccia può essere discriminato da tutte le altre immagini nel MEG (cioè, la decodifica dell’immagine), abbiamo fatto la media di tutte le accuratezze di decodifica a coppie nel triangolare inferiore di ogni RDM. Questo ha portato a un valore medio di precisione di decodifica per soggetto e punto di tempo. Il corso del tempo della decodifica delle immagini serve anche come punto di riferimento del corso del tempo dell’elaborazione delle immagini di basso livello nei dati MEG. Per indagare come persistenti risposte neurali erano alle immagini del viso, abbiamo ulteriormente esteso la procedura di decodifica SVM con un approccio di generalizzazione temporale 16,55,56. Dettagli e risultati di questa analisi possono essere trovati nella nota supplementare 4.

Analisi della somiglianza rappresentazionale

Per analizzare la rappresentazione delle dimensioni del viso nei dati MEG, abbiamo usato l’analisi della somiglianza rappresentazionale (RSA). Abbiamo creato modelli RDM per ogni dimensione del viso che erano matrici binarie 80 × 80 dove 1 corrispondeva a un confronto tra stimoli di categoria (ad esempio, maschio contro femmina per il modello di genere) e 0 a un confronto tra stimoli di categoria (ad esempio, femmina contro femmina). Questa procedura ha portato a quattro modelli di faccia corrispondenti alle dimensioni di familiarità, genere, età e identità dei nostri stimoli. Per calcolare le correlazioni tra ogni modello e i dati MEG, abbiamo estratto le diagonali inferiori di ciascuna di queste matrici come vettori. Per ogni modello e soggetto, abbiamo calcolato i coefficienti di rango parziale (correlazione di Spearman) tra il modello e la RDM MEG ad ogni punto di tempo parzializzando tutti gli altri modelli di volti. Questo passo è stato cruciale perché alcuni dei modelli sono correlati (ad esempio, tra i confronti di identità compresi tra i confronti di genere) e parzializzando gli altri modelli ci ha permesso di distinguere i contributi dei modelli l’uno dall’altro.

Per escludere ulteriormente il contributo delle caratteristiche di basso livello dei nostri stimoli ai risultati, abbiamo ulteriormente parzializzato un modello di caratteristiche di basso livello. Questo modello di caratteristiche di basso livello è stato calcolato estraendo le caratteristiche per ciascuno degli 80 stimoli dal secondo strato convoluzionario di una rete neurale artificiale profonda e convoluzionale (CNN) addestrata su migliaia di identità di volti (VGG-Face57). Abbiamo usato la correlazione 1 – Pearson come misura della dissimilarità tra le unità CNN di ogni coppia di stimoli, ottenendo un RDM 80 × 80 basato su caratteristiche di immagine di basso livello. Si noti che abbiamo anche confrontato altri modelli di caratteristiche di basso livello (ad esempio, HMAX C258,59, Gist60, similarità basata sui pixel), che hanno prodotto risultati simili; riportiamo qui il modello VGG-Face perché ha raggiunto la massima correlazione con i dati MEG e quindi spiega la maggior parte dei dati (come spiegabile da caratteristiche di basso livello).

Abbiamo studiato l’effetto della familiarità sull’elaborazione del volto dividendo il MEG e il modello RDMs in all’interno familiare e all’interno RDMs non familiare, rispettivamente. Ciascuna di queste RDM era una RDM 40 × 40 costituita solo da immagini di volti familiari o non familiari. Abbiamo quindi eseguito la stessa analisi come per il set completo di stimoli (vedi sopra). Per testare ulteriormente le differenze tra l’elaborazione dei volti familiari e non familiari, abbiamo sottratto i corsi di tempo della correlazione per i volti non familiari dai corsi di tempo ottenuti per i volti familiari per ogni soggetto e abbiamo confrontato statisticamente questi corsi di tempo di differenza a zero (vedi Inferenza statistica di seguito). Si noti che mentre abbiamo cercato di selezionare i diversi set di immagini di volti familiari e non familiari nel modo più oggettivo possibile, non possiamo escludere completamente che le differenze tra i set di stimoli abbiano contribuito a questa analisi. Abbiamo quindi eseguito un’ulteriore analisi di VGG-Face, testando per gli effetti di familiarità stimolo-driven in un primo e un tardo strato di VGG-Face, suggerendo che tali differenze non potrebbe spiegare direttamente i nostri risultati (vedi nota supplementare 1).

Inoltre, è importante notare che le serie temporali di informazioni categoriche (ad esempio, genere) sono state costruite correlando la matrice MEG RDM con RMD modello costituito da zeri corrispondenti a all’interno della categoria (ad esempio, femminile o maschile) e uno corrispondente a tra-categoria confronti stimolo. La correlazione tra il MEG RDMs e un modello RDM (mentre la parzializzazione di tutti gli altri modelli) è servita come misura di clustering per appartenenza alla categoria. Un approccio alternativo al calcolo di serie temporali di informazioni categoriche è quello di addestrare direttamente un classificatore per discriminare le categorie (ad esempio, femminile contro maschile attraverso l’identità) stimoli. Mentre un tale approccio metodologico può essere sensibile a diversi aspetti delle informazioni stimolo categorico in generale, ha dato risultati coerenti nei nostri dati (vedi nota supplementare 3).

Esperimento di somiglianza comportamentale

Quattordici dei 16 soggetti inoltre eseguito un comportamento multi-arrangement compito61 sugli stessi stimoli in un giorno separato dopo l’esperimento MEG. I soggetti hanno eseguito l’esperimento di multi-arrangiamento online usando il proprio computer e accedendo a una piattaforma online per l’esecuzione di esperimenti comportamentali. I soggetti hanno dovuto inserire un codice anonimo e personale che è stato fornito loro via e-mail per iniziare l’esperimento. Nell’esperimento, tutti gli 80 stimoli che il soggetto aveva precedentemente visto nell’esperimento erano disposti come miniature intorno a un cerchio bianco al centro dello schermo. I soggetti sono stati istruiti a disporre queste miniature in base alla loro somiglianza percepita (“immagini simili insieme, immagini dissimili a parte”, senza istruzioni esplicite su quale caratteristica utilizzare) trascinandole e rilasciandole nel cerchio. L’esperimento terminava automaticamente quando veniva raggiunto un rapporto segnale/rumore sufficiente (cioè, il peso delle prove era impostato su 0,5). La durata media dell’esperimento è stata di ~70 min. Dopo il completamento dell’esperimento, sono state calcolate le distanze quadrate a coppie sullo schermo tra le miniature disposte, rappresentando così un RDM comportamentale. Per ogni soggetto, abbiamo estratto i dati inferiori fuori diagonale dalla RDM comportamentale e correlato questo vettore con le corrispondenti RDM MEG per ogni punto temporale. Abbiamo inoltre calcolato il tetto di rumore per questa correlazione per ottenere una stima per il limite superiore e inferiore della correlazione data la variabilità attraverso il set limitato di soggetti in questa analisi. Abbiamo stimato il tetto di rumore seguendo un metodo descritto qui62. Brevemente, abbiamo stimato il limite superiore della correlazione come la correlazione media di ogni soggetto con la media del gruppo. Poiché questa correlazione include la correlazione con il soggetto stesso, rappresenta una sovrastima della vera correlazione media del modello. Al contrario, il limite inferiore è calcolato prendendo la correlazione media di ogni soggetto con la media di tutti gli altri soggetti (escluso il soggetto stesso). Questo sottostima la correlazione media del vero modello a causa di una serie limitata di dati. Insieme, il tetto di rumore fornisce una stima della massima correlazione ottenibile ed è utile come riferimento, in particolare quando si trovano valori di correlazione bassi ma significativi.

Inoltre, per valutare il contributo unico di ogni modello alla varianza condivisa tra MEG e comportamentale RDMs, abbiamo inoltre eseguito analisi di comunanza, un approccio di partizionamento della varianza che stima la varianza condivisa tra più di due variabili20,63. In breve, abbiamo calcolato la varianza che ha contribuito in modo univoco da ogni modello di volto (ad esempio, il genere) calcolando due coefficienti di correlazione: In primo luogo, per ogni soggetto, abbiamo calcolato la correlazione parziale tra MEG e RDM comportamentale, mentre parzializzava tutti i modelli (genere, età, identità e modello di caratteristiche di basso livello). In secondo luogo, abbiamo calcolato la correlazione parziale tra la RDM MEG e la RDM comportamentale, mentre parzializzava tutti i modelli del viso e il modello delle caratteristiche di basso livello, ma lasciando fuori un modello del viso (ad esempio, il genere). La differenza tra questi due coefficienti di correlazione parziale rappresenta l’unica varianza apportata da quel modello denominato coefficiente di comunanza. Questo passo è stato ripetuto per ogni punto di tempo MEG risultante in un corso di tempo coefficiente di comunanza per ogni modello di faccia.

Inferenza statistica

Per tutte le analisi, abbiamo usato test statistici non parametrici che non si basano su ipotesi sulle distribuzioni dei dati64,65. Per inferenza statistica della precisione di decodifica (decodifica dell’immagine) o correlazione parziale (ad esempio, correlazione modello) serie temporali, abbiamo eseguito permutazione basato cluster-size inferenza (cioè, un cluster si riferisce a un insieme di punti di tempo contigui). L’ipotesi nulla corrispondeva al livello di probabilità del 50% per le accuratezze di decodifica, e 0 per i valori di correlazione o le differenze di correlazione. I cluster temporali significativi sono stati definiti come segue. In primo luogo, abbiamo permutato le etichette di condizione dei dati MEG moltiplicando casualmente le risposte dei soggetti per + 1 o -1 (cioè, test di permutazione del segno). Abbiamo ripetuto questa procedura 1000 volte ottenendo una distribuzione di permutazione per ogni punto temporale. In secondo luogo, i punti di tempo che hanno superato il 95 ° percentile della distribuzione di permutazione servito come cluster-indurre punti di tempo (cioè, equivalente a p < 0.05; unilaterale). Infine, i cluster nel tempo sono stati definiti come il 95° percentile del numero massimo di punti di tempo contigui e significativi attraverso tutte le permutazioni (cioè, equivalente a p < 0,05; unilaterale).

Analisi di insorgenza e latenza di picco

Per verificare le differenze statistiche in insorgenza o latenze di picco tra diverse dimensioni del viso, abbiamo eseguito test bootstrap. Abbiamo fatto il bootstrap dei corsi di tempo specifici del soggetto (ad esempio, misurati come precisione di decodifica, correlazione parziale o coefficiente di comunanza) 1000 volte per ottenere una distribuzione empirica dell’insorgenza (cioè il punto temporale minimo significativo dopo l’insorgenza dello stimolo) e delle latenze di picco (cioè il valore massimo di correlazione tra 80 e 180 ms dopo l’insorgenza dello stimolo). Abbiamo ristretto la finestra temporale per l’analisi del picco a 180 ms dopo l’inizio dello stimolo, poiché eravamo interessati al primo picco che si verifica dopo l’inizio dello stimolo, non influenzato da picchi successivi (ad esempio, a causa di risposte di offset dello stimolo66). Il 2.5th e il 97.5th percentile di queste distribuzioni definito l’intervallo di confidenza del 95% per l’inizio e la latenza di picco, rispettivamente. Per le differenze tra le latenze, abbiamo calcolato 1000 campioni bootstrap della differenza tra due latenze (ad esempio, l’inizio) con conseguente distribuzione empirica delle differenze di latenza. Il numero di differenze che erano più piccole o più grandi di zero diviso per il numero di permutazioni ha definito il valore p (cioè, test a due lati). Questi p-valori sono stati corretti per i confronti multipli usando il tasso di falsa scoperta (FDR) a un livello di 0,05.