Cum se desfășoară percepția fețelor în timp | Nature Communications

Participanți

Au participat la studiu 21 de voluntari sănătoși cu vedere normală sau corectată la normal. Cinci subiecți au fost excluși înainte de analiza datelor din cauza a cel puțin unul dintre următoarele criterii de excludere: mișcare excesivă în timpul înregistrării, performanțe comportamentale sub două deviații standard ale mediei sau înregistrări incomplete din cauza unor probleme tehnice. Datele de la 16 subiecți (opt femei; vârsta medie 25,9, SD = 4,33) au rămas pentru analiza MEG. Dimensiunea aleasă a eșantionului s-a bazat pe studii anterioare care au utilizat decodificarea multivariată a datelor EEG / MEG16,17,23. Paisprezece dintre acești 16 subiecți au participat în plus la un experiment de urmărire comportamentală online. Toți subiecții au oferit consimțământul informat și scris înainte de experiment. Comitetul pentru utilizarea oamenilor ca subiecți experimentali al Institutului de Tehnologie din Massachusetts (MIT) a aprobat protocolul experimental (COUHES nr. 1606622600), iar studiul a fost efectuat în conformitate cu toate reglementările etice relevante pentru lucrul cu participanții umani.

Design experimental și stimuli

Pentru a investiga dinamica temporală a procesării fețelor, subiecții au vizualizat imagini ale fețelor cu identități diferite în timp ce monitorizau repetițiile consecutive ale imaginilor identice (de ex, sarcina 1-back; Fig. 1a) în MEG. Am ales ca identități opt celebrități familiare (adică actori celebri din SUA) și opt necunoscute (adică actori germani), care au variat ortogonal în ceea ce privește sexul și vârsta, astfel încât jumătate erau de sex feminin și jumătate de sex masculin și jumătate dintre ele erau tinere (adică vârsta maximă era de 36 de ani) și jumătate erau bătrâne (adică vârsta minimă era de 59 de ani). Rețineți că aici, prin gen, ne referim la sexul unei fețe.

Pentru a ne asigura că toți subiecții erau, de fapt, familiarizați cu setul de identități familiare, subiecții au completat o sarcină de screening online înainte de studiu. În acest screening, le-am prezentat câte o imagine pentru fiecare dintre cele 16 identități (diferite de imaginile utilizate în studiul MEG) și i-am întrebat dacă erau familiarizați cu persoana prezentată. Au fost incluși în studiu doar subiecții care au recunoscut fiecare dintre cele opt identități familiare (de exemplu, dându-le numele sau contextele în care își aminteau de persoana respectivă).

Stimulii finali folosiți în studiul MEG au constat din cinci imagini în tonuri de gri ale fiecăreia dintre cele 16 identități pentru un total de 80 de stimuli. Pentru fiecare identitate, am selectat cinci imagini de pe internet care variau în mai multe aspecte, cum ar fi expresia (cel puțin două expresii faciale zâmbitoare și două neutre), privirea ochilor (una întoarsă spre stânga, una întoarsă spre dreapta, două priviri direcționate și o privire aliniată cu capul rotit), postura (una cu capul ușor rotit în lateral), fulgerele, părul, etc. Apoi, am standardizat toate imaginile la un șablon prin rotirea, scalarea și decuparea lor pe baza poziției vârfului nasului, a centrului gurii și a ambilor ochi și le-am salvat ca imagini la scară de gri.

În timpul experimentului MEG, subiecții au vizualizat încercări de imagini ale feței (Fig. 1a). Fiecare încercare a început cu prezentarea unei imagini a feței timp de 0,2 s, urmată de un interval interstimul de 0,8-1 s (ISI; eșantionat în mod uniform între 0,8 și 1 s) în timpul căruia a fost prezentat un ecran gri. Subiecții au fost instruiți să răspundă prin apăsarea unui buton la o repetare consecutivă a unei imagini identice în timpul prezentării imaginii sau în timpul ITI. Pentru a evita artefactele datorate mișcărilor oculare sau clipitului, subiecții au fost instruiți să fixeze o cruce de fixare neagră în centrul superior al ecranului în timpul prezentării imaginii (adică, prezentată între vârful nasului și ochii unei fețe) și ISI. Aceștia au fost rugați în continuare să clipească în același timp atunci când dădeau un răspuns la un buton, deoarece aceste încercări nu au fost incluse în analiza datelor.

Subiecții au vizionat 28 de blocuri de încercări în care fiecare dintre cele 80 de imagini a fost prezentată o singură dată, intercalată aleatoriu cu 20 de încercări de sarcină (sarcină de 1 back) pentru un total de 100 de încercări pe bloc. Încercările de sarcină au fost pseudo-aleatorizate astfel încât fiecare dintre cele 80 de imagini a fost prezentată suplimentar de șapte ori ca încercare de sarcină pentru un total de 35 de prezentări. Prezentarea stimulilor a fost controlată și răspunsurile au fost colectate utilizând Psychtoolbox 3 pentru Matlab51,52. Experimentul a durat aproximativ 70 min.

Înregistrarea și preprocesarea MEG

Datele MEG au fost colectate folosind un sistem Elekta Triux cu 306 canale, cu o rată de eșantionare de 1000 Hz, și au fost filtrate online între 0,01 și 330 Hz. Poziția capului a fost urmărită în timpul înregistrării MEG pe baza unui set de cinci bobine indicatoare ale poziției capului plasate pe anumite repere de pe cap. Am preprocesat datele brute cu software-ul Maxfilter (Elekta, Stockholm) pentru a elimina mișcarea capului și pentru a denatura datele folosind filtre spațiotemporale. Apoi am folosit Brainstorm (versiunea 3.453) pentru a extrage procesele de la -200 la 800 ms în raport cu debutul imaginii. În Brainstorm, fiecare proces a fost corectat în funcție de linia de bază prin eliminarea activării medii de la fiecare senzor MEG între -200 ms și debutul stimulului, iar analiza componentelor principale a fost utilizată pentru a elimina artefactele de clipire a ochilor, care au fost detectate automat din datele MEG ale senzorilor frontali. Am folosit un prag de respingere 6000 fT de la vârf la vârf pentru a elimina studiile rele, am importat studiile rămase în Matlab (versiunea 2016a; The Mathworks, Natick, MA) și le-am netezit cu un filtru low-pass 30 Hz. Rețineți că am efectuat, de asemenea, o analiză pe datele nefiltrate, care a dat rezultate foarte similare (a se vedea Nota suplimentară 2). Pentru a diminua și mai mult zgomotul și pentru a reduce costurile de calcul, pentru fiecare subiect am concatenat datele fiecărui senzor MEG în timp și am aplicat analiza componentelor principale la datele senzorilor MEG (păstrând toate componentele care au explicat 99,99% din variația datelor). Această etapă a redus setul de caracteristici de la 306 senzori MEG la aproximativ 70 de componente principale (PC-uri) pe subiect și am efectuat toate analizele ulterioare pe acest set redus. Am corectat apoi linia de bază a fiecărui proces prin eliminarea activării medii între -200 ms și debutul stimulului din fiecare PC. Aceste scoruri PC pentru fiecare proces și pentru fiecare punct de timp au fost folosite pentru analizele ulterioare.

Analiză multivariată a modelelor MEG

Am folosit analiza multivariată a modelelor pentru a extrage informații temporale despre stimulii feței din datele MEG (Fig. 2). Pentru a obține o măsură de similaritate pentru fiecare pereche de stimuli, am folosit precizia de clasificare pe perechi validată încrucișat a mașinilor vectoriale de suport liniar (SVM; libsvm54). Analiza de clasificare a fost efectuată separat pentru fiecare subiect într-o manieră rezolvată în timp (adică, independent pentru fiecare punct de timp). Un model în cadrul analizei a constat din scorurile PC pentru un proces și o condiție la un anumit punct de timp. În prima etapă, am sub-mediat toate încercările unei condiții prin atribuirea aleatorie a fiecărui proces la una dintre cele cinci diviziuni și prin medierea încercărilor din fiecare diviziune (~ 5-7 încercări pe diviziune atunci când se iau în considerare încercările rele). Apoi, am împărțit grupurile în date de instruire și de testare selectând în mod aleatoriu un grup pentru testare și grupurile rămase pentru instruire (adică validare încrucișată de cinci ori). Am efectuat apoi o clasificare binară a tuturor celor 3170 de comparații în perechi (adică 80 × 79/2 combinații) între condiții. Această procedură de clasificare a fost repetată de 100 de ori. Preciziile medii de decodare pe parcursul repetițiilor au servit drept valoare în matricea de decodare 80 × 80, denumită matrice de disimilaritate reprezentațională (RDM). Această RDM este simetrică, iar diagonala este nedefinită. Întreaga procedură a avut ca rezultat o RDM MEG pentru fiecare subiect și punct de timp.

Pentru a obține o măsură a modului în care fiecare stimul facial poate fi discriminat de toate celelalte imagini din MEG (adică decodarea imaginii), am calculat media tuturor preciziilor de decodare pe perechi în triunghiularul inferior al fiecărei RDM. Acest lucru a dus la o valoare medie a preciziei de decodare pentru fiecare subiect și punct de timp. Evoluția în timp a decodării imaginilor servește, de asemenea, ca punct de referință pentru evoluția în timp a procesării imaginilor la nivel scăzut în datele MEG. Pentru a investiga cât de persistente au fost răspunsurile neuronale la imaginile cu fețe, am extins în continuare procedura de decodare SVM cu o abordare de generalizare temporală16,55,56. Detaliile și rezultatele acestei analize pot fi găsite în Nota suplimentară 4.

Analiza similitudinii reprezentaționale

Pentru a analiza reprezentarea dimensiunilor feței în datele MEG, am folosit analiza similitudinii reprezentaționale (RSA). Am creat modele RDM pentru fiecare dimensiune a feței, care erau matrici binare 80 × 80 în care 1 corespundea unei comparații de stimuli între categorii (de exemplu, bărbat vs. femeie pentru modelul de gen) și 0 unei comparații de stimuli în interiorul categoriei (de exemplu, femeie vs. femeie). Această procedură a avut ca rezultat patru modele de fețe care corespund dimensiunilor familiaritate, gen, vârstă și identitate ale stimulilor noștri. Pentru a calcula corelațiile dintre fiecare model și datele MEG, am extras ca vectori valorile inferioare din fiecare dintre aceste matrici. Pentru fiecare model și subiect, am calculat coeficienții de rang parțial (corelația Spearman) între model și RDM MEG la fiecare punct de timp, eliminând parțial toate celelalte modele de fețe. Această etapă a fost crucială deoarece unele dintre modele sunt corelate (de exemplu, între comparațiile de identitate cuprinse între comparațiile de gen) și eliminarea parțială a celorlalte modele ne-a permis astfel să separăm contribuțiile modelelor unele de altele.

Pentru a exclude și mai mult contribuția caracteristicilor de nivel scăzut ale stimulilor noștri la rezultate, am eliminat suplimentar un model de caracteristici de nivel scăzut. Acest model de trăsături de nivel scăzut a fost calculat prin extragerea trăsăturilor pentru fiecare dintre cei 80 de stimuli din cel de-al doilea strat convoluțional al unei rețele neuronale artificiale (CNN) profunde, convoluționale, antrenate pe mii de identități de fețe (VGG-Face57). Am utilizat corelația 1 – Pearson ca măsură a disimilarității dintre unitățile CNN ale fiecărei perechi de stimuli, rezultând o RDM 80 × 80 bazată pe caracteristici de imagine de nivel scăzut. Rețineți că am comparat, de asemenea, alte modele de caracteristici de nivel scăzut (de exemplu, HMAX C258,59, Gist60, similaritate bazată pe pixeli), care au produs rezultate similare; raportăm aici modelul VGG-Face deoarece a atins corelația maximă cu datele MEG și, prin urmare, explică cele mai multe date (după cum reiese din caracteristicile de nivel scăzut).

Am investigat efectul familiarității asupra procesării fețelor prin împărțirea RDM-urilor MEG și a modelului în RDM-uri în cadrul familiar și, respectiv, în cadrul nefamiliar. Fiecare dintre aceste RDM-uri a fost un RDM 40 × 40 alcătuit numai din imagini de fețe familiare sau numai nefamiliare. Apoi am efectuat aceeași analiză ca și pentru setul complet de stimuli (a se vedea mai sus). Pentru a testa în continuare diferențele dintre procesarea fețelor familiare și necunoscute, am sustras cursurile de timp ale corelației pentru fețele necunoscute din cursurile de timp obținute pentru fețele familiare pentru fiecare subiect și am comparat statistic aceste cursuri de timp de diferență cu zero (a se vedea Inferența statistică de mai jos). Rețineți că, deși am încercat să selectăm diferitele seturi de imagini ale fețelor familiare și nefamiliare cât mai obiectiv posibil, nu putem exclude pe deplin faptul că diferențele dintre seturile de stimuli au contribuit la această analiză. Prin urmare, am efectuat o analiză suplimentară a VGG-Face, testând efectele de familiaritate determinate de stimuli într-un strat timpuriu și un strat târziu al VGG-Face, sugerând că astfel de diferențe nu ar putea explica în mod direct constatările noastre (a se vedea Nota suplimentară 1).

În plus, este important să rețineți că seriile temporale de informații categorice (de ex, sexul) au fost construite prin corelarea matricei MEG RDM cu modelul RMD care constă în zerouri care corespund în interiorul categoriei (de exemplu, femeie sau bărbat) și unu care corespunde comparațiilor de stimuli între categorii. Corelația dintre matricele MEG RDM și un model RDM (în timp ce se elimină toate celelalte modele) a servit ca măsură a grupării în funcție de apartenența la o categorie. O abordare alternativă pentru calcularea seriilor temporale de informații categoriale este de a antrena direct un clasificator pentru a discrimina categoriile (de exemplu, stimuli de sex feminin versus masculin între identități). În timp ce o astfel de abordare metodologică poate fi sensibilă la diferite aspecte ale informațiilor categorice ale stimulilor în general, aceasta a dat rezultate consistente în datele noastre (a se vedea Nota suplimentară 3).

Experiment de similaritate comportamentală

Cincisprezece dintre cei 16 subiecți au efectuat în plus o sarcină comportamentală de aranjare multiplă61 pe aceiași stimuli într-o zi separată după experimentul MEG. Subiecții au efectuat experimentul de aranjare multiplă online, folosind propriul computer și conectându-se la o platformă online pentru efectuarea experimentelor comportamentale (). Subiecții au trebuit să introducă un cod anonim, personal, care le-a fost furnizat prin e-mail pentru a începe experimentul. În cadrul experimentului, toți cei 80 de stimuli pe care subiectul i-a văzut anterior în cadrul experimentului au fost aranjați sub formă de miniaturi în jurul unui cerc alb în centrul ecranului. Subiecții au fost instruiți să aranjeze aceste miniaturi pe baza similitudinii lor percepute („imagini similare împreună, imagini disimilare separat”, fără instrucțiuni explicite cu privire la caracteristica pe care să o folosească) prin glisarea și plasarea lor în cerc. Experimentul s-a încheiat automat atunci când a fost atins un raport semnal/zgomot suficient (de exemplu, ponderea probelor a fost setată la 0,5). Durata medie a experimentului a fost de ~70 min. După finalizarea experimentului, s-au calculat distanțele pătratice pe ecran pe perechi la pătrat între miniaturi aranjate, reprezentând astfel un RDM comportamental. Pentru fiecare subiect, am extras datele off-diagonale inferioare din RDM-ul comportamental și am corelat acest vector cu RDM-urile MEG corespunzătoare pentru fiecare punct de timp. Am calculat în plus plafonul de zgomot pentru această corelație pentru a obține o estimare a limitei superioare și inferioare a corelației, având în vedere variabilitatea în setul restrâns de subiecți din această analiză. Am estimat plafonul de zgomot urmând o metodă descrisă aici62. Pe scurt, am estimat limita superioară a corelației ca fiind corelația medie a fiecărui subiect cu media grupului. Deoarece această corelație include corelația cu subiectul însuși, ea reprezintă o supraestimare a corelației medii a modelului adevărat. În schimb, limita inferioară este calculată prin luarea corelației medii a fiecărui subiect cu media tuturor celorlalți subiecți (cu excepția subiectului însuși). Aceasta subestimează corelația medie a modelului adevărat din cauza setului restrâns de date. Împreună, plafonul de zgomot oferă o estimare a corelației maxime care poate fi obținută și este utilă ca referință, în special atunci când se găsesc valori de corelație scăzute, dar semnificative.

În plus, pentru a evalua contribuția unică a fiecărui model la varianța partajată între MEG și RDM-urile comportamentale, am efectuat în plus o analiză a comunității, o abordare de partiționare a varianței care estimează varianța partajată între mai mult de două variabile20,63. Pe scurt, am calculat variația contribuită în mod unic de fiecare model de față (de exemplu, sexul) prin calcularea a doi coeficienți de corelație: În primul rând, pentru fiecare subiect, am calculat corelația parțială dintre MEG și RDM-urile comportamentale, în timp ce am eliminat parțial toate modelele (gen, vârstă, identitate și modelul de caracteristici de nivel scăzut). În al doilea rând, am calculat corelația parțială dintre RDM MEG și RDM comportamental, în timp ce am eliminat toate modelele de fețe și modelul de trăsături de nivel scăzut, dar am lăsat afară un model de față (de exemplu, sexul). Diferența dintre acești doi coeficienți de corelație parțială reprezintă variația unică la care contribuie modelul respectiv, denumită coeficient de comuniune. Acest pas a fost repetat pentru fiecare punct de timp MEG, rezultând o evoluție în timp a coeficientului de comunalitate pentru fiecare model de față.

Inferență statistică

Pentru toate analizele, am folosit teste statistice neparametrice care nu se bazează pe ipoteze privind distribuțiile datelor64,65. Pentru inferența statistică a preciziei de decodare (decodare a imaginii) sau a seriilor temporale de corelație parțială (de exemplu, corelația modelului), am efectuat inferența dimensiunii clusterului pe bază de permutare (adică un cluster se referă la un set de puncte temporale contigue). Ipoteza nulă a corespuns la un nivel de 50% de șansă pentru precizia decodării și la 0 pentru valorile de corelație sau diferențele de corelație. Clusterele temporale semnificative au fost definite după cum urmează. În primul rând, am permutat etichetele de stare ale datelor MEG prin înmulțirea aleatorie a răspunsurilor subiecților cu + 1 sau -1 (de exemplu, testul de permutare a semnelor). Am repetat această procedură de 1000 ori, rezultând o distribuție de permutare pentru fiecare punct temporal. În al doilea rând, punctele de timp care au depășit percentilul 95 al distribuției de permutare au servit ca puncte de timp care induc clustere (adică, echivalent cu p < 0,05; unilateral). În cele din urmă, clusterele în timp au fost definite ca fiind a 95-a percentila a numărului maxim de puncte de timp contigue și semnificative în toate permutările (adică, echivalent cu p < 0,05; unilateral).

Analiză a latențelor de debut și de vârf

Pentru a testa diferențele statistice în ceea ce privește debutul sau latențele de vârf între diferitele dimensiuni ale feței, am efectuat teste bootstrap. Am bootstrapat cursurile de timp specifice subiectului (de exemplu, măsurate ca acuratețe de decodare, corelație parțială sau coeficient de comunalitate) de 1000 de ori pentru a obține o distribuție empirică a debutului (adică punctul de timp minim semnificativ după debutul stimulului) și a latențelor de vârf (adică valoarea maximă a corelației între 80 și 180 ms după debutul stimulului). Am restrâns fereastra de timp pentru analiza vârfurilor la 180 ms după debutul stimulului, deoarece am fost interesați de primul vârf care apare după debutul stimulului, neconfundat de vârfurile ulterioare (de exemplu, din cauza răspunsurilor de compensare a stimulului66). Percentilul 2,5 și percentilul 97,5 al acestor distribuții au definit intervalul de încredere de 95% pentru debutul și, respectiv, latența de vârf. Pentru diferențele dintre latențe, am calculat 1000 de eșantioane bootstrap ale diferenței dintre două latențe (de exemplu, debutul), rezultând o distribuție empirică a diferențelor de latență. Numărul de diferențe care au fost mai mici sau mai mari decât zero împărțit la numărul de permutări a definit valoarea p (de exemplu, testarea cu două fețe). Aceste valori p au fost corectate pentru comparații multiple utilizând rata de descoperire falsă (FDR) la un nivel de 0,05.