Deltagare

Tjugoen friska frivilliga med normal eller korrigerad syn deltog i studien. Fem försökspersoner uteslöts före dataanalysen på grund av minst ett av följande uteslutningskriterier: överdriven rörelse under inspelningen, beteendeprestanda under två standardavvikelser av medelvärdet eller ofullständiga inspelningar på grund av tekniska problem. Data från 16 försökspersoner (åtta kvinnor; medelålder 25,9 år, SD = 4,33) återstod för MEG-analysen. Den valda provstorleken baserades på tidigare studier där man använt sig av multivariat avkodning av EEG/MEG-data16,17,23. Fjorton av dessa 16 försökspersoner deltog dessutom i ett beteendeuppföljningsexperiment online. Alla försökspersoner gav informerat, skriftligt samtycke före experimentet. Massachusetts Institute of Technology (MIT) Committee on the Use of Humans as Experimental Subjects godkände experimentprotokollet (COUHES No 1606622600) och studien genomfördes i enlighet med alla relevanta etiska regler för arbete med mänskliga deltagare.

Experimentell utformning och stimuli

För att undersöka den temporala dynamiken i ansiktsbearbetningen tittade försökspersonerna på ansiktsbilder av olika identiteter samtidigt som de övervakade på på varandra följande upprepningar av identiska bilder (dvs, 1-back-uppgift; fig. 1a) i MEG. Vi valde åtta bekanta (dvs. kända skådespelare i USA) och åtta okända (dvs. tyska skådespelare) kändisar som identiteter, som varierade ortogonalt i kön och ålder, så att hälften var kvinnor och hälften var män och hälften av dem var unga (dvs. högsta ålder var 36 år) och hälften var gamla (dvs. lägsta ålder var 59 år). Observera att vi här med kön avser könet på ett ansikte.

För att säkerställa att alla försökspersoner faktiskt var bekanta med uppsättningen bekanta identiteter genomförde försökspersonerna en screeninguppgift online före studien. I denna screening presenterade vi dem en bild för var och en av de 16 identiteterna (olika från de bilder som användes i MEG-studien) och frågade om de var bekanta med den person som visades. Endast försökspersoner som kände igen var och en av de åtta bekanta identiteterna (t.ex. genom att ange deras namn eller sammanhang där de mindes personen) ingick i studien.

De slutliga stimuli som användes i MEG-studien bestod av fem bilder i gråskala av var och en av de 16 identiteterna för totalt 80 stimuli. För varje identitet valde vi ut fem bilder från internet som varierade i flera aspekter såsom uttryck (minst två leende och två neutrala ansiktsuttryck), ögonblick (en vänt till vänster, en vänt till höger, två riktade blickar och en blick som är riktad med roterat huvud), pose (en med huvudet lätt roterat åt sidan), blixt, hår osv. Vi standardiserade sedan alla bilder till en mall genom att rotera, skala och beskära dem baserat på placeringen av näsans spets, munnens centrum och båda ögonen och sparade dem som bilder i gråskala.

Under MEG-experimentet tittade försökspersonerna på försök med ansiktsbilder (fig. 1a). Varje försök inleddes med presentation av en ansiktsbild i 0,2 s följt av ett 0,8-1 s interstimulusintervall (ISI; enhetligt samplat mellan 0,8 och 1 s) under vilket en grå skärm presenterades. Försökspersonerna instruerades att reagera genom att trycka på en knapp när en identisk bild upprepades i följd under bildpresentationen eller under ITI. För att undvika artefakter på grund av ögonrörelser eller blinkningar instruerades försökspersonerna att fixera ett svart fixeringskors i övre mitten av skärmen under bildpresentationen (dvs. presenterat mellan näsans spets och ögonen i ett ansikte) och ISI. De ombads vidare att blinka samtidigt när de gav ett knapprespons, eftersom dessa försök inte ingick i dataanalysen.

Proverna tittade på 28 block av försök där var och en av de 80 bilderna presenterades en gång slumpmässigt interfolierad med 20 uppgiftsförsök (1-back-uppgift) för totalt 100 försök per block. Uppgiftsförsöken var pseudo-slumpmässigt fördelade så att var och en av de 80 bilderna dessutom visades sju gånger som uppgiftsförsök för totalt 35 presentationer. Stimuluspresentationen kontrollerades och svaren samlades in med hjälp av Psychtoolbox 3 för Matlab51,52. Experimentet varade cirka 70 minuter.

MEG-inspelning och förbehandling

MEG-data samlades in med hjälp av ett 306-kanals Elekta Triux-system med en samplingsfrekvens på 1 000 Hz och filtrerades online mellan 0,01 och 330 Hz. Huvudets position spårades under MEG-inspelningen baserat på en uppsättning av fem huvudpositionsindikatorspolar som placerades på särskilda landmärken på huvudet. Vi förbearbetade rådata med programvaran Maxfilter (Elekta, Stockholm) för att avlägsna huvudrörelser och för att avtrubba data med hjälp av spatiotemporala filter. Vi använde sedan Brainstorm (version 3.453) för att extrahera försök från -200 till 800 ms med avseende på bildstart. I Brainstorm baslinjekorrigerades varje försök genom att ta bort den genomsnittliga aktiveringen från varje MEG-sensor mellan -200 ms och stimulusstart och huvudkomponentanalys användes för att ta bort artefakter från ögonblinkningar som upptäcktes automatiskt från MEG-data från frontala sensorer. Vi använde en tröskel för avstötning från topp till topp på 6 000 fT för att avlägsna dåliga försök, importerade de återstående försöken i Matlab (version 2016a; The Mathworks, Natick, MA) och jämnade ut dem med ett lågpassfilter på 30 Hz. Observera att vi också utförde en analys på de ofiltrerade uppgifterna som gav mycket liknande resultat (se kompletterande anmärkning 2). För att ytterligare minska bruset och för att minska beräkningskostnaderna sammanfogade vi för varje försöksperson data från varje MEG-sensor över tiden och tillämpade huvudkomponentanalys på MEG-sensordata (vi behöll alla komponenter som förklarade 99,99 % av variansen i data). Detta steg reducerade uppsättningen funktioner från 306 MEG-sensorer till cirka 70 huvudkomponenter (PC) per försöksperson och vi utförde alla ytterligare analyser på denna reducerade uppsättning. Vi baslinjekorrigerade sedan varje försök genom att ta bort den genomsnittliga aktiveringen mellan -200 ms och stimulusstart från varje PC. Dessa PC-poäng för varje försök och varje tidpunkt användes för de efterföljande analyserna.

MEG multivariat mönsteranalys

Vi använde multivariat mönsteranalys för att extrahera temporal information om ansiktsstimuli från MEG-data (fig. 2). För att få fram ett likhetsmått för varje stimulipar använde vi korsvaliderad parvis klassificeringsnoggrannhet för linjära stödvektormaskiner (SVM; libsvm54). Klassificeringsanalysen utfördes separat för varje försöksperson på ett tidsupplöst sätt (dvs. oberoende av varandra för varje tidpunkt). Ett mönster i analysen bestod av PC-poängen för ett försök och ett tillstånd vid en viss tidpunkt. I det första steget delmönstrade vi alla försök i ett tillstånd genom att slumpmässigt tilldela varje försök till en av fem uppdelningar och göra ett medelvärde av försöken i varje uppdelning (~5-7 försök per uppdelning om man beaktar dåliga försök). Vi delade sedan upp grupperna i tränings- och testdata genom att slumpmässigt välja en grupp för testning och de återstående grupperna för träning (dvs. femfaldig korsvalidering). Vi genomförde sedan en binär klassificering av alla 3170 parvisa jämförelser (dvs. 80 × 79/2 kombinationer) mellan olika tillstånd. Detta klassificeringsförfarande upprepades 100 gånger. Den genomsnittliga avkodningsnoggrannheten under upprepningarna tjänade som värde i 80 × 80 avkodningsmatrisen, kallad representational dissimilarity matrix (RDM). Denna RDM är symmetrisk och diagonalen är odefinierad. Hela förfarandet resulterade i en MEG RDM för varje försöksperson och tidpunkt.

För att få ett mått på hur väl varje ansiktsstimulans kan särskiljas från alla andra bilder i MEG (dvs. bildavkodning), medelvärdesbestämde vi alla parvisa avkodningsnoggrannheter i den nedre triangeln av varje RDM. Detta resulterade i ett genomsnittligt värde för avkodningsnoggrannhet per försöksperson och tidpunkt. Tidsförloppet för bildavkodning tjänar dessutom som riktmärke för tidsförloppet för bildbehandling på låg nivå i MEG-data. För att undersöka hur ihållande de neurala reaktionerna var på ansiktsbilder utökade vi SVM-avkodningsproceduren ytterligare med en temporal generaliseringsmetod16,55,56. Detaljer och resultat av denna analys finns i den kompletterande noten 4.

Representational similarity analysis

För att analysera representationen av ansiktsdimensioner i MEG-data använde vi representational similarity analysis (RSA). Vi skapade modell-RDM:er för varje ansiktsdimension som var 80 × 80 binära matriser där 1 motsvarade en stimulusjämförelse mellan kategorier (t.ex. man mot kvinna för könsmodellen) och 0 en stimulusjämförelse inom kategorier (t.ex. kvinna mot kvinna). Detta förfarande resulterade i fyra ansiktsmodeller som motsvarade förtrogenhets-, köns-, ålders- och identitetsdimensionerna i våra stimuli. För att beräkna korrelationer mellan varje modell och MEG-data extraherade vi den nedre off-diagonalen i var och en av dessa matriser som vektorer. För varje modell och försöksperson beräknade vi de partiella rangkoefficienterna (Spearmankorrelation) mellan modellen och MEG RDM vid varje tidpunkt genom att partiellt utesluta alla andra ansiktsmodeller. Detta steg var avgörande eftersom vissa av modellerna är korrelerade (t.ex. mellan identitetsjämförelser som ingår mellan könsjämförelser) och genom att partiellt utesluta de andra modellerna kunde vi således särskilja modellernas bidrag från varandra.

För att ytterligare utesluta bidraget till resultaten från egenskaper på låg nivå i våra stimuli, partiellt uteslutade vi dessutom en modell med egenskaper på låg nivå. Denna modell för funktioner på låg nivå beräknades genom att extrahera funktioner för vart och ett av de 80 stimuli från det andra konvolutionella lagret i ett djupt, konvolutionellt artificiellt neuralt nätverk (CNN) som tränats på tusentals ansiktsidentiteter (VGG-Face57). Vi använde 1 – Pearsons korrelation som ett mått på olikheten mellan CNN-enheterna för varje stimulipar, vilket resulterade i ett 80 × 80 RDM baserat på bildfunktioner på låg nivå. Observera att vi också jämförde andra modeller av lågnivåfunktioner (t.ex. HMAX C258,59, Gist60, pixelbaserad likhet), som gav liknande resultat; vi rapporterar här VGG-Face-modellen eftersom den uppnådde den maximala korrelationen med MEG-data och därmed förklarar flest data (enligt redovisning av lågnivåfunktioner).

Vi undersökte effekten av förtrogenhet på ansiktsbearbetning genom att dela MEG- och modell-RDM:erna i RDM:er inom förtrogna respektive inom obekanta. Var och en av dessa RDMs var en 40 × 40 RDM som utgjordes av endast bekanta eller endast obekanta ansiktsbilder. Vi utförde sedan samma analys som för den fullständiga uppsättningen av stimuli (se ovan). För att ytterligare testa skillnader mellan bearbetning av bekanta och okända ansikten subtraherade vi tidsförloppen för korrelation för okända ansikten från de tidsförlopp som erhållits för bekanta ansikten för varje försöksperson och jämförde statistiskt dessa differenstidsförlopp med noll (se Statistisk inferens nedan). Observera att även om vi försökte välja de olika uppsättningarna av bekanta och obekanta ansiktsbilder så objektivt som möjligt kan vi inte helt utesluta att skillnader mellan uppsättningarna av stimuli bidrog till denna analys. Vi utförde därför en ytterligare analys av VGG-Face och testade för stimulusdrivna förtrogenhetseffekter i ett tidigt och ett sent skikt av VGG-Face, vilket tyder på att sådana skillnader inte direkt kunde förklara våra resultat (se kompletterande anmärkning 1).

Det är vidare viktigt att notera att tidsserier med kategorisk information (t.ex, kön) konstruerades genom att korrelera MEG RDM-matrisen med modell RMD:er som består av nollor som motsvarar inom kategorin (t.ex. kvinna eller man) och ettor som motsvarar stimulusjämförelser mellan kategorier. Korrelationen mellan MEG RDM:erna och en modell RDM (samtidigt som alla andra modeller utelämnas) fungerade som ett mått på klusterbildning efter kategoritillhörighet. Ett alternativt tillvägagångssätt för att beräkna tidsserier med kategorisk information är att direkt träna en klassificerare för att särskilja kategorier (t.ex. kvinnlig kontra manlig över identitetsgränserna) av stimuli. Även om ett sådant metodologiskt tillvägagångssätt kan vara känsligt för olika aspekter av kategorisk stimulusinformation i allmänhet, gav det konsekventa resultat i våra data (se kompletterande anmärkning 3).

Behavioral similarity experiment

Fjärton av de 16 försökspersonerna utförde dessutom en beteendemässig multiarrangemangsuppgift61 på samma stimuli på en separat dag efter MEG-experimentet. Försökspersonerna utförde multiarrangemangsexperimentet online med hjälp av sin egen dator och genom att logga in på en onlineplattform för att utföra beteendeexperiment (). Försökspersonerna var tvungna att ange en anonym, personlig kod som de fick via e-post för att starta experimentet. I experimentet arrangerades alla 80 stimuli som försökspersonen tidigare hade sett i experimentet som miniatyrbilder runt en vit cirkel i mitten av skärmen. Försökspersonerna instruerades att ordna dessa miniatyrbilder utifrån deras upplevda likhet (”liknande bilder tillsammans, olikartade bilder isär”, utan explicita instruktioner om vilken funktion som skulle användas) genom att dra och släppa dem i cirkeln. Experimentet avslutades automatiskt när ett tillräckligt förhållande mellan signal och brus uppnåddes (dvs. bevisvikten sattes till 0,5). Experimentet varade i genomsnitt ~70 minuter. Efter experimentets avslutande beräknades de parvisa kvadrerade avstånden på skärmen mellan de arrangerade miniatyrbilderna, vilket alltså representerar en beteendemässig RDM. För varje försöksperson extraherade vi de nedre off-diagonala uppgifterna från den beteendemässiga RDM:en och korrelerade denna vektor med motsvarande MEG RDM:er för varje tidpunkt. Vi beräknade dessutom brustaket för denna korrelation för att få en uppskattning av den övre och nedre gränsen för korrelationen med tanke på variabiliteten i den begränsade uppsättningen av försökspersoner i denna analys. Vi uppskattade brustaket enligt en metod som beskrivs här62. Kortfattat uppskattade vi den övre gränsen för korrelationen som den genomsnittliga korrelationen för varje försöksperson med gruppens medelvärde. Eftersom denna korrelation inkluderar korrelationen med själva ämnet utgör den en överskattning av den sanna modellens genomsnittliga korrelation. Den nedre gränsen beräknas däremot genom att man tar varje försökspersons genomsnittliga korrelation med genomsnittet för alla andra försökspersoner (exklusive försökspersonen själv). Detta underskattar den sanna modellens genomsnittliga korrelation på grund av den begränsade datamängden. Tillsammans ger brusgränsen en uppskattning av den maximalt uppnåeliga korrelationen och är användbar som referens, särskilt när låga men signifikanta korrelationsvärden hittas.

För att bedöma varje modells unika bidrag till den delade variansen mellan MEG och beteendemässiga RDM:er utförde vi dessutom en gemensamhetsanalys, en metod för varianspartitionering som uppskattar den delade variansen mellan mer än två variabler20,63. I korthet beräknade vi variansen som varje ansiktsmodell (t.ex. kön) bidrog med genom att beräkna två korrelationskoefficienter: För det första beräknade vi för varje försöksperson den partiella korrelationen mellan MEG och beteendemässiga RDM:er, samtidigt som vi tog bort alla modeller (kön, ålder, identitet och lågnivåfunktioner). För det andra beräknade vi den partiella korrelationen mellan MEG RDM och beteendemässig RDM samtidigt som vi partiellt uteslöt alla ansiktsmodeller och modellen med egenskaper på låg nivå men uteslöt en ansiktsmodell (t.ex. kön). Skillnaden mellan dessa två partiella korrelationskoefficienter representerar den unika varians som den modellen bidrar med och som kallas gemensamhetskoefficient. Detta steg upprepades för varje MEG-tidpunkt vilket resulterade i ett tidsförlopp med commonalitykoefficient för varje ansiktsmodell.

Statistisk inferens

För alla analyser använde vi icke-parametriska statistiska tester som inte bygger på antaganden om fördelningarna av data64,65. För statistisk inferens av avkodningsnoggrannhet (bildavkodning) eller tidsserier med partiell korrelation (t.ex. modellkorrelation) utförde vi permutationsbaserad inferens av klusterstorlek (dvs. ett kluster hänvisar till en uppsättning sammanhängande tidpunkter). Nollhypotesen motsvarade 50 % chansnivå för avkodningsnoggrannhet och 0 för korrelationsvärden eller korrelationsskillnader. Signifikanta temporala kluster definierades enligt följande. Först permuterade vi tillståndsetiketterna för MEG-data genom att slumpmässigt multiplicera försökspersonernas svar med + 1 eller -1 (dvs. teckenpermutationstest). Vi upprepade denna procedur 1000 gånger vilket resulterade i en permutationsfördelning för varje tidpunkt. För det andra fungerade tidpunkter som översteg den 95:e percentilen i permutationsfördelningen som klusterinducerande tidpunkter (dvs. motsvarande p < 0,05; ensidig). Slutligen definierades kluster i tid som den 95:e percentilen av det maximala antalet sammanhängande, signifikanta tidpunkter över alla permutationer (dvs. motsvarande p < 0,05; ensidigt).

Analys av start- och topplatenslatens

För att testa om det fanns statistiska skillnader i start- eller topplatenslatens mellan olika ansiktsdimensioner utförde vi bootstrap-tester. Vi bootstrappade de ämnesspecifika tidsförloppen (t.ex. mätt som avkodningsnoggrannhet, partiell korrelation eller gemensamhetskoefficient) 1000 gånger för att få en empirisk fördelning av debut (dvs. minsta signifikanta tidpunkt efter stimulusstart) och topplatenser (dvs. maximalt korrelationsvärde mellan 80 och 180 ms efter stimulusstart). Vi begränsade tidsfönstret för toppanalysen till 180 ms efter stimulusstart, eftersom vi var intresserade av den första topp som uppstod efter stimulusstart, utan att påverkas av senare toppar (t.ex. på grund av stimulusförskjutningsreaktioner66). Den 2,5:e och den 97,5:e percentilen av dessa fördelningar definierade det 95-procentiga konfidensintervallet för start- respektive topplatens. För skillnader mellan latenser beräknade vi 1 000 bootstrapprov av skillnaden mellan två latenser (t.ex. början), vilket resulterade i en empirisk fördelning av latensskillnader. Antalet skillnader som var mindre eller större än noll dividerat med antalet permutationer definierade p-värdet (dvs. tvåsidig testning). Dessa p-värden korrigerades för multipla jämförelser med hjälp av FDR (false discovery rate) på en 0,05-nivå.

Articles

Lämna ett svar

Din e-postadress kommer inte publiceras.