Jak se vyvíjí vnímání tváří v čase | Nature Communications

Účastníci

Studie se zúčastnilo 21 zdravých dobrovolníků s normálním nebo korigovaným až normálním zrakem. Pět subjektů bylo před analýzou dat vyloučeno z důvodu alespoň jednoho z následujících vylučovacích kritérií: nadměrný pohyb během záznamu, behaviorální výkon pod dvěma směrodatnými odchylkami od průměru nebo neúplné záznamy z důvodu technických problémů. Pro analýzu MEG zůstala data od 16 subjektů (8 žen; průměrný věk 25,9 let, SD = 4,33). Zvolená velikost vzorku vycházela z předchozích studií využívajících vícerozměrné dekódování EEG/MEG dat16,17,23 . Čtrnáct z těchto 16 subjektů se navíc zúčastnilo online behaviorálního následného experimentu. Všechny subjekty poskytly před experimentem informovaný písemný souhlas. Výbor Massachusettského technologického institutu (MIT) pro využívání lidí jako pokusných subjektů schválil experimentální protokol (COUHES č. 1606622600) a studie byla provedena v souladu se všemi příslušnými etickými předpisy pro práci s lidskými účastníky.

Experimentální design a podněty

Pro zkoumání časové dynamiky zpracování obličejů si subjekty prohlížely obrazy obličejů různých identit a zároveň sledovaly po sobě jdoucí opakování stejných obrazů (tj, 1-back task; obr. 1a) v MEG. Jako identity jsme zvolili osm známých (tj. slavných herců v USA) a osm neznámých (tj. německých herců) osobností, které se ortogonálně lišily pohlavím a věkem, takže polovina z nich byly ženy a polovina muži a polovina z nich byla mladá (tj. maximální věk byl 36 let) a polovina stará (tj. minimální věk byl 59 let). Všimněte si, že pohlavím zde označujeme pohlaví tváře.

Aby bylo zajištěno, že všechny subjekty skutečně znají sadu známých identit, absolvovaly subjekty před zahájením studie online screeningový úkol. Při tomto screeningu jsme jim předložili jeden obrázek pro každou ze 16 identit (odlišný od obrázků použitých ve studii MEG) a zeptali se jich, zda zobrazenou osobu znají. Do studie byly zařazeny pouze subjekty, které poznaly každou z osmi známých identit (např. uvedením jména nebo kontextu, v němž si danou osobu pamatovaly).

Finální podněty použité ve studii MEG se skládaly z pěti obrázků v šedé škále každé z 16 identit, celkem 80 podnětů. Pro každou identitu jsme z internetu vybrali pět obrázků, které se lišily v několika aspektech, jako je výraz (nejméně dva usměvavé a dva neutrální výrazy obličeje), pohled očí (jeden odvrácený doleva, jeden odvrácený doprava, dva směrované pohledy a jeden pohled vyrovnaný s natočenou hlavou), póza (jeden s hlavou mírně natočenou do strany), osvětlení, vlasy atd. Poté jsme všechny obrázky standardizovali podle šablony tak, že jsme je otočili, zmenšili a ořízli na základě polohy špičky nosu, středu úst a obou očí a uložili je jako obrázky ve stupních šedi.

Během experimentu MEG si subjekty prohlížely pokusy s obrázky obličeje (obr. 1a). Každý pokus začínal prezentací obrazu obličeje po dobu 0,2 s, po níž následoval 0,8-1 s interstimulační interval (ISI; rovnoměrně vzorkovaný mezi 0,8 a 1 s), během kterého byla prezentována šedá obrazovka. Subjekty byly instruovány, aby reagovaly stisknutím tlačítka na postupné opakování identického obrázku během prezentace obrázku nebo během ITI. Aby se zabránilo artefaktům způsobeným pohyby očí nebo mrkáním, byly subjekty instruovány, aby během prezentace obrázku (tj. prezentovaného mezi špičkou nosu a očima obličeje) a ISI fixovaly černý fixační kříž v horním středu obrazovky. Dále byli požádáni, aby mrkali současně s reakcí na tlačítko, protože tyto pokusy nebyly zahrnuty do analýzy dat.

Subjekty si prohlédly 28 bloků pokusů, ve kterých byl každý z 80 obrázků prezentován jednou náhodně proložený 20 pokusy s úkoly (úkol 1-back), celkem 100 pokusů na blok. Úkolové pokusy byly pseudonáhodně rozděleny tak, že každý z 80 obrázků byl navíc zobrazen sedmkrát jako úkolový pokus, celkem tedy 35 prezentací. Prezentace podnětů byla řízena a odpovědi shromažďovány pomocí programu Psychtoolbox 3 pro Matlab51,52. Experiment trval přibližně 70 min.

Záznam a předzpracování MEG

MEG data byla shromažďována pomocí 306kanálového systému Elekta Triux se vzorkovací frekvencí 1000 Hz a byla filtrována online v rozsahu 0,01 až 330 Hz. Poloha hlavy byla během záznamu MEG sledována na základě sady pěti cívek indikátoru polohy hlavy umístěných na určitých orientačních bodech na hlavě. Surová data jsme předzpracovali pomocí softwaru Maxfilter (Elekta, Stockholm), abychom odstranili pohyb hlavy a denoizovali data pomocí časoprostorových filtrů. Poté jsme použili Brainstorm (verze 3.453) k extrakci pokusů od -200 do 800 ms vzhledem k nástupu obrazu. V programu Brainstorm byl každý pokus korigován na základní linii odstraněním průměrné aktivace z každého MEG senzoru mezi -200 ms a začátkem podnětu a analýza hlavních komponent byla použita k odstranění artefaktů mrkání očí, které byly automaticky detekovány z dat MEG frontálního senzoru. K vyřazení špatných pokusů jsme použili práh pro odmítnutí vrcholu 6000 fT, zbývající pokusy jsme importovali do programu Matlab (verze 2016a; The Mathworks, Natick, MA) a vyhladili je pomocí dolnoprůchodového filtru 30 Hz. Všimněte si, že jsme provedli také analýzu nefiltrovaných dat, která přinesla velmi podobné výsledky (viz doplňková poznámka 2). Pro další snížení šumu a snížení výpočetních nákladů jsme u každého subjektu spojili data jednotlivých senzorů MEG v čase a na data senzorů MEG jsme použili analýzu hlavních komponent (přičemž jsme ponechali všechny komponenty, které vysvětlovaly 99,99 % rozptylu dat). Tímto krokem jsme zredukovali soubor funkcí z 306 senzorů MEG na přibližně 70 hlavních komponent (PC) na subjekt a veškerou další analýzu jsme provedli na tomto redukovaném souboru. Poté jsme každý pokus korigovali na základní linii tak, že jsme z každé PC odstranili průměrnou aktivaci mezi -200 ms a nástupem podnětu. Tato skóre PC pro každý pokus a každý časový bod byla použita pro následné analýzy.

MEG vícerozměrná analýza vzorů

Vícerozměrnou analýzu vzorů jsme použili k získání časových informací o podnětech tváře z dat MEG (obr. 2). K získání míry podobnosti pro každou dvojici podnětů jsme použili křížově ověřenou přesnost párové klasifikace lineárních strojů s podpůrnými vektory (SVM; libsvm54). Klasifikační analýza byla provedena zvlášť pro každý subjekt časově rozlišeným způsobem (tj. nezávisle pro každý časový bod). Vzorek v analýze se skládal z PC skóre pro jeden pokus a jednu podmínku v daném časovém bodě. V prvním kroku jsme zprůměrovali všechny pokusy jedné podmínky tak, že jsme každý pokus náhodně přiřadili k jednomu z pěti rozdělení a zprůměrovali pokusy v každém rozdělení (~5-7 pokusů na rozdělení při zohlednění špatných pokusů). Poté jsme skupiny rozdělili na tréninková a testovací data, přičemž jsme náhodně vybrali jednu skupinu pro testování a zbývající skupiny pro trénink (tj. pětinásobná křížová validace). Poté jsme provedli binární klasifikaci všech 3170 párových srovnání (tj. 80 × 79/2 kombinací) mezi podmínkami. Tento klasifikační postup byl opakován 100krát. Průměrná přesnost dekódování v průběhu opakování sloužila jako hodnota v dekódovací matici 80 × 80, označované jako reprezentativní matice nepodobnosti (RDM). Tato RDM je symetrická a diagonála je neurčitá. Výsledkem celého postupu je jedna MEG RDM pro každý subjekt a časový bod.

Abychom získali míru toho, jak dobře lze každý podnět tváře rozlišit od všech ostatních obrazů v MEG (tj. dekódování obrazu), zprůměrovali jsme všechny párové přesnosti dekódování v dolním trojúhelníku každé RDM. Výsledkem byla jedna průměrná hodnota přesnosti dekódování pro každý subjekt a časový bod. Časový průběh dekódování obrazu dále slouží jako měřítko časového průběhu nízkoúrovňového zpracování obrazu v datech MEG. Abychom zjistili, jak trvalé jsou nervové reakce na obrazy tváří, rozšířili jsme dále postup dekódování SVM o přístup časového zobecnění16,55,56 . Podrobnosti a výsledky této analýzy naleznete v doplňkové poznámce 4.

Analýza reprezentační podobnosti

K analýze reprezentace rozměrů obličeje v datech MEG jsme použili analýzu reprezentační podobnosti (RSA). Pro každou dimenzi obličeje jsme vytvořili model RDM, což byly binární matice 80 × 80, kde 1 odpovídala srovnání podnětů mezi kategoriemi (např. muž vs. žena pro model pohlaví) a 0 srovnání podnětů v rámci kategorie (např. žena vs. žena). Výsledkem tohoto postupu byly čtyři modely tváří odpovídající dimenzím známosti, pohlaví, věku a identity našich podnětů. Abychom mohli vypočítat korelace mezi každým modelem a daty MEG, extrahovali jsme spodní mimodiagonálu každé z těchto matic jako vektory. Pro každý model a subjekt jsme vypočítali dílčí koeficienty pořadí (Spearmanova korelace) mezi modelem a MEG RDM v každém časovém bodě s parciálním vyloučením všech ostatních modelů tváří. Tento krok byl klíčový, protože některé z modelů jsou korelované (např. mezi srovnáními identity zahrnujícími srovnání pohlaví) a parcializace ostatních modelů nám tak umožnila oddělit příspěvky modelů od sebe navzájem.

Abychom dále vyloučili příspěvek nízkoúrovňových rysů našich podnětů k výsledkům, dodatečně jsme parcializovali model nízkoúrovňových rysů. Tento model nízkoúrovňových rysů byl vypočten extrakcí rysů pro každý z 80 podnětů z druhé konvoluční vrstvy hluboké konvoluční umělé neuronové sítě (CNN) vycvičené na tisících identit tváří (VGG-Face57). Jako míru nepodobnosti mezi jednotkami CNN každé dvojice podnětů jsme použili 1 – Pearsonovu korelaci, čímž vznikl RDM 80 × 80 založený na obrazových prvcích nízké úrovně. Všimněte si, že jsme porovnávali i jiné modely nízkoúrovňových rysů (např. HMAX C258,59, Gist60, podobnost založená na pixelech), které poskytly podobné výsledky; zde uvádíme model VGG-Face, protože dosáhl maximální korelace s údaji MEG, a tudíž vysvětluje nejvíce údajů (jak lze vysvětlit pomocí nízkoúrovňových rysů).

Vliv známosti na zpracování tváří jsme zkoumali rozdělením RDM MEG a modelu na RDM v rámci známých a RDM v rámci neznámých. Každá z těchto RDM byla RDM o rozměrech 40 × 40 tvořená pouze známými nebo pouze neznámými obrazy tváří. Poté jsme provedli stejnou analýzu jako pro celou sadu podnětů (viz výše). Abychom dále testovali rozdíly mezi zpracováním známých a neznámých tváří, odečetli jsme časové průběhy korelace pro neznámé tváře od časových průběhů získaných pro známé tváře pro každý subjekt a statisticky porovnali tyto rozdílné časové průběhy s nulou (viz níže Statistická inference). Všimněte si, že ačkoli jsme se snažili vybrat různé sady obrázků známých a neznámých tváří co nejobjektivněji, nemůžeme zcela vyloučit, že k této analýze přispěly rozdíly mezi sadami podnětů. Provedli jsme proto dodatečnou analýzu VGG-Face, v níž jsme testovali účinky známosti vyvolané podněty v časné a pozdní vrstvě VGG-Face, což naznačuje, že takové rozdíly nemohou přímo vysvětlit naše zjištění (viz doplňková poznámka 1).

Dále je důležité poznamenat, že časové řady kategoriálních informací (např, pohlaví) byly zkonstruovány korelací matice MEG RDM s modelovými RMD sestávajícími z nul odpovídajících srovnání podnětů v rámci kategorie (např. žena nebo muž) a jedniček odpovídajících srovnání podnětů mezi kategoriemi. Korelace mezi MEG RDM a modelovou RDM (při částečném vyloučení všech ostatních modelů) sloužila jako míra shlukování podle příslušnosti ke kategorii. Alternativním přístupem k výpočtu časových řad kategoriálních informací je přímý trénink klasifikátoru pro rozlišování kategorií (např. žena versus muž napříč identitou) podnětů. Ačkoli takový metodický přístup může být obecně citlivý na různé aspekty kategoriální informace o podnětech, v našich datech přinesl konzistentní výsledky (viz doplňková poznámka 3).

Experiment s behaviorální podobností

Čtrnáct z 16 subjektů navíc provedlo behaviorální úlohu více uspořádání61 na stejných podnětech v samostatný den po experimentu MEG. Subjekty prováděly experiment s více uspořádáními online pomocí vlastního počítače a přihlášením do online platformy pro provádění behaviorálních experimentů (). Subjekty musely zadat anonymní osobní kód, který jim byl poskytnut e-mailem pro spuštění experimentu. V experimentu bylo všech 80 podnětů, které subjekt předtím viděl v experimentu, uspořádáno jako miniatury kolem bílého kruhu uprostřed obrazovky. Subjekty byly instruovány, aby tyto miniatury uspořádaly na základě jejich vnímané podobnosti („podobné obrázky dohromady, nepodobné obrázky od sebe“, bez výslovných instrukcí, jakou funkci mají použít) přetažením do kruhu. Experiment se automaticky ukončil, když bylo dosaženo dostatečného poměru signálu k šumu (tj. váha důkazů byla nastavena na 0,5). Průměrná doba trvání experimentu byla ~70 min. Po ukončení experimentu byly vypočteny párové čtvercové vzdálenosti na obrazovce mezi uspořádanými miniaturami, což představuje behaviorální RDM. Pro každý subjekt jsme z behaviorálního RDM extrahovali spodní mimodiagonální data a korelovali tento vektor s odpovídajícími MEG RDM pro každý časový bod. Pro tuto korelaci jsme navíc vypočítali strop šumu, abychom získali odhad horní a dolní hranice korelace vzhledem k variabilitě v omezeném souboru subjektů v této analýze. Strop šumu jsme odhadli podle metody popsané zde62. Stručně řečeno, horní hranici korelace jsme odhadli jako průměrnou korelaci každého subjektu se skupinovým průměrem. Jelikož tato korelace zahrnuje korelaci se samotným subjektem, představuje nadhodnocení skutečné průměrné korelace modelu. Naproti tomu dolní mez se vypočítá tak, že se vezme průměrná korelace každého subjektu s průměrem všech ostatních subjektů (s výjimkou samotného subjektu). To podhodnocuje průměrnou korelaci skutečného modelu v důsledku omezeného souboru údajů. Dohromady šumový strop poskytuje odhad maximální dosažitelné korelace a je užitečný jako reference, zejména při zjištění nízkých, ale významných hodnot korelace.

Dále jsme pro posouzení jedinečného příspěvku každého modelu ke sdílenému rozptylu mezi MEG a behaviorálními RDM dodatečně provedli analýzu commonality, přístup rozdělení rozptylu, který odhaduje sdílený rozptyl mezi více než dvěma proměnnými20,63 . Stručně řečeno, vypočítali jsme rozptyl, ke kterému jednoznačně přispívá každý model obličeje (např. pohlaví), a to výpočtem dvou korelačních koeficientů: Nejprve jsme pro každý subjekt vypočítali částečnou korelaci mezi MEG a behaviorálními RDM, přičemž jsme vyřadili všechny modely (pohlaví, věk, identitu a model rysů nízké úrovně). Za druhé jsme vypočítali částečnou korelaci mezi MEG RDM a behaviorálním RDM, přičemž jsme částečně vyřadili všechny modely obličeje a model nízkoúrovňových rysů, ale jeden model obličeje jsme vynechali (např. pohlaví). Rozdíl mezi těmito dvěma dílčími korelačními koeficienty představuje jedinečný rozptyl, k němuž přispívá daný model, označovaný jako koeficient pospolitosti. Tento krok byl opakován pro každý časový bod MEG, což vedlo k časovému průběhu koeficientu commonality pro každý model obličeje.

Statistické závěry

Pro všechny analýzy jsme použili neparametrické statistické testy, které se nespoléhají na předpoklady o rozdělení dat64,65 . Pro statistickou inferenci přesnosti dekódování (dekódování obrazu) nebo dílčích korelací (např. modelové korelace) časových řad jsme provedli inferenci velikosti shluků na základě permutace (tj. shluk se vztahuje k souboru sousedících časových bodů). Nulová hypotéza odpovídala 50% hladině náhody pro přesnost dekódování a 0 pro hodnoty korelace nebo korelační rozdíly. Významné časové shluky byly definovány následovně. Nejprve jsme permutovali stavové značky dat MEG náhodným vynásobením odpovědí subjektů + 1 nebo -1 (tj. znaménkový permutační test). Tento postup jsme opakovali 1000krát, čímž jsme získali permutační rozdělení pro každý časový bod. Za druhé, časové body, které překročily 95. percentil permutačního rozdělení, sloužily jako časové body vyvolávající shluk (tj. ekvivalent p < 0,05; jednostranný). A konečně, časové shluky byly definovány jako 95. percentil maximálního počtu sousedících, významných časových bodů napříč všemi permutacemi (tj. ekvivalentní p < 0,05; jednostranný).

Analýza nástupu a vrcholové latence

Pro testování statistických rozdílů v nástupu nebo vrcholové latenci mezi různými rozměry obličeje jsme provedli bootstrap testy. Časové průběhy specifické pro daný subjekt (např. měřené jako přesnost dekódování, parciální korelace nebo koeficient pospolitosti) jsme bootstrapovali 1000krát, abychom získali empirické rozdělení nástupu (tj. minimální významný časový bod po nástupu stimulu) a vrcholové latence (tj. maximální hodnota korelace mezi 80 a 180 ms po nástupu stimulu). Časové okno pro analýzu vrcholů jsme omezili na 180 ms po nástupu stimulu, protože nás zajímal první vrchol vyskytující se po nástupu stimulu, neovlivněný pozdějšími vrcholy (např. v důsledku reakcí na posun stimulu66). 2,5. a 97,5. percentil těchto rozdělení definoval 95% interval spolehlivosti pro latenci nástupu, resp. vrcholu. Pro rozdíly mezi latencemi jsme vypočítali 1000 bootstrapových vzorků rozdílu mezi dvěma latencemi (např. nástupu), jejichž výsledkem bylo empirické rozdělení rozdílů latencí. Počet rozdílů, které byly menší nebo větší než nula, vydělený počtem permutací určil p-hodnotu (tj. oboustranné testování). Tyto p-hodnoty byly korigovány na vícenásobná srovnání pomocí míry falešného objevu (FDR) na úrovni 0,05.