Uczestnicy

W badaniu wzięło udział 21 zdrowych ochotników z normalnym lub skorygowanym do normalnego wzrokiem. Pięciu uczestników zostało wykluczonych przed analizą danych z powodu co najmniej jednego z następujących kryteriów wykluczenia: nadmierny ruch podczas nagrywania, zachowanie poniżej dwóch standardowych odchyleń średniej lub niekompletne nagrania z powodu problemów technicznych. Do analizy MEG pozostały dane od 16 osób (osiem kobiet; średni wiek 25,9 lat, SD = 4,33). Wybrana wielkość próby opierała się na wcześniejszych badaniach wykorzystujących wielowariantowe dekodowanie danych EEG/MEG16,17,23. Czternastu z tych 16 badanych uczestniczyło dodatkowo w eksperymencie behawioralnym online. Wszyscy badani wyrazili świadomą, pisemną zgodę przed rozpoczęciem eksperymentu. Massachusetts Institute of Technology (MIT) Committee on the Use of Humans as Experimental Subjects zatwierdził protokół eksperymentalny (COUHES nr 1606622600), a badanie zostało przeprowadzone zgodnie ze wszystkimi odpowiednimi przepisami etycznymi dotyczącymi pracy z uczestnikami ludzkimi.

Projekt eksperymentalny i bodźce

Aby zbadać dynamikę czasową przetwarzania twarzy, osoby badane oglądały obrazy twarzy o różnej tożsamości, jednocześnie monitorując kolejne powtórzenia identycznych obrazów (tj, Zadanie 1-back; Rys. 1a) w MEG. Jako tożsamości wybraliśmy osiem znanych (tj. znanych aktorów w USA) i osiem nieznanych (tj. aktorów niemieckich) osobistości, które różniły się ortogonalnie pod względem płci i wieku, tak że połowa z nich była kobietami, a połowa mężczyznami, a połowa z nich była młoda (tj. maksymalny wiek wynosił 36 lat), a połowa była stara (tj. minimalny wiek wynosił 59 lat). Zauważ, że przez płeć rozumiemy płeć twarzy.

Aby upewnić się, że wszystkie osoby badane były zaznajomione z zestawem znanych tożsamości, przed rozpoczęciem badania osoby badane wypełniały zadanie przesiewowe online. W tym badaniu prezentowaliśmy im po jednym obrazie dla każdej z 16 tożsamości (różnych od obrazów użytych w badaniu MEG) i pytaliśmy, czy są zaznajomieni z przedstawioną na nim osobą. Tylko badani, którzy rozpoznali każdą z ośmiu znanych tożsamości (np. podając ich imiona lub konteksty, w których pamiętali daną osobę), zostali włączeni do badania.

Bodźce użyte w badaniu MEG składały się z pięciu obrazów w skali szarości każdej z 16 tożsamości, w sumie 80 bodźców. Dla każdej tożsamości, wybraliśmy pięć obrazów z Internetu, które różniły się w kilku aspektach, takich jak ekspresja (co najmniej dwa uśmiechnięte i dwa neutralne wyrazy twarzy), spojrzenie (jeden odwrócony w lewo, jeden odwrócony w prawo, dwa skierowane spojrzenie i jedno spojrzenie wyrównane z obróconą głową), pozę (jeden z głową lekko obróconą na bok), oświetlenie, włosy, itp. Następnie standaryzowaliśmy wszystkie obrazy do szablonu przez obracanie, skalowanie i przycinanie ich na podstawie położenia czubka nosa, środka ust i obu oczu i zapisywaliśmy je jako obrazy w skali szarości.

Podczas eksperymentu MEG osoby badane oglądały próby z obrazami twarzy (ryc. 1a). Każda próba rozpoczynała się od prezentacji obrazu twarzy przez 0,2 s, po której następowała przerwa między bodźcami (ISI; równomiernie próbkowana między 0,8 a 1 s) 0,8-1 s, podczas której prezentowany był szary ekran. Badani byli instruowani, aby reagować poprzez naciśnięcie przycisku na kolejne powtórzenie identycznego obrazu podczas prezentacji obrazu lub podczas ITI. Aby uniknąć artefaktów spowodowanych ruchami gałek ocznych lub mruganiem, badani byli instruowani, aby fiksować czarny krzyżyk fiksacyjny w górnej części ekranu podczas prezentacji obrazu (tj. prezentowanego pomiędzy czubkiem nosa a oczami twarzy) i ISI. Ponadto proszono ich o mruganie w tym samym czasie podczas udzielania odpowiedzi na przycisk, ponieważ próby te nie zostały uwzględnione w analizie danych.

Badani oglądali 28 bloków prób, w których każdy z 80 obrazów był prezentowany raz losowo przeplatany 20 próbami zadaniowymi (zadanie 1-back), w sumie 100 prób na blok. Próby zadaniowe były pseudolosowane w ten sposób, że każdy z 80 obrazów był dodatkowo pokazywany siedem razy jako próba zadaniowa, co dawało w sumie 35 prezentacji. Prezentacja bodźców była kontrolowana, a odpowiedzi zbierane za pomocą programu Psychtoolbox 3 dla Matlab51,52. Eksperyment trwał około 70 min.

Rejestracja MEG i wstępne przetwarzanie

Dane MEG były zbierane przy użyciu 306-kanałowego systemu Elekta Triux z częstotliwością próbkowania 1000 Hz, i były filtrowane online pomiędzy 0.01 i 330 Hz. Pozycja głowy była śledzona podczas rejestracji MEG w oparciu o zestaw pięciu cewek wskaźnikowych umieszczonych na poszczególnych punktach orientacyjnych głowy. Surowe dane przetworzono wstępnie za pomocą oprogramowania Maxfilter (Elekta, Sztokholm) w celu usunięcia ruchu głowy i denoizacji danych za pomocą filtrów spatiotemporalnych. Następnie użyliśmy programu Brainstorm (wersja 3.453) do wyodrębnienia prób od -200 do 800 ms w odniesieniu do początku obrazu. W Brainstorm każda próba była korygowana bazowo przez usunięcie średniej aktywacji z każdego czujnika MEG pomiędzy -200 ms a początkiem bodźca, a analiza składowych głównych była używana do usunięcia artefaktów mrugania oczami, które były automatycznie wykrywane z danych MEG z czujników czołowych. Użyliśmy progu odrzucania 6000 fT peak-to-peak, aby odrzucić złe próby, zaimportowaliśmy pozostałe próby w Matlabie (wersja 2016a; The Mathworks, Natick, MA) i wygładziliśmy je filtrem dolnoprzepustowym 30 Hz. Zauważ, że przeprowadziliśmy również analizę na niefiltrowanych danych, która dała bardzo podobne wyniki (patrz Supplementary Note 2). Aby jeszcze bardziej zmniejszyć szum i zredukować koszty obliczeniowe, dla każdego badanego połączyliśmy dane z każdego czujnika MEG w czasie i zastosowaliśmy analizę składowych głównych do danych z czujników MEG (zachowując wszystkie składowe, które wyjaśniały 99,99% wariancji danych). Ten krok zredukował zbiór cech z 306 czujników MEG do około 70 głównych składowych (PC) na podmiot i przeprowadziliśmy wszystkie dalsze analizy na tym zredukowanym zbiorze. Następnie dokonaliśmy korekty bazowej każdej próby poprzez usunięcie średniej aktywacji pomiędzy -200 ms a początkiem bodźca z każdego PC. Te wyniki PC dla każdej próby i każdego punktu czasowego były używane do dalszych analiz.

Wieloczynnikowa analiza wzorca MEG

Użyliśmy wieloczynnikowej analizy wzorca, aby wydobyć informacje czasowe o bodźcach twarzy z danych MEG (ryc. 2). Aby uzyskać miarę podobieństwa dla każdej pary bodźców, użyliśmy walidowanej krzyżowo dokładności klasyfikacji parami liniowych maszyn wektorów podporowych (SVM; libsvm54). Analizę klasyfikacyjną przeprowadzono oddzielnie dla każdego badanego w sposób czasowo-rozdzielczy (tj. niezależnie dla każdego punktu czasowego). Wzorzec w analizie składał się z wyników PC dla jednej próby i jednego stanu w danym punkcie czasowym. W pierwszym kroku, uśredniliśmy wszystkie próby jednego warunku przez losowe przypisanie każdej próby do jednego z pięciu podziałów i uśrednienie prób w każdym podziale (~5-7 prób na podział, biorąc pod uwagę złe próby). Następnie podzieliliśmy grupy na dane treningowe i testowe, losowo wybierając jedną grupę do testowania, a pozostałe grupy do treningu (tj. pięciokrotna walidacja krzyżowa). Następnie przeprowadziliśmy klasyfikację binarną wszystkich 3170 porównań parami (tj. 80 × 79/2 kombinacji) między warunkami. Ta procedura klasyfikacyjna została powtórzona 100 razy. Średnia dokładność dekodowania w powtórzeniach posłużyła jako wartość w macierzy dekodowania 80 × 80, zwanej macierzą niepodobieństwa reprezentacyjnego (RDM). Macierz ta jest symetryczna, a jej przekątna jest nieokreślona. Aby uzyskać miarę tego, jak dobrze każdy bodziec w postaci twarzy może być odróżniony od wszystkich innych obrazów w MEG (tj. dekodowanie obrazu), uśredniliśmy wszystkie parami podobieństwa dekodowania w dolnym trójkącie każdego RDM. To dało jedną średnią wartość dokładności dekodowania dla każdego uczestnika i punktu czasowego. Przebieg czasowy dekodowania obrazu służy ponadto jako punkt odniesienia dla przebiegu czasowego niskopoziomowego przetwarzania obrazu w danych MEG. Aby zbadać jak trwałe były odpowiedzi neuronalne na obrazy twarzy, rozszerzyliśmy procedurę dekodowania SVM o podejście generalizacji czasowej16,55,56. Szczegóły i wyniki tej analizy można znaleźć w Supplementary Note 4.

Representational similarity analysis

Aby przeanalizować reprezentację wymiarów twarzy w danych MEG, użyliśmy analizy podobieństwa reprezentacyjnego (RSA). Stworzyliśmy modele RDM dla każdego wymiaru twarzy, które były binarnymi macierzami 80 × 80, gdzie 1 odpowiadało porównaniu bodźców między kategoriami (np. mężczyzna vs kobieta dla modelu płci), a 0 porównaniu bodźców wewnątrz kategorii (np. kobieta vs kobieta). W wyniku tej procedury otrzymano cztery modele twarzy odpowiadające wymiarom znajomości, płci, wieku i tożsamości naszych bodźców. Aby obliczyć korelacje pomiędzy każdym modelem a danymi MEG, wyodrębniliśmy dolną poza-diagonalną część każdej z tych macierzy jako wektory. Dla każdego modelu i osoby badanej, obliczyliśmy współczynniki korelacji rang cząstkowych (korelacja Spearmana) pomiędzy modelem i MEG RDM w każdym punkcie czasowym, oddzielając wszystkie inne modele twarzy. Ten krok był kluczowy, ponieważ niektóre z modeli są skorelowane (np. pomiędzy porównaniami tożsamości a porównaniami płci), a partialling out innych modeli pozwolił nam oddzielić wkład modeli od siebie.

Aby dodatkowo wykluczyć wpływ niskopoziomowych cech naszych bodźców na wyniki, dodatkowo partialling out modelu cech niskopoziomowych. Ten model cech niskiego poziomu został obliczony przez wyodrębnienie cech dla każdego z 80 bodźców z drugiej warstwy konwolucyjnej głębokiej sztucznej sieci neuronowej (CNN) wytrenowanej na tysiącach tożsamości twarzy (VGG-Face57). Użyliśmy korelacji 1 – Pearsona jako miary niepodobieństwa pomiędzy jednostkami CNN każdej pary bodźców, dając w rezultacie RDM 80 × 80 oparty na niskopoziomowych cechach obrazu. Należy zauważyć, że porównaliśmy również inne modele cech niskopoziomowych (np. HMAX C258,59, Gist60, podobieństwo oparte na pikselach), które dały podobne wyniki; podajemy tutaj model VGG-Face, ponieważ osiągnął on maksymalną korelację z danymi MEG, a zatem wyjaśnia najwięcej danych (rozliczanych przez cechy niskopoziomowe).

Zbadaliśmy wpływ znajomości na przetwarzanie twarzy, dzieląc RDM MEG i modelowe RDM odpowiednio na RDM w obrębie znajomych i w obrębie nieznanych. Każdy z tych RDM był RDM 40 × 40 składającym się tylko z obrazów twarzy znajomych lub tylko nieznanych. Następnie przeprowadziliśmy taką samą analizę jak dla pełnego zestawu bodźców (patrz wyżej). Aby dodatkowo sprawdzić różnice między przetwarzaniem twarzy znanych i nieznanych, odjęliśmy przebiegi czasowe korelacji dla twarzy nieznanych od przebiegów czasowych uzyskanych dla twarzy znanych dla każdego badanego i porównaliśmy statystycznie te różnice czasowe do zera (patrz poniżej Wnioskowanie statystyczne). Należy zauważyć, że chociaż staraliśmy się wybrać różne zestawy obrazów znajomych i nieznanych twarzy w sposób jak najbardziej obiektywny, nie możemy całkowicie wykluczyć, że różnice pomiędzy zestawami bodźców przyczyniły się do tej analizy. Dlatego też przeprowadziliśmy dodatkową analizę VGG-Face, testując efekty znajomości wywołane bodźcem we wczesnej i późnej warstwie VGG-Face, sugerując, że takie różnice nie mogą bezpośrednio wyjaśnić naszych wyników (patrz Supplementary Note 1).

Ponadto, ważne jest, aby zauważyć, że szeregi czasowe informacji kategorycznych (np, płeć) zostały skonstruowane przez korelację macierzy MEG RDM z modelowymi RMD składającymi się z zer odpowiadających wewnątrzkategorialnym (np. kobieta lub mężczyzna) i jedynek odpowiadających międzykategorialnym porównaniom bodźców. Korelacja pomiędzy MEG RDM a modelem RDM (przy wykluczeniu wszystkich innych modeli) służyła jako miara grupowania według przynależności do kategorii. Alternatywnym podejściem do obliczania szeregów czasowych informacji kategorialnej jest bezpośrednie wytrenowanie klasyfikatora do rozróżniania kategorii (np. kobieta versus mężczyzna w zależności od tożsamości) bodźców. Chociaż takie podejście metodologiczne może być wrażliwe na różne aspekty informacji o bodźcach kategorycznych w ogóle, dało ono spójne wyniki w naszych danych (patrz Uwaga uzupełniająca 3).

Eksperyment podobieństwa behawioralnego

Czternastu z 16 badanych wykonało dodatkowo behawioralne zadanie wielorakiego porządkowania61 na tych samych bodźcach w osobnym dniu po eksperymencie MEG. Badani wykonywali eksperyment multi-arrangement online, używając własnego komputera i logując się na platformie internetowej do przeprowadzania eksperymentów behawioralnych (). Osoby badane musiały wprowadzić anonimowy, osobisty kod, który został im dostarczony pocztą elektroniczną w celu rozpoczęcia eksperymentu. W eksperymencie, wszystkie 80 bodźców, które osoba badana widziała wcześniej w eksperymencie, były ułożone jako miniatury wokół białego koła w centrum ekranu. Badani byli instruowani, by układać te miniaturki w oparciu o ich postrzegane podobieństwo („podobne obrazy razem, niepodobne osobno”, bez wyraźnych instrukcji, której cechy należy użyć) poprzez przeciąganie i upuszczanie ich w okręgu. Eksperyment kończył się automatycznie po osiągnięciu odpowiedniego stosunku sygnału do szumu (tj. waga dowodu była ustawiona na 0,5). Średni czas trwania eksperymentu wynosił ~70 min. Po zakończeniu eksperymentu obliczano parami kwadratowe odległości ekranowe między ułożonymi miniaturami, reprezentując w ten sposób behawioralny RDM. Dla każdego badanego, wyodrębniliśmy dolną poza-diagonalną część danych z behawioralnego RDM i skorelowaliśmy ten wektor z odpowiadającymi mu RDM MEG dla każdego punktu czasowego. Dodatkowo obliczyliśmy pułap szumu dla tej korelacji, aby uzyskać szacunek dla górnej i dolnej granicy korelacji, biorąc pod uwagę zmienność w ograniczonym zbiorze badanych w tej analizie. Oszacowaliśmy pułap szumu zgodnie z metodą opisaną tutaj62. Krótko mówiąc, oszacowaliśmy górną granicę korelacji jako średnią korelację każdego uczestnika ze średnią grupy. Ponieważ ta korelacja zawiera korelację z samym podmiotem, reprezentuje ona przeszacowanie prawdziwej średniej korelacji modelu. W przeciwieństwie do tego, dolna granica jest obliczana poprzez wzięcie średniej korelacji każdego podmiotu ze średnią wszystkich innych podmiotów (z wyłączeniem samego podmiotu). W ten sposób zaniża się średnią korelację prawdziwego modelu ze względu na ograniczony zbiór danych. Razem, pułap szumu zapewnia oszacowanie maksymalnej możliwej do uzyskania korelacji i jest użyteczny jako odniesienie, w szczególności, gdy znalezione są niskie, ale znaczące wartości korelacji.

Ponadto, aby ocenić unikalny wkład każdego modelu do wspólnej wariancji pomiędzy MEG i behawioralnymi RDM, dodatkowo przeprowadziliśmy analizę wspólności, podejście podziału wariancji, które szacuje wspólną wariancję pomiędzy więcej niż dwiema zmiennymi20,63. W skrócie, obliczyliśmy wariancję unikalnie wnoszoną przez każdy model twarzy (np. płeć) poprzez obliczenie dwóch współczynników korelacji: Po pierwsze, dla każdego badanego obliczyliśmy korelację cząstkową między MEG i behawioralnymi RDM, przy partialling out wszystkich modeli (płeć, wiek, tożsamość i model cech niskopoziomowych). Po drugie, obliczyliśmy korelację cząstkową między MEG RDM i behawioralnym RDM, przy wykluczeniu wszystkich modeli twarzy i modelu cech niskopoziomowych, ale przy pominięciu jednego modelu twarzy (np. płci). Różnica pomiędzy tymi dwoma częściowymi współczynnikami korelacji reprezentuje unikalną wariancję wnoszoną przez ten model, określaną jako współczynnik wspólności. Ten krok został powtórzony dla każdego punktu czasowego MEG, dając w rezultacie przebieg czasowy współczynnika wspólności dla każdego modelu twarzy.

Wnioskowanie statystyczne

Do wszystkich analiz użyliśmy nieparametrycznych testów statystycznych, które nie opierają się na założeniach dotyczących rozkładów danych64,65. Dla wnioskowania statystycznego o dokładności dekodowania (dekodowanie obrazu) lub częściowej korelacji (np. korelacja modelu) szeregów czasowych, przeprowadziliśmy oparte na permutacji wnioskowanie o wielkości klastra (tj. klaster odnosi się do zestawu sąsiadujących ze sobą punktów czasowych). Hipoteza zerowa odpowiadała 50% poziomowi prawdopodobieństwa dla dokładności dekodowania i 0 dla wartości korelacji lub różnic korelacji. Istotne klastry czasowe zostały zdefiniowane w następujący sposób. Po pierwsze, permutowaliśmy etykiety stanu danych MEG przez losowe pomnożenie odpowiedzi badanych przez + 1 lub -1 (tj. test permutacji znakowej). Powtórzyliśmy tę procedurę 1000 razy, uzyskując rozkład permutacyjny dla każdego punktu czasowego. Po drugie, punkty czasowe, które przekroczyły 95 percentyl rozkładu permutacyjnego służyły jako punkty czasowe wywołujące klastry (tj. równoważne p < 0,05; jednostronnie). Wreszcie, klastry w czasie zostały zdefiniowane jako 95 percentyl maksymalnej liczby przylegających, znaczących punktów czasowych we wszystkich permutacjach (tj. Równoważne z p < 0,05; jednostronnie).

Analiza początku i szczytowej latencji

Aby przetestować statystyczne różnice w początkach lub szczytowych latencjach między różnymi wymiarami twarzy, wykonaliśmy testy bootstrap. Przeprowadziliśmy bootstrapowanie specyficznych dla danego podmiotu przebiegów czasowych (np. mierzonych jako dokładność dekodowania, korelacja częściowa lub współczynnik wspólności) 1000 razy, aby uzyskać rozkład empiryczny początku (tj. minimalnego znaczącego punktu czasowego po początku bodźca) i latencji szczytowej (tj. maksymalnej wartości korelacji między 80 a 180 ms po początku bodźca). Zawęziliśmy okno czasowe dla analizy szczytów do 180 ms po początku bodźca, ponieważ interesował nas pierwszy szczyt występujący po początku bodźca, bez zakłóceń wynikających z późniejszych szczytów (np. z powodu reakcji na przesunięcie bodźca66). 2,5 i 97,5 percentyl tych rozkładów zdefiniowały 95% przedział ufności dla opóźnienia początku i szczytu, odpowiednio. Dla różnic pomiędzy latencjami, obliczyliśmy 1000 próbek bootstrapowych różnicy pomiędzy dwoma latencjami (np. początkiem), co dało empiryczny rozkład różnic latencji. Liczba różnic, które były mniejsze lub większe od zera podzielona przez liczbę permutacji określała wartość p (tj. test dwustronny). Te wartości p zostały skorygowane dla wielokrotnych porównań przy użyciu współczynnika fałszywego odkrycia (FDR) na poziomie 0,05.

.

Articles

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany.