Participants
視力が正常または矯正された健康なボランティア21人が研究に参加した。 5名の被験者がデータ解析前に除外された。除外基準は、記録中の過剰な動き、平均の2標準偏差以下の行動成績、技術的な問題による記録の不完全さ、の少なくとも1つであった。 16名(女性8名、平均年齢25.9歳、SD=4.33)の被験者のデータがMEG解析に残された。 このサンプルサイズは、EEG/MEGデータの多変量解析を用いた先行研究16,17,23に基づくものであった。 これらの16人のうち14人は、さらにオンライン行動追跡実験に参加した。 すべての被験者は、実験に先立ち、インフォームドコンセントを文書で得た。 マサチューセッツ工科大学(MIT)実験対象者としてのヒトの使用に関する委員会が実験プロトコルを承認し(COUHES No 1606622600)、本研究はヒトを対象とした作業に関するすべての関連倫理規定を遵守して実施された
実験デザインと刺激
顔処理の時間動態を調べるために、被験者は同一画像の連続反復を監視しながら異なるIDの顔画像を閲覧(すなわち, 1-back課題;図1a)をMEGで行った。 同一人物として、よく知っている有名人(=アメリカの有名俳優)8名と知らない有名人(=ドイツの俳優)8名を選び、性別と年齢を直交させて、半分が女性、半分が男性、半分が若い(=最大年齢36歳)、半分が年配(=最小年齢59歳)、というように変化させました。 ここでは、性別によって、顔の性別を指すことに注意。
すべての被験者が実際に身近なアイデンティティの集合に慣れていることを確認するために、被験者は研究の前にオンラインスクリーニング課題を完了した。 このスクリーニングでは、(MEG研究で使用した画像とは異なる)16のアイデンティティごとに1つの画像を提示し、示された人物に見覚えがあるかどうかを尋ねた。
MEG研究で使用された最終刺激は、16のアイデンティティのそれぞれ5つのグレースケール画像からなり、合計80個の刺激であった。 各アイデンティティについて、表情(少なくとも2つの笑顔と2つの中立的な表情)、視線(左側にそらしたもの、右側にそらしたもの、2つの指向性視線、頭を回転させた視線)、姿勢(頭をわずかに横に回転させたもの)、光、髪など、いくつかの側面で異なる5つの画像をインターネットから選択した。 そして、鼻先、口中心、両目の位置を基準に、すべての画像を回転、拡大縮小、トリミングしてテンプレートに標準化し、グレースケール画像として保存した
MEG実験では、被験者は顔画像の試行を見た(図1a)。 各試行は顔画像の0.2秒間の提示から始まり、0.8~1秒間の刺激間間隔(ISI:0.8~1秒の間で一様にサンプリング)、その間は灰色の画面が提示された。 被験者は、画像提示中またはITI中に同一画像が連続して繰り返された場合、ボタンを押すことで反応するように指示された。 眼球運動や瞬きによるアーチファクトを避けるため、被験者は画像提示中(顔の鼻先と目の間に提示)およびISI中に画面中央上部にある黒い固視十字を固視するよう指示された。
被験者は、80枚の画像をそれぞれ1回ずつランダムに提示し、20回の課題試行(1-back課題)を挟んだ28ブロックの試行を行い、1ブロックあたり合計100回の試行を行った。 課題試行は擬似的にランダム化され、80枚の画像は課題試行として7回ずつ追加提示され、合計35回の提示となった。 刺激の提示はPsychtoolbox 3 for Matlab51,52を用いて制御され、反応が収集された。 4489>
MEG recording and preprocessing
MEG data were collected using a 306-channel Elekta Triux system with a 1000 Hz sampling rate, and been filtered online between 0.01 and 330 Hz. 頭部の位置は、頭部の特定のランドマーク上に配置された5つの頭部位置指示コイルに基づいて、MEG記録中に追跡された。 生データをMaxfilterソフトウェア(Elekta, Stockholm)で前処理し、頭部の動きを除去し、時空間フィルタを用いてデータをノイズ除去した。 次に、Brainstorm(バージョン3.453)を用いて、画像オンセットに対して-200msから800msまでのトライアルを抽出した。 Brainstormでは、各MEGセンサーから-200msから刺激開始までの平均活性度を除去することにより、すべてのトライアルをベースライン補正し、主成分分析により前頭部センサーMEGデータから自動検出される瞬目アーチファクトを除去した。 6000fTのピーク・トゥ・ピーク拒絶閾値を用いて不良トライアルを破棄し、残ったトライアルをMatlab(バージョン2016a;The Mathworks, Natick, MA)に取り込み、30Hzのローパスフィルターで平滑化した。 なお、フィルタリングされていないデータについても分析を行ったところ、非常に似た結果が得られた(補足注2)。 さらにノイズを減らし、計算コストを削減するために、各被験者について、各MEGセンサーのデータを経時的に連結し、MEGセンサーデータに主成分分析を適用した(データの分散の99.99%を説明するすべての成分を保持)。 これにより、306個のMEGセンサーから得られた特徴量は、被験者ごとに約70個の主成分(PC)にまで減少し、この減少した集合に対してさらにすべての分析を行った。 次に、各PCから-200msと刺激開始の間の平均活性化を除去することにより、全ての試行をベースライン補正した。 4489>
MEG 多変量パターン解析
MEGデータから顔刺激に関する時間情報を抽出するために多変量パターン解析を用いた(Fig.2)。 各刺激のペアに対する類似度指標を得るために、線形サポートベクターマシン(SVM; libsvm54)のクロスバリデーションによるペアワイズ分類精度を使用した。 分類解析は,各被験者について時間分解的に(すなわち,各時点で独立に)行った. 解析におけるパターンは、ある時点における1つの試行、1つの条件のPCスコアで構成される。 まず、1つの条件のすべての試行を5つの分割のうちの1つにランダムに割り当て、各分割の試行を平均化した(不良試行を考慮すると分割あたり〜5〜7試行)。 その後、1つのグループをテスト用に、残りのグループをトレーニング用にランダムに選択し、トレーニングデータとテストデータに分けた(すなわち、5倍のクロスバリデーション)。 そして、条件間のペアワイズ比較(80×79/2の組み合わせ)3170件すべてについて二値分類を実施した。 この分類手順を100回繰り返した。 繰り返しの平均解読精度は、表現的非類似度行列(RDM)と呼ばれる80×80の解読行列の値として用いられた。 このRDMは対称であり、対角線は不定である。 4489>
MEGにおいて各顔刺激が他のすべての画像からどの程度識別できるかの指標(すなわち画像デコーディング)を得るために、各RDMの下三角形におけるすべてのペアワイズデコーディング精度を平均化した。 その結果、被験者ごと、時点ごとに1つの平均的なデコーディング精度の値が得られた。 この画像解読の時間経過は、さらに、MEGデータにおける低レベル画像処理の時間経過のベンチマークとして機能する。 顔画像に対する神経反応の持続性を調べるために、我々はSVMデコーディング手順を時間的汎化アプローチでさらに拡張した16,55,56. この解析の詳細と結果は補遺4に記載されている。
表象類似度解析
MEGデータにおける顔次元の表現を解析するために、表象類似度解析(RSA)を使用した。 各顔次元のモデルRDMは80×80の2値行列で、1がカテゴリー間刺激比較(例えば、性別モデルの場合、男性対女性)、0がカテゴリー内刺激比較(例えば、女性対女性)に対応するように作成されました。 この手順により、刺激の親しみやすさ、性別、年齢、アイデンティティの各次元に対応する4つの顔モデルが生成された。 各モデルとMEGデータとの相関を計算するために、これらの各行列の下位オフ対角線をベクトルとして抽出した。 各モデルと被験者について、各時点でのモデルとMEG RDMの間の部分順位係数(スピアマン相関)を計算し、他のすべての顔モデルを除外した。 このステップは、いくつかのモデルが相関しており(例えば、性別の比較で構成される同一性の比較の間)、他のモデルを除外することで、互いのモデルの寄与を切り離すことができるため、非常に重要であった。 この低レベル特徴モデルは、数千の顔識別情報(VGG-Face57)で訓練した深い畳み込み型人工ニューラルネットワーク(CNN)の第2畳み込み層から80の刺激それぞれの特徴を抽出することで計算されたものである。 各刺激のペアの CNN ユニット間の非類似度の指標として 1 – ピアソン相関を使用し、低レベル画像特徴に基づく 80 × 80 の RDM が得られた。 なお、低レベル特徴量の他のモデル(例えば、HMAX C258,59, Gist60, pixel-based similarity)も比較したが、同様の結果が得られた。ここでは、VGG-FaceモデルがMEGデータと最大相関に達し、したがって(低レベル特徴量で説明できる)ほとんどのデータを説明できるので報告した。
顔処理における親しみの効果を、MEGとモデルのRDMをそれぞれ親密内RDMと不親密内RDMに分割して調査した。 これらのRDMはそれぞれ、見慣れた顔画像のみ、または見慣れない顔画像のみからなる40×40のRDMであった。 そして、全刺激の場合と同様の解析を行った(上図参照)。 さらに、見慣れた顔と見慣れない顔の処理の違いを調べるために、各被験者について、見慣れた顔について得られた時間経過から見慣れない顔についての相関の時間経過を差し引き、これらの差の時間経過をゼロと統計的に比較した(下記の統計的推論を参照)。 なお、親しい顔と親しくない顔の画像の異なるセットをできるだけ客観的に選択するように努めたが、刺激のセット間の違いがこの分析に寄与していることを完全に排除することはできない。 そこで、VGG-Faceの初期層と後期層で刺激駆動型の馴染み効果を検定する追加分析を行ったところ、そのような違いは我々の結果をストレートに説明できないことが示唆された(補足注1)
さらに、カテゴリ情報時系列(例, 性別)は、MEG RDM行列を、カテゴリー内(例えば、女性または男性)に対応する0とカテゴリー間の刺激比較に対応する1からなるモデルRMDと相関させることによって構築されたものである。 MEG RDMとモデルRDMの相関(他のすべてのモデルをパーティションで除外しながら)は、カテゴリーメンバーシップによるクラスタリングの指標として機能した。 カテゴリー情報時系列を計算する別のアプローチは、カテゴリー(例えば、アイデンティティの違いによる女性対男性)刺激を識別するために分類器を直接訓練することである。 このような方法論的アプローチは、一般にカテゴリー刺激情報の異なる側面に対して敏感であるかもしれないが、我々のデータでは一貫した結果が得られた(補足注3参照)。
行動類似性実験
被験者16人のうち14人は、MEG実験後の別の日に、同じ刺激に対する行動マルチアレンジメント課題61を追加的に実施した。 被験者は自分のコンピュータを使い、行動実験を行うためのオンラインプラットフォーム()にログインして、マルチアレンジメント実験をオンラインで実施した。 被験者は、電子メールで提供された匿名の個人コードを入力して実験を開始する必要があった。 実験では、被験者が過去に見た80個の刺激すべてが、画面中央の白い円の周りにサムネイルとして配置された。 被験者は、これらのサムネイルを、知覚された類似性(「類似画像同士、非類似画像同士」、どの機能を使うかは明示的に指示せず)に基づいて、円内にドラッグ&ドロップで並べるよう指示された。 実験は、十分なSN比に達した時点で自動的に終了した(すなわち、証拠の重みが0.5に設定された)。 実験の平均時間は ~70 分であった。 実験終了後、配置されたサムネイル間の画面上の距離の2乗を計算し、行動RDMを表現した。 各被験者について、行動RDMから下位オフ対角線のデータを抽出し、このベクトルを各時点の対応するMEG RDMと相関させた。 さらに、この相関のノイズシーリングを計算し、この分析における被験者の限定されたセットにわたる変動性を考慮して、相関の上限と下限の推定値を得ることにした。 ノイズシーリングは、ここに記載されている方法に従って推定した62。 簡単に言うと、各被験者の群平均との相関の平均値として、相関の上限を推定したのである。 この相関は被験者自身との相関を含んでいるため、真のモデルの平均的な相関の過大評価を意味する。 一方、下界は、各被験者と他の被験者(被験者自身を除く)の平均値との相関の平均値をとることによって計算されます。 これは、データセットが限定されているため、真のモデルの平均的な相関を過小評価することになる。 さらに、MEGと行動RDMの間で共有される分散に対する各モデルの固有の寄与を評価するために、2つ以上の変数間で共有される分散を推定する分散分割アプローチである共通性分析を追加で行った20,63。 簡単に説明すると、2つの相関係数を計算することで、各顔モデル(例えば、性別)から独自に寄与される分散を算出したのである。 まず、各被験者について、すべてのモデル(性別、年齢、アイデンティティ、低レベル特徴モデル)を除外しながら、MEGと行動RDM間の偏相関を算出した。 第二に、すべての顔モデルと低レベル特徴モデルをパーティションで除外しつつ、一つの顔モデル(例えば、性別)を残して、MEG RDMと行動RDMの偏相関を計算した。 この2つの偏相関係数の差は、そのモデルが寄与する固有の分散を表し、共通性係数と呼ばれる。 4489>
統計的推論
すべての解析において、データの分布に関する仮定に依存しないノンパラメトリック統計検定を用いた64,65。 デコーディング精度(画像デコーディング)または偏相関(モデル相関など)時系列の統計的推論については、並べ替えに基づくクラスタサイズ推論を行った(すなわち、クラスタは連続する時間点の集合を指す)。 帰無仮説は、デコーディング精度については50%の偶然水準に対応し、相関値または相関差については0に対応した。 有意な時間的クラスターは以下のように定義された。 まず、MEGデータの条件ラベルを並べ替え、被験者の反応にランダムに+1または-1を掛ける(すなわち、符号並べ替え検定)。 この手順を1000回繰り返し、各時点の並べ替え分布が得られた。 次に、並べ替え分布の95パーセンタイルを超える時点をクラスター誘発時点とした(すなわち、p < 0.05に相当;片側)。 最後に、時間におけるクラスターは、すべての並べ換えにわたって連続する有意な時間点の最大数の95パーセンタイルとして定義した(すなわち、p < 0.05に相当;片側)。
オンセットおよびピーク潜時分析
異なる顔次元間のオンセットまたはピーク潜時の統計的違いを検定するために、我々はブートストラップ検定を行なった。 被験者固有の時間経過(例えば、デコーディング精度、偏相関または共通性係数として測定)を1000回ブートストラップして、オンセット(すなわち、刺激オンセット後の最小有意時間点)およびピーク遅延(すなわち、刺激オンセット後80~180ms間の最大相関値)の経験分布を得た。 ピーク解析の時間窓を刺激開始後180msに限定したのは、刺激開始後に発生する最初のピークに関心があり、それ以降のピーク(例えば、刺激オフセット反応によるもの66)に影響されないようにするためであった。 これらの分布の 2.5 パーセンタイルと 97.5 パーセンタイルが、それぞれオンセットとピーク潜時の 95%信頼区間となった。 潜時差については、2つの潜時(例えば、オンセット)の差のブートストラップサンプルを1000個計算し、潜時差の経験的分布を求めた。 0より小さいか大きい差の数を並べ換え数で割ったものがp値(すなわち、両側検定)である。 これらのp値は、0.05レベルの偽発見率(FDR)を用いて多重比較のために補正された
。