People are remarkably good in remembering photographs. Aby dokładniej zbadać naturę przechowywanych reprezentacji i wierność ludzkich wspomnień, użyteczna byłaby ocena wizualnego podobieństwa bodźców prezentowanych w eksperymentach. Tutaj badaliśmy możliwość zastosowania konwencjonalnych sieci neuronowych (CNN) jako miary percepcyjnego lub reprezentacyjnego podobieństwa scen wizualnych w odniesieniu do badań nad pamięcią wzrokową. W eksperymencie 1 prezentowaliśmy uczestnikom zestawy dziewięciu obrazów z tej samej kategorii scen i testowaliśmy, czy są oni w stanie wykryć najbardziej odległą scenę w przestrzeni obrazów zdefiniowanej przez CNN. Eksperyment 2 był wizualnym wariantem paradygmatu Deese’a-Roedigera-McDermotta. Poprosiliśmy uczestników o zapamiętanie zestawu fotografii z tej samej kategorii scen. Fotografie zostały wstępnie wybrane na podstawie ich odległości od określonego prototypu wizualnego (zdefiniowanego jako centroid przestrzeni obrazowej). W teście rozpoznawania zaobserwowaliśmy wyższy odsetek fałszywych alarmów dla scen bliższych prototypowi wizualnemu. Nasze wyniki pokazują, że podobieństwo mierzone przez CNN znajduje odzwierciedlenie w ludzkim zachowaniu: ludzie mogą wykrywać sceny nieparzyste lub być zwabieni do fałszywych alarmów podobnymi bodźcami. Metoda ta może być wykorzystana w dalszych badaniach dotyczących pamięci wzrokowej dla złożonych scen.