Mennesker er bemærkelsesværdigt gode til at huske fotografier. For yderligere at undersøge arten af de lagrede repræsentationer og troværdigheden af menneskelige erindringer ville det være nyttigt at evaluere den visuelle lighed af stimuli, der præsenteres i eksperimenter. Her undersøgte vi den mulige anvendelse af convolutionelle neurale netværk (CNN) som et mål for perceptuel eller repræsentationel lighed af visuelle scener med hensyn til forskning i visuel hukommelse. I eksperiment 1 præsenterede vi deltagerne for sæt af ni billeder fra den samme scenekategori og testede, om de var i stand til at opdage den mest fjerne scene i billedrummet defineret af CNN. Forsøg 2 var en visuel variant af Deese-Roediger-McDermott-paradigmet. Vi bad deltagerne om at huske et sæt fotografier fra den samme scenekategori. Fotografierne blev udvalgt på forhånd på grundlag af deres afstand til en bestemt visuel prototype (defineret som billedrummets centroid). I genkendelsestesten observerede vi højere falske alarmrater for scener, der lå tættere på denne visuelle prototype. Vores resultater viser, at den lighed, der måles af CNN, afspejles i menneskelig adfærd: Mennesker kan opdage ulige scener eller blive lokket til falske alarmer med lignende stimuli. Denne metode kan bruges til yderligere undersøgelser vedrørende visuel hukommelse for komplekse scener.