Les gens sont remarquablement bons pour se souvenir des photographies. Pour approfondir la nature des représentations stockées et la fidélité des souvenirs humains, il serait utile d’évaluer la similarité visuelle des stimuli présentés dans les expériences. Ici, nous avons exploré l’utilisation possible des réseaux de neurones convolutionnels (CNN) comme mesure de la similarité perceptive ou représentationnelle des scènes visuelles dans le cadre de la recherche sur la mémoire visuelle. Dans l’expérience 1, nous avons présenté aux participants des ensembles de neuf images de la même catégorie de scène et nous avons testé s’ils étaient capables de détecter la scène la plus éloignée dans l’espace d’image défini par CNN. L’expérience 2 était une variante visuelle du paradigme de Deese-Roediger-McDermott. Nous avons demandé aux participants de se souvenir d’un ensemble de photographies appartenant à la même catégorie de scènes. Les photographies ont été présélectionnées en fonction de leur distance par rapport à un prototype visuel particulier (défini comme centroïde de l’espace d’image). Lors du test de reconnaissance, nous avons observé des taux de fausses alarmes plus élevés pour les scènes plus proches de ce prototype visuel. Nos résultats montrent que la similarité mesurée par CNN se reflète dans le comportement humain : les gens peuvent détecter des scènes dépareillées ou être attirés par de fausses alarmes avec des stimuli similaires. Cette méthode peut être utilisée pour d’autres études concernant la mémoire visuelle de scènes complexes.