Las personas son notablemente buenas recordando fotografías. Para investigar más a fondo la naturaleza de las representaciones almacenadas y la fidelidad de los recuerdos humanos, sería útil evaluar la similitud visual de los estímulos presentados en los experimentos. Aquí, exploramos el posible uso de las redes neuronales convolucionales (CNN) como medida de la similitud perceptiva o representacional de las escenas visuales con respecto a la investigación de la memoria visual. En el Experimento 1, presentamos a los participantes conjuntos de nueve imágenes de la misma categoría de escena y probamos si eran capaces de detectar la escena más distante en el espacio de imágenes definido por la CNN. El Experimento 2 fue una variante visual del paradigma Deese-Roediger-McDermott. Se pidió a los participantes que recordaran un conjunto de fotografías de la misma categoría de escena. Las fotografías fueron preseleccionadas en función de su distancia a un prototipo visual concreto (definido como centroide del espacio de la imagen). En la prueba de reconocimiento, observamos mayores tasas de falsas alarmas para las escenas más cercanas a este prototipo visual. Nuestros resultados muestran que la similitud medida por la CNN se refleja en el comportamiento humano: las personas pueden detectar escenas extrañas o ser atraídas por falsas alarmas con estímulos similares. Este método puede utilizarse para otros estudios relativos a la memoria visual para escenas complejas.