People are notably good at remembering photographs. Para investigar melhor a natureza das representações armazenadas e a fidelidade das memórias humanas, seria útil avaliar a similaridade visual dos estímulos apresentados nos experimentos. Aqui, exploramos o possível uso de redes neurais convolucionais (CNN) como medida de similaridade perceptiva ou representacional de cenas visuais com respeito à pesquisa de memória visual. No Experimento 1, apresentamos aos participantes conjuntos de nove imagens da mesma categoria de cena e testamos se eles eram capazes de detectar a cena mais distante no espaço de imagem definido pela CNN. A Experiência 2 foi uma variante visual do paradigma Deese-Roediger-McDermott. Pedimos aos participantes que se lembrassem de um conjunto de fotografias da mesma categoria de cena. As fotografias foram pré-seleccionadas com base na sua distância a um determinado protótipo visual (definido como centroide do espaço de imagem). No teste de reconhecimento, observamos taxas mais altas de falsos alarmes para cenas mais próximas a este protótipo visual. Nossos achados mostram que a semelhança medida pela CNN se reflete no comportamento humano: as pessoas podem detectar cenas estranhas ou serem atraídas para falsos alarmes com estímulos semelhantes. Este método pode ser usado para estudos adicionais sobre memória visual para cenas complexas.