Ihmiset ovat huomattavan hyviä muistamaan valokuvia. Jotta tallennettujen representaatioiden luonnetta ja ihmisten muistien uskollisuutta voitaisiin tutkia tarkemmin, olisi hyödyllistä arvioida kokeissa esitettyjen ärsykkeiden visuaalista samankaltaisuutta. Tässä tutkimuksessa tutkittiin konvoluutiohermoverkkojen (convolutional neural networks, CNN) mahdollista käyttöä visuaalisten kohtausten havainto- tai edustuksellisen samankaltaisuuden mittarina visuaalisen muistin tutkimuksen kannalta. Kokeessa 1 esitimme osallistujille yhdeksän kuvan sarjat samasta kohtausluokasta ja testasimme, pystyivätkö osallistujat havaitsemaan kaukaisimman kohtauksen CNN:n määrittelemässä kuvaavaruudessa. Koe 2 oli Deese-Roediger-McDermott-paradigman visuaalinen muunnelma. Pyysimme osallistujia muistamaan joukon valokuvia samasta kohtausluokasta. Valokuvat valittiin ennalta niiden etäisyyden perusteella tiettyyn visuaaliseen prototyyppiin (joka oli määritelty kuva-avaruuden keskipisteeksi). Tunnistustestissä havaitsimme korkeampia väärien hälytysten määriä kohtauksissa, jotka olivat lähempänä tätä visuaalista prototyyppiä. Tuloksemme osoittavat, että CNN:n mittaama samankaltaisuus heijastuu ihmisen käyttäytymiseen: ihmiset voivat havaita parittomia kohtauksia tai tulla houkutelluiksi vääriin hälytyksiin samankaltaisilla ärsykkeillä. Tätä menetelmää voidaan käyttää jatkotutkimuksissa, jotka koskevat monimutkaisten kohtausten visuaalista muistia.