Hashtag-aktiveret demultiplexing baseret på allestedsnærværende overfladeproteinekspression
Vi forsøgte at udvide antistofbaserede multiplexingstrategier til scRNA-seq ved hjælp af en modifikation af vores CITE-seq-metode. Vi valgte oprindeligt et sæt monoklonale antistoffer rettet mod ubiquitært og stærkt udtrykte immunoverflademarkører (CD45, CD98, CD44 og CD11a), kombinerede disse antistoffer i otte identiske puljer (pulje A til H) og konjugerede efterfølgende hver pulje til et særskilt Hashtag-oligonukleotid (herefter benævnt HTO, Fig. 1a; “Metoder” sektion). HTO’erne indeholder en unik 12-bp stregkode, der kan sekventeres sammen med det cellulære transkriptom med kun mindre ændringer af standard scRNA-seq-protokoller. Vi benyttede en forbedret og forenklet konjugeringskemi sammenlignet med vores tidligere tilgang , ved at bruge iEDDA-klikkemi til kovalent at binde oligonukleotider til antistoffer (“Metoder”-afsnittet).
Vi har designet vores strategi således, at CITE-seq og Cell Hashing kan udføres samtidigt, men at der genereres separate sekventeringsbiblioteker. Specifikt indeholder HTO’erne et andet amplifikationshåndtag end vores standard CITE-seq antibody-derived tags (ADT) (“Metode”-afsnittet). Dette gør det muligt at amplificere HTO’er, ADT’er og scRNA-seq-biblioteker uafhængigt af hinanden og samle dem i de ønskede mængder. Især har vi tidligere observeret en robust genvinding af antistofsignaler fra højt udtrykte epitoper på grund af deres ekstremt høje antal kopier. Dette står i modsætning til de omfattende “dropout”-niveauer, der er observeret for scRNA-seq-data, og det tyder på, at vi kan genvinde HTO’er fra hver enkelt celle nøjagtigt, hvilket gør det muligt at henføre dem til oprindelsesprøven med høj nøjagtighed.
For at benchmarke vores strategi og demonstrere dens anvendelighed fik vi perifere mononukleære blodceller (PBMC’er) fra otte separate menneskelige donorer (benævnt donorer A til H) og farvede uafhængigt hver prøve med en af vores HTO-konjugerede antistofpuljer, mens vi samtidig udførte et titreringseksperiment med en pulje af syv immunfænotypiske markører (“Metoder”-afsnittet) til CITE-seq. Vi pulede efterfølgende alle cellerne sammen i lige store mængder sammen med et lige stort antal ufarvede HEK293T-celler (og 3 % mus NIH-3T3-celler) som negative kontroller og kørte puljen i en enkelt lane på 10x Genomics Chromium Single Cell 3′ v2-systemet. I overensstemmelse med fremgangsmåden i Kang et al. “super-loadede” vi 10x Genomics-instrumentet ved at indlæse celler i en betydeligt højere koncentration med et forventet udbytte på 20.000 enkeltceller og 5.000 multiplets. Baseret på Poisson-statistik bør 4365 multiplets repræsentere cellekombinationer fra forskellige prøver og kan potentielt kasseres, hvilket fører til en uopklaret multiplet-rate på 3,1 %. Det er bemærkelsesværdigt, at hvis man opnår en lignende multipletrate uden multiplexing, vil det give ~ 4000 singlets. Da omkostningerne ved kommercielle dråbe-baserede systemer er faste pr. kørsel til prøveforberedelse, giver multiplexing derfor mulighed for profilering af ~ 400% flere celler for de samme omkostninger.
Vi udførte partitionering og omvendt transskription i henhold til standardprotokollerne, idet vi kun anvendte en let ændret nedstrøms amplifikationsstrategi (“Metoder”-afsnittet) for at generere transkriptom-, HTO- og ADT-biblioteker. Vi pulede og sekventerede disse på en Illumina HiSeq2500 (to hurtigt kørende flowceller), idet vi tilstræbte et 90%:5%:5%:5% bidrag fra de tre biblioteker i sekventeringsdataene. Derudover udførte vi genotypning af alle otte PBMC-prøver og HEK293T-celler med Illumina Infinium CoreExome-arrayet, hvilket gjorde det muligt for os at udnytte både HTO’er og prøvegenotyper (vurderet ved demuxlet ) som uafhængige demultiplexeringstilgange.
Ved undersøgelse af parvis ekspression af to HTO-tællinger observerede vi relationer, der ligner “species-mixing”-plots (Fig. 1b), hvilket tyder på gensidig eksklusivitet af HTO-signal mellem singletter. I forlængelse af parvis analyse udviklede vi en statistisk model til at klassificere hver stregkode som “positiv” eller “negativ” for hver HTO (“Metoder”-afsnittet). Kort fortalt modellerede vi “baggrundssignalet” for hvert HTO uafhængigt som en negativ binomialfordeling, idet vi estimerede baggrundscellerne på grundlag af resultaterne af en indledende k-medoides-gruppering af alle HTO-reads (“Metoder”-afsnittet). Stregkoder med HTO-signaler over 99 %-kvantilen for denne fordeling blev mærket som “positive”, og stregkoder, der var “positive” for mere end én HTO, blev mærket som multiplets. Vi klassificerede alle stregkoder, hvor vi påviste mindst 200 RNA UMI, uanset HTO-signal.
Vores klassifikationer (visualiseret som et varmekort i Fig. 1c) tydede på en klar identifikation af 8 singlet-populationer samt multiplet-grupper. Vi identificerede også stregkoder med ubetydeligt baggrundssignal for nogen af HTO’erne (mærket som “negativer”), der primært (86.5%) bestod af HEK293T- og museceller. Vi fjernede alle HEK293T- og museceller fra downstream-analyser (“Metoder”-afsnittet), idet de resterende stregkoder repræsenterede 14 002 singlets og 2974 identificerbare multiplets, hvilket var i overensstemmelse med forventningerne. Vores klassifikationer var også fuldt ud i overensstemmelse med en tSNE-indlejring, beregnet ved hjælp af kun de 8 HTO-signaler, hvilket muliggjorde en klar visualisering ikke kun af de 8 grupper af singlets (donorer A til H), men også af de 28 små grupper, der repræsenterer alle mulige doubletkombinationer (Fig. 1d). Desuden observerede vi et klart positivt skift i fordelingen af RNA UMI pr. stregkode for multiplets, som forventet (Fig. 1e), mens de resterende negative stregkoder udtrykte færre UMI’er og kan repræsentere mislykkede reaktioner eller “tomme” dråber, der kun indeholder omgivende RNA. Disse resultater tyder stærkt på, at HTO’er med succes tildelte hver stregkode til sin oprindelige prøve og muliggjorde robust påvisning af multiplets på tværs af prøverne. Det store dynamiske område for RNA-UMI pr. celle-stribekode i multiplets (fig. 1e) illustrerer vanskeligheden ved entydig multiplettildeling baseret på højere UMI-tællinger. , og vi observerer de samme udfordringer med det samlede HTO-signal (Additional file 1: Figur S1A). Udførelse af transkriptomisk clustering af de klassificerede singlets muliggjorde klar påvisning af syv hæmatopoietiske subpopulationer, som var spredt på tværs af alle 8 donorer (Fig. 1f).
Genotype-baseret demultiplexing validerer Cell Hashing
Vi sammenlignede derefter vores HTO-baserede klassifikationer med dem, der blev opnået ved demuxlet . Overordnet set observerede vi en stærk overensstemmelse mellem teknikkerne, selv når der tages hensyn til den præcise prøveblanding i kaldet doublets (Fig. 2a). Ved at undersøge områderne med uoverensstemmelse identificerede vi 871 stregkoder, der blev klassificeret på grundlag af HTO-niveauer som singlets, men blev identificeret som “tvetydige” af demuxlet. Det er bemærkelsesværdigt, at styrken af HTO-klassifikationen for disse uenige stregkoder (repræsenteret ved antallet af læsninger, der blev tildelt den højest udtrykte HTO) var identisk med de stregkoder, der blev klassificeret som singlets ved begge metoder (Fig. 2b). Diskordante stregkoder havde imidlertid et reduceret antal RNA UMI-numre (fig. 2c). Vi konkluderer, at disse stregkoder sandsynligvis ikke kunne klassificeres genetisk ved vores relativt lave sekventeringsdybde (~ 24,115 reads pr. celle), som er under den anbefalede dybde for anvendelse af demuxlet, men sandsynligvis repræsenterer ægte enkeltceller baseret på vores HTO-klassifikationer.
Dertil kommer, at vi også observerede 2528 stregkoder, der modtog diskordante singlet/doublet-klassifikationer mellem de to teknikker (Fig. 2d). Vi bemærker, at dette afspejler et mindretal af stregkoder (sammenlignet med 13 421 samstemmende klassifikationer), og at det i disse uoverensstemmende tilfælde er vanskeligt at være sikker på, hvilken af metoderne der er korrekt. Da vi imidlertid undersøgte UMI-fordelingerne for hver klassifikationsgruppe, observerede vi, at kun stregkoder, der blev klassificeret som doubletter ved begge teknikker, udviste et positivt skift i transkriptomisk kompleksitet (Fig. 2d). Dette tyder på, at disse uoverensstemmende kald i vid udstrækning består af ægte singlets og repræsenterer konservative falske positive fra begge metoder, måske på grund af omgivende RNA- eller HTO-signal. I overensstemmelse med denne fortolkning, da vi begrænsede vores analyse til tilfælde, hvor demuxlet kaldte stregkoder som doublets med > 95% sandsynlighed, observerede vi et fald på 75% i antallet af diskordante kald (Fig. 2e). Demuxlet kræver tilstrækkeligt antal læsninger og SNP’er for entydigt at klassificere en celle til en donor, og som forventet havde diskordant klassificerede celler lavere antal sekventeringslæsninger og SNP’er (Yderligere fil 1: Figur S2A-D).
Finalt observerede vi også et sjældent antal tilfælde, hvor både Cell Hashing og demuxlet klassificerede celler som singlets, men med diskordante (216/11,464; 1.9%) donorklassifikationer. For at undersøge det yderligere udnyttede vi det faktum, at alle donorer (A-G) undtagen én (H) også blev farvet med CITE-seq-antistoffer, og derfor burde donor H-cellerne ikke indeholde ADT-reads. I 40 tilfælde, hvor demuxlet, men ikke Cell Hashing, klassificerede celler som donor H, observerede vi imidlertid robuste (> 1000) ADT-tællinger i 37 tilfælde, hvilket tyder på, at disse uoverensstemmende opkald er fejlklassificeringsfejl fra demuxlet (Yderligere fil 1: Figur S2E), i overensstemmelse med demuxlets estimerede fejlfrekvens på 1-2% .
For yderligere at sikre, at baggrundsbindingsniveauer ikke førte til ukorrekt demultiplexede prøver, udførte vi et separat eksperiment, hvor vi blandede fire cellelinjer (HEK293T, THP1, K562 og KG1) sammen, hver uafhængigt mærket med tre forskellige Cell Hashing-oligoer. Efter demultiplexering, for at tildele hver stregkode til en cellelinje af oprindelse, grupperede vi cellerne på grundlag af deres RNA-ekspressionsniveauer og opnåede fire transkriptomiske klynger (som forventet). Ved at sammenligne vores transkriptomiske klynger med demultiplexeringsresultaterne observerede vi næsten perfekt overensstemmelse (99,7 %), hvilket viser en lav fejltildelingsrate for dette eksperiment (Yderligere fil 1: Figur S3A, B).
Sluttelig forsøgte vi at estimere de falsk-negative rater for Cell Hashing, der repræsenterer ægte enkeltceller, der ikke modtager tilstrækkeligt Cell Hashing-signal til at blive klassificeret som singlets. For at gøre dette undersøgte vi alle HTO-klassificerede “singlet”- og “negative” stregkoder fra PBMC-eksperimentet og udførte clustering baseret på transkriptomdata. Som forventet fandt vi, at “negative” celler overvejende dannede en særskilt klynge i forhold til singlets. Vi observerede dog 117 stregkoder, der oprindeligt var klassificeret som negative, men hvis transkriptomiske profiler blev grupperet på tværs af PBMC-subtyper af singlet-celler. Disse stregkoder repræsenterer sandsynligvis enkeltceller, der blev klassificeret forkert fra Cell Hashing, hvilket repræsenterer en falsk-negativ rate på 0,9 % (Additional file 1: Figur S4), men har ubetydelige virkninger på estimater af celletypeproportioner. Samlet set validerer vores resultater, at Cell Hashing muliggør robust og præcis prøveklassificering på tværs af forskellige systemer.
Cell Hashing muliggør effektiv optimering af CITE-seq-antistofpaneler
Vores multiplexeringsstrategi muliggør ikke kun pooling på tværs af donorer, men også den samtidige profilering af flere eksperimentelle betingelser. Dette er bredt anvendeligt til den samtidige profilering af forskellige miljømæssige og genetiske forstyrrelser, men vi tænkte, at vi også effektivt kunne optimere eksperimentelle arbejdsgange, såsom titrering af antistofkoncentrationer til CITE-seq-eksperimenter. I flowcytometri køres antistoffer typisk individuelt over en stor fortyndingsrække for at vurdere signal/støj-forholdet og identificere optimale koncentrationer . Mens sådanne eksperimenter ville være ekstremt omkostningstungt, hvis de blev kørt som individuelle 10x Genomics-baner, tænkte vi, at vi kunne multiplexe disse eksperimenter sammen ved hjælp af Cell Hashing.
Vi inkuberede derfor PBMC’er fra forskellige donorer med en fortyndingsrække af antistofkoncentrationer, der spænder over tre størrelsesordener (“Metoder”-afsnittet). Koncentrationerne af CITE-seq-antistoffer blev forskudt mellem de forskellige prøver for at holde den samlede mængde af antistof og oligo ensartet i hver prøve. Efter demultiplexing af prøverne undersøgte vi ADT-fordelingerne på tværs af alle koncentrationer for hvert antistof (eksempler i fig. 3a-c) og vurderede signal/støj-forholdet ved at beregne et farvningsindeks svarende til almindeligt anvendte målinger til optimering af flowcytometri (fig. 3d) (“Metoder”-afsnittet).
Alle antistoffer udviste kun baggrundssignal i de negative kontrolbetingelser og meget svagt signal/støj ved 0,06 μg/test. Vi observerede, at signal-støj-forholdet for de fleste antistoffer begyndte at mættes inden for koncentrationsområdet 0,5 til 1 μg/test, hvilket kan sammenlignes med de anbefalede koncentrationer til flowcytometri (fig. 3d). Dette eksperiment var ment som et proof of concept; et ideelt titreringseksperiment ville bruge celler fra den samme donor til alle betingelser og et større koncentrationsområde, men demonstrerer klart, hvordan Cell Hashing kan bruges til hurtigt og effektivt at optimere eksperimentelle arbejdsgange.
Cell Hashtags muliggør diskrimination af celler af lav kvalitet fra omgivende RNA
Vores cell Hashtags kan diskriminere enkeltceller fra doubletter baseret på det klare udtryk af en enkelt HTO, og vi spurgte derefter, om denne funktion også kunne skelne celler af lav kvalitet fra omgivende RNA. Hvis det var tilfældet, ville det gøre det muligt for os at reducere vores UMI-“cutoff” (tidligere sat til 200) og ville give mulighed for, at visse stregkoder, der repræsenterer omgivende RNA, kan udtrykke mere UMI end nogle ægte enkeltceller. De fleste arbejdsgange sætter strenge UMI-cutoffs for at udelukke alt ambient RNA, hvilket forvrænger scRNA-seq-resultater mod celler med lavt RNA-indhold og sandsynligvis forvrænger proportionelle estimater af celletype.
Ved hensyntagen til 4344 stregkoder, der indeholder 50-200 UMI, genfandt vi 1110 yderligere singler baseret på HTO-klassifikationer, med 3108 stregkoder karakteriseret som negative. Vi klassificerede hver stregkode som en af vores tidligere bestemte 7 hæmatopoietiske populationer (“Metoder” sektion; Fig. 1F) og visualiserede resultaterne på en transkriptomisk tSNE-indlejring, beregnet uafhængigt for både “singlet” og “negative” grupper. For forudsagte singlets projicerede stregkoder til B-, NK-, T- og myeloidpopulationer, som konsekvent blev adskilt på tSNE, hvilket tyder på, at disse stregkoder repræsenterer ægte enkeltceller (Fig. 3e). I modsætning hertil adskilte “negative” stregkoder sig ikke på grundlag af deres tvungne klassificering, hvilket er i overensstemmelse med, at disse stregkoder afspejler omgivende RNA-blandinger, der kan blande flere subpopulationer. Vi konkluderer derfor, at Cell Hashing ved at give en aflæsning af prøvens identitet, der er uafhængig af transkriptomet, kan hjælpe med at genvinde celler af lav kvalitet og/eller celler med meget lavt RNA-indhold, som ellers kan være vanskelige at skelne fra omgivende RNA (Fig. 3f).
Til et universelt Cell Hashing-antistofreagens
For vores proof of principle-eksperimenter anvendte vi en pulje af antistoffer rettet mod højt udtrykte immunoverflademarkører (CD45, CD98, CD44 og CD11a). For at mulitplexing af enhver celletype og prøve er mulig, besluttede vi at redesigne vores panel for at målrette mod mere allestedsnærværende udtrykte overflademarkører. MHC klasse I-komplekset (beta-2-mikroglobulin) og natrium-kalium ATPase-underenheden (CD298) er blandt de mest almindeligt udtrykte overfladeproteiner i humane væv . Ved at anvende en pulje af antistoffer, der er rettet mod begge proteiner, kan vi multiplexe stort set alle celletyper i ét forsøg. Mens dette manuskript var under revision, viste Hartmann og kolleger, at den samme antistofkombination var et universelt multiplexeringsreagens til CyTOF . De ekstremt høje ekspressionsniveauer for begge markører bør muliggøre en robust HTO-demultiplexing, men i princippet kunne cellerne mærkes med et overvældende antal enkeltstrengede polyA-oligoer, som kunne konkurrere med polyadenylerede cellulære mRNA’er, hvilket ville resultere i lavere gen- og/eller UMI-tællinger pr. celle. For at undersøge denne potentielle konkurrence farvede vi Jurkat-celler med en fortyndingsrække af Cell Hashing-antistoffer, kørte en vognbane med 10x Chromium single cell 3′ v2 sammen med en vognbane med ikke-hashede celler og sekventerede de resulterende transkriptombiblioteker. Transkriptomiske kompleksitetsniveauer, som angivet ved forholdet mellem sekventeringslæsninger og UMI-tællinger pr. celle, var ikke til at skelne fra ikke-hashede celler over alle testede koncentrationer af Cell Hashing-antistoffer, hvilket illustrerer ingen ulemper ved multiplexing af prøver (Additional file 1: Figur S5). Samlet set viser disse resultater, hvordan Cell Hashing nemt kan anvendes på stort set alle humane prøver med let tilgængelige kommercielle reagenser og uden tab af transkriptomisk kompleksitet.