Hashtag-enabled demultiplexing based on ubiquitous surface protein expression
We streefden ernaar om antilichaam-gebaseerde multiplexing strategieën uit te breiden naar scRNA-seq met behulp van een wijziging van onze CITE-seq methode . We kozen aanvankelijk een set van monoklonale antilichamen gericht tegen ubiquitair en zeer tot expressie gebrachte immune oppervlaktemarkers (CD45, CD98, CD44, en CD11a), gecombineerd deze antilichamen in acht identieke zwembaden (pool A tot en met H), en vervolgens geconjugeerd elke pool aan een afzonderlijke Hashtag oligonucleotide (voortaan aangeduid als HTO, Fig. 1a; “Methoden” sectie). De HTO’s bevatten een unieke 12-bp barcode die kan worden gesequenced naast de cellulaire transcriptoom, met slechts kleine wijzigingen in de standaard scRNA-seq protocollen. We gebruikten een verbeterde en vereenvoudigde conjugatie chemie in vergelijking met onze vorige aanpak , door het gebruik van iEDDA klik chemie om oligonucleotiden covalent hechten aan antilichamen (“Methods” sectie).
We ontwierpen onze strategie om CITE-seq en Cell Hashing gelijktijdig kunnen worden uitgevoerd, maar om afzonderlijke sequencing bibliotheken te genereren. De HTO’s bevatten namelijk een andere amplificatiegreep dan onze standaard CITE-seq-labels die van antilichamen zijn afgeleid (ADT) (“Methoden”). Hierdoor kunnen HTO’s, ADT’s en scRNA-seq-bibliotheken onafhankelijk van elkaar worden versterkt en in de gewenste hoeveelheden worden samengevoegd. Met name hebben we eerder waargenomen robuust herstel van antilichaam signalen van zeer tot expressie gebrachte epitopen als gevolg van hun extreem hoge kopie getal. Dit is in tegenstelling tot de uitgebreide “drop-out” niveaus waargenomen voor scRNA-seq gegevens en suggereert dat we HTO’s trouw kunnen herstellen van elke afzonderlijke cel, waardoor toewijzing aan het monster van oorsprong met hoge getrouwheid.
Om onze strategie te benchmarken en het nut ervan aan te tonen, verkregen we perifere bloed mononucleaire cellen (PBMC’s) van acht afzonderlijke menselijke donoren (aangeduid als donoren A tot en met H) en onafhankelijk gekleurd elk monster met een van onze HTO-geconjugeerde antilichaam zwembaden, terwijl tegelijkertijd het uitvoeren van een titratie experiment met een pool van zeven immunofenotypische markers (“Methoden” sectie) voor CITE-seq. Vervolgens hebben we gepoold alle cellen samen in gelijke mate, naast een gelijk aantal niet-gekleurde HEK293T cellen (en 3% muis NIH-3T3 cellen) als negatieve controles, en liep de pool in een enkele lane op de 10x Genomics Chromium Single Cell 3 ‘v2 systeem. Naar aanleiding van de aanpak in Kang et al. , we “super-beladen” de 10x Genomics instrument, het laden van cellen in een aanzienlijk hogere concentratie met een verwachte opbrengst van 20.000 enkele cellen en 5000 multiplets. Op basis van Poisson statistieken, 4365 multiplets moet vertegenwoordigen cel combinaties van verschillende monsters en kan mogelijk worden weggegooid, wat leidt tot een onopgeloste multiplet tarief van 3,1%. Met name het bereiken van een soortgelijke multiplet tarief zonder multiplexing zou ~ 4000 singlets opleveren. Aangezien de kosten van commerciële druppel-gebaseerde systemen is vastgesteld per run voor monstervoorbereiding, multiplexing zorgt dus voor de profilering van ~ 400% meer cellen voor dezelfde cost.
We uitgevoerd partitionering en reverse transcriptie volgens de standaard protocollen, gebruikmakend van slechts een licht gewijzigde downstream amplificatie strategie (“Methoden” sectie) om transcriptoom, HTO, en ADT bibliotheken te genereren. We hebben deze samengevoegd en gesequeneerd op een Illumina HiSeq2500 (twee flowcells voor snelle sequenering), waarbij we gestreefd hebben naar een 90%:5%:5% bijdrage van de drie bibliotheken in de sequencinggegevens. Daarnaast hebben we genotypering van alle acht PBMC monsters en HEK293T cellen met de Illumina Infinium CoreExome array, waardoor we zowel HTO’s en monster genotypen (beoordeeld door demuxlet ) te gebruiken als onafhankelijke demultiplexing benaderingen.
Bij het onderzoeken van paarsgewijze expressie van twee HTO-tellingen, zagen we relaties verwant aan “species-mixing” plots (Fig. 1b), wat suggereert wederzijdse exclusiviteit van HTO-signaal tussen singlets. Uitbreiding van de paarsgewijze analyse, ontwikkelden we een statistisch model om elke barcode te classificeren als “positief” of “negatief” voor elke HTO (“Methoden” sectie). In het kort, we modelleerden de “achtergrond” signaal voor elke HTO onafhankelijk als een negatieve binomiale verdeling, het schatten van achtergrondcellen op basis van de resultaten van een eerste k-medoids clustering van alle HTO leest (“Methoden” sectie). Barcodes met HTO signalen boven de 99% kwantiel voor deze verdeling werden gelabeld als “positief”, en barcodes die “positief” waren voor meer dan een HTO werden gelabeld als multiplets. We geclassificeerd alle barcodes waar we gedetecteerd ten minste 200 RNA UMI, ongeacht HTO-signaal.
Onze classificaties (gevisualiseerd als een heatmap in Fig. 1c) suggereerde een duidelijke identificatie van 8 singlet populaties, evenals multiplet groepen. We identificeerden ook streepjescodes met verwaarloosbare achtergrondsignaal voor een van de HTO’s (aangeduid als “negatieven”), die voornamelijk (86,5%) van HEK293T en muis cellen. We verwijderden alle HEK293T en muis cellen uit downstream analyses (“Methoden” sectie), met de resterende barcodes die 14,002 singlets en 2974 identificeerbare multiplets, in lijn met de verwachtingen. Onze classificaties waren ook volledig in overeenstemming met een tSNE inbedding, berekend met behulp van alleen de 8 HTO signalen, die de duidelijke visualisatie mogelijk niet alleen van de 8 groepen van singlets (donoren A tot en met H), maar ook de 28 kleine groepen die alle mogelijke doublet combinaties (Fig. 1d). Bovendien zagen we een duidelijke positieve verschuiving in de verdeling van RNA UMI per barcode voor multiplets, zoals verwacht (Fig. 1e), terwijl de resterende negatieve barcodes uitgedrukt minder UMI’s en kunnen vertegenwoordigen mislukte reacties of “lege” druppels die alleen omgeving RNA. Deze resultaten suggereren sterk dat HTO’s met succes toegewezen elke barcode in zijn oorspronkelijke monster en ingeschakeld robuuste detectie van cross-sample multiplets. De grote dynamische bereik van RNA UMI per cel barcode in multiplets (Fig. 1e) illustreert de moeilijkheid van ondubbelzinnige multiplet toewijzing op basis van hogere UMI telt. en we observeren dezelfde uitdagingen met de totale HTO-signaal (Additional file 1: figuur S1A). Het uitvoeren van transcriptomische clustering van de geclassificeerde singlets maakte duidelijke detectie van zeven hematopoietische subpopulaties mogelijk, die over alle 8 donoren waren verspreid (Fig. 1f).
Genotype-gebaseerde demultiplexing valideert Cell Hashing
Wij vergeleken vervolgens onze HTO-gebaseerde classificaties met die verkregen door demuxlet . Over het algemeen zagen we een sterke overeenstemming tussen de technieken, zelfs wanneer rekening wordt gehouden met de precieze steekproef mengsel in de genoemde doubletten (Fig. 2a). Het verkennen van de gebieden van onenigheid, identificeerden we 871 barcodes die werden geclassificeerd op basis van HTO niveaus als singlets, maar werden geïdentificeerd als “ambigu” door demuxlet. Met name de sterkte van HTO-classificatie voor deze disharmonische barcodes (vertegenwoordigd door het aantal gelezen toegewezen aan de meest tot expressie gebrachte HTO) was identiek aan de barcodes die werden geclassificeerd als singlets door beide benaderingen (Fig. 2b). Echter, disharmonische barcodes hadden verminderde RNA UMI telt (Fig. 2c). Wij concluderen dat deze barcodes waarschijnlijk niet genetisch kon worden ingedeeld op onze relatief ondiepe sequencing diepte (~ 24.115 leest per cel), die onder de aanbevolen diepte voor het gebruik van demuxlet, maar waarschijnlijk vertegenwoordigen echte enkele cellen op basis van onze HTO classificaties.
Bovendien zagen we ook 2528 barcodes die discordante singlet/doublet classificaties kregen tussen de twee technieken (Fig. 2d). Wij merken op dat het hier om een minderheid van barcodes gaat (in vergelijking met 13.421 concordante classificaties) en dat het in deze discordante gevallen moeilijk is om met zekerheid te zeggen welke van deze methoden juist is. Echter, toen we onderzochten de UMI distributies van elke classificatie groep, zagen we dat alleen barcodes geclassificeerd als doubletten door beide technieken vertoonden een positieve verschuiving in transcriptomic complexiteit (Fig. 2d). Dit suggereert dat deze discordante oproepen grotendeels uit echte singlets bestaan en conservatieve vals-positieven van beide methoden vertegenwoordigen, misschien als gevolg van omgevings-RNA of HTO-signaal. In overeenstemming met deze interpretatie, toen we onze analyse beperkt tot gevallen waarin demuxlet genoemd barcodes als doubletten met > 95% waarschijnlijkheid, zagen we een 75% daling van het aantal discordante oproepen (Fig. 2e). Demuxlet vereist voldoende aantallen gelezen en SNP’s om een cel ondubbelzinnig te classificeren naar een donor, en zoals verwacht, discordant geclassificeerde cellen hadden lagere aantallen sequencing gelezen en SNP’s (Additional file 1: Figuur S2A-D).
Ten slotte hebben we ook een zeldzaam aantal gevallen waargenomen waarin zowel Cell Hashing en demuxlet geclassificeerde cellen als singlets, maar met discordante (216/11.464; 1,9%) donor classificaties. Om dit verder te onderzoeken, maakten we gebruik van het feit dat alle donors (A-G) behalve één (H) ook gekleurd waren met CITE-seq antilichamen, en daarom zouden donor H cellen geen ADT gegevens mogen bevatten. Echter, in 40 gevallen waarin demuxlet, maar niet Cell Hashing, geclassificeerd cellen als donor H, zagen we robuuste (> 1000) ADT-tellingen in 37 gevallen, wat suggereert dat deze discordante oproepen zijn misclassificatie fouten van demuxlet (Additional file 1: figuur S2E), in overeenstemming met de geschatte fout demuxlet’s percentage van 1-2% .
Om er verder voor te zorgen dat achtergrondbindingsniveaus niet leidden tot onjuist gedemultiplexed monsters, voerden we een apart experiment waarbij we vier cellijnen (HEK293T, THP1, K562, en KG1) samen gemengd, elk onafhankelijk gelabeld met drie verschillende Cell Hashing oligos. Na demultiplexing, om elke barcode toe te wijzen aan een cellijn van oorsprong, we geclusterd cellen op basis van hun RNA expressie niveaus, het verkrijgen van vier transcriptomic clusters (zoals verwacht). Het vergelijken van onze transcriptomische clusters met de demultiplexing resultaten, zagen we bijna perfecte concordantie (99,7%), waaruit blijkt een lage mate van verkeerde toewijzing voor dit experiment (Additional file 1: Figuur S3A, B).
Ten slotte hebben we geprobeerd om de vals-negatieve tarieven voor Cell Hashing schatten, wat neerkomt op echte enkele cellen die niet voldoende Cell Hashing signaal ontvangen om te worden geclassificeerd als singlets. Om dit te doen, onderzochten we alle HTO-geclassificeerde “singlet” en “negatieve” streepjescodes van het PBMC-experiment en voerden clustering op basis van transcriptoomgegevens uit. Zoals verwacht, vonden we dat “negatieve” cellen overwegend een afzonderlijke cluster van singlets vormden. We observeerden echter 117 streepjescodes die oorspronkelijk als negatief waren geclassificeerd, maar waarvan de transcriptoomprofielen geclusterd waren in de PBMC-singlet-subtypes. Deze streepjescodes vertegenwoordigen waarschijnlijk enkele cellen die onjuist werden geclassificeerd van Cell Hashing, die een vals-negatieve tarief van 0,9% (Additional file 1: figuur S4), maar hebben verwaarloosbaar effect op celtype proportie schattingen. Bij elkaar genomen, onze resultaten valideren dat Cell Hashing robuuste en nauwkeurige monsterclassificatie over diverse systemen mogelijk maakt.
Cell Hashing maakt de efficiënte optimalisatie van CITE-seq antilichaam panels
Onze multiplexing strategie maakt het niet alleen mogelijk pooling over donoren, maar ook de gelijktijdige profilering van meerdere experimentele condities. Dit is breed toepasbaar op de gelijktijdige profilering van diverse milieu-en genetische verstoringen, maar we redeneerden dat we ook efficiënt kunnen optimaliseren experimentele workflows, zoals de titratie van antilichaam concentraties voor CITE-seq experimenten. In flowcytometrie, worden antilichamen meestal individueel uitgevoerd over een grote verdunningsreeks om signaal-ruis verhoudingen te beoordelen en optimale concentraties te identificeren. Terwijl dergelijke experimenten zou uiterst kosten prohibitief indien uitgevoerd als individuele 10x Genomics lanes, redeneerden we dat we konden multiplex deze experimenten samen met behulp van Cell Hashing.
We daarom geïncubeerd de PBMC’s van verschillende donoren met een verdunningsreeks van antilichaam concentraties variërend over drie orden van grootte (“Methoden” sectie). Concentraties van CITE-seq antilichamen werden gespreid tussen de verschillende monsters om de totale hoeveelheid antilichaam en oligo consistent te houden in elk monster. Na monster demultiplexing, onderzochten we ADT distributies over alle concentraties voor elk antilichaam (voorbeelden in Fig. 3a-c) en beoordeeld signaal-ruisverhouding door het berekenen van een kleuring index vergelijkbaar met algemeen gebruikte metrics voor flowcytometrie optimalisatie (Fig. 3d) (“Methods” sectie).
Alle antilichamen vertoonden alleen achtergrondsignaal in de negatieve controle omstandigheden en zeer zwak signaal-ruis bij 0,06 ug / test. We merkten op dat de signaal-ruisverhouding voor de meeste antilichamen begon te verzadigen binnen het concentratiebereik van 0,5 tot 1 ug / test, vergelijkbaar met de aanbevolen concentraties voor flowcytometrie (Fig. 3d). Dit experiment was bedoeld als een proof of concept, een ideale titratie experiment zou cellen van dezelfde donor te gebruiken voor alle omstandigheden en een groter bereik van concentraties, maar laat duidelijk zien hoe Cell Hashing kan worden gebruikt om snel en efficiënt te optimaliseren experimentele workflows.
Cell Hashtags maken het onderscheid van lage kwaliteit cellen uit de omgeving RNA
Onze cel hashtags kan onderscheid maken tussen enkele cellen van doubletten op basis van de duidelijke expressie van een enkele HTO, en we vroegen ons vervolgens af of deze functie kan ook lage kwaliteit cellen te onderscheiden van de omgeving RNA. Als dat zo is, zou dit ons in staat stellen om onze UMI “cutoff” (eerder ingesteld op 200) te verlagen en zou het mogelijk maken voor de mogelijkheid dat bepaalde streepjescodes die ambient RNA kan meer UMI dan sommige echte enkele cellen uit te drukken. De meeste workflows stellen strenge UMI cutoffs om alle omgevings-RNA uit te sluiten, biasing scRNA-seq resultaten tegen cellen met een laag RNA-gehalte en waarschijnlijk scheve proportionele schattingen van celtype.
Inderdaad, bij het overwegen van 4344 barcodes die 50-200 UMI, herstelden we 1110 extra singlets op basis van HTO classificaties, met 3108 barcodes gekenmerkt als negatieven. We geclassificeerd elke barcode als een van onze eerder vastgestelde 7 hematopoietische populaties (“Methoden” sectie; Fig. 1F) en gevisualiseerd de resultaten op een transcriptomische tSNE inbedding, onafhankelijk berekend voor zowel “singlets” en “negatieve” groepen. Voor voorspelde singlets, barcodes geprojecteerd op B, NK, T, en myeloïde populaties die consequent werden gescheiden op tSNE, wat suggereert dat deze barcodes vertegenwoordigen echte enkele cellen (Fig. 3e). In tegenstelling, “negatieve” streepjescodes niet gescheiden op basis van hun gedwongen indeling, consistent met deze streepjescodes weerspiegelen omgeving RNA mengsels die meerdere subpopulaties kan mengen. We concluderen dan ook dat door het verstrekken van een uitlezing van het monster identiteit die onafhankelijk is van het transcriptoom, Cell Hashing kan helpen herstellen van lage kwaliteit cellen en / of cellen met een zeer laag RNA inhoud die anders moeilijk te onderscheiden van omgevings-RNA (Fig. 3f).
Naar een universele Cell Hashing antilichaam reagens
Voor onze proof of principle experimenten, gebruikten we een pool van antilichamen gericht tegen zeer uitgedrukt immuun oppervlak markers (CD45, CD98, CD44, en CD11a). Om multiplexing van elk celtype en monster mogelijk te maken, besloten wij ons panel te herontwerpen om meer ubiquitair tot expressie komende oppervlaktemarkers te targeten. MHC klasse I complex (beta-2-microglobuline) en de natrium-kalium ATPase-subeenheid (CD298) behoren tot de meest algemeen tot expressie komende oppervlakte-eiwitten in menselijke weefsels. Het gebruik van een pool van antilichamen tegen beide eiwitten zou ons in staat stellen vrijwel elk celtype in één experiment te multiplexen. Terwijl dit manuscript werd herzien, werd dezelfde antilichaam combinatie aangetoond door Hartmann en collega’s om een universele multiplexing reagens voor CyTOF zijn. De extreem hoge expressieniveaus van beide markers moet robuuste HTO demultiplexing mogelijk te maken, maar in principe zou kunnen label cellen met een overweldigend aantal single-stranded polyA oligo’s die kunnen concurreren met gepolyadenyleerde cellulaire mRNA’s, wat resulteert in lagere gen en / of UMI telt per cel. Om deze potentiële concurrentie te onderzoeken, we gekleurd Jurkat cellen met een verdunningsreeks van Cell Hashing antilichamen, liep een rijstrook van 10x Chromium enkele cel 3 ‘v2 naast een rijstrook met niet gehashte cellen, en sequencing van de resulterende transcriptoom bibliotheken. Transcriptoom complexiteit niveaus, zoals aangegeven door de relatie tussen sequencing leest en UMI telt per cel, waren niet te onderscheiden van niet-gehasste cellen over alle geteste concentraties van Cell Hashing antilichamen, illustreren geen nadelen bij multiplexing monsters (Additional file 1: figuur S5). Tezamen laten deze resultaten zien hoe Cell Hashing gemakkelijk kan worden toegepast op vrijwel elk menselijk monster met gemakkelijk beschikbare commerciële reagentia en zonder een verlies van transcriptomische complexiteit.