Hashtag-aktiverad demultiplexering baserad på ubiquitous ytproteinuttryck
Vi försökte utöka antikroppsbaserade multiplexeringsstrategier till scRNA-seq med hjälp av en modifiering av vår CITE-seq-metod. Vi valde inledningsvis en uppsättning monoklonala antikroppar riktade mot ubiquitärt och högt uttryckta immuna ytmarkörer (CD45, CD98, CD44 och CD11a), kombinerade dessa antikroppar till åtta identiska pooler (pool A till H) och konjugerade därefter varje pool till en distinkt Hashtag-oligonukleotid (hädanefter kallad HTO, figur 1a; avsnittet ”Metoder”). HTO:erna innehåller en unik streckkod på 12 bp som kan sekvenseras tillsammans med det cellulära transkriptomet, med endast mindre ändringar av standardprotokollen för scRNA-seq. Vi använde en förbättrad och förenklad konjugeringskemi jämfört med vårt tidigare tillvägagångssätt , genom att använda iEDDA-klickkemi för att kovalent fästa oligonukleotider till antikroppar (avsnittet ”Metoder”).
Vi utformade vår strategi så att CITE-seq och Cell Hashing kan utföras samtidigt, men för att generera separata sekvenseringsbibliotek. Specifikt innehåller HTO:erna ett annat amplifieringshandtag än våra standard CITE-seq antibody-derived tags (ADT) (avsnittet ”Metoder”). Detta gör att HTO:er, ADT:er och scRNA-seq-bibliotek kan amplifieras oberoende av varandra och sammanföras i önskad mängd. Vi har tidigare observerat en robust återhämtning av antikroppssignaler från högt uttryckta epitoper på grund av deras extremt höga antal kopior. Detta står i kontrast till de omfattande ”dropout”-nivåer som observerats för scRNA-seq-data och tyder på att vi troget kan återskapa HTOs från varje enskild cell, vilket gör det möjligt att med hög trovärdighet tilldela ursprungsmaterialet.
För att jämföra vår strategi och visa dess användbarhet erhöll vi mononukleära celler i perifert blod (PBMC) från åtta olika mänskliga donatorer (kallade donatorer A till H) och färgade oberoende av varandra varje prov med en av våra HTO-konjugerade antikroppspooler, samtidigt som vi utförde ett titreringsexperiment med en pool av sju immunfenotypiska markörer (avsnittet ”Metoder”) för CITE-seq. Vi sammanförde därefter alla celler i lika stor andel tillsammans med ett lika stort antal ofärgade HEK293T-celler (och 3 % NIH-3T3-celler från musen) som negativa kontroller, och körde poolen i en enda körfält på 10x Genomics Chromium Single Cell 3′ v2-systemet. I enlighet med tillvägagångssättet i Kang et al. ”superladdade” vi 10x Genomics-instrumentet genom att ladda celler i en betydligt högre koncentration med en förväntad avkastning på 20 000 enskilda celler och 5 000 multipletter. Baserat på Poisson-statistik bör 4365 multiplets representera cellkombinationer från olika prover och kan eventuellt kasseras, vilket leder till en andel olösta multiplets på 3,1 %. Om man uppnår en liknande multipletfrekvens utan multiplexering skulle det ge ~ 4000 singlets. Eftersom kostnaden för kommersiella droppbaserade system är fast per körning för provberedning, möjliggör multiplexering därför profilering av ~ 400 % fler celler för samma kostnad.
Vi utförde partitionering och omvänd transkription enligt standardprotokollen och använde endast en något modifierad nedströmsamplifieringsstrategi (avsnittet ”Metoder”) för att generera transkriptom-, HTO- och ADT-bibliotek. Vi sammanförde och sekvenserade dessa på en Illumina HiSeq2500 (två flödesceller för snabbkörning) och strävade efter att de tre biblioteken skulle bidra med 90 %:5 %:5 % i sekvenseringsdata. Dessutom utförde vi genotypning av alla åtta PBMC-prover och HEK293T-celler med Illumina Infinium CoreExome array, vilket gjorde det möjligt för oss att använda både HTO:er och provgenotyper (bedömda med demuxlet ) som oberoende demultiplexeringsmetoder.
När vi undersökte det parvisa uttrycket av två HTO-räkningar observerade vi förhållanden som liknar ”species-mixing”-plottar (Fig. 1b), vilket tyder på att det finns ömsesidig exklusivitet för HTO-signalen mellan singelceller. Vi utvidgade analysen bortom parvis analys och utvecklade en statistisk modell för att klassificera varje streckkod som ”positiv” eller ”negativ” för varje HTO (avsnittet ”Metoder”). I korthet modellerade vi ”bakgrundssignalen” för varje HTO oberoende av varandra som en negativ binomialfördelning och uppskattade bakgrundscellerna baserat på resultaten av en inledande k-medoidklustring av alla HTO-avläsningar (avsnittet ”Metoder”). Streckkoder med HTO-signaler över 99 %-kvantilen för denna fördelning märktes som ”positiva”, och streckkoder som var ”positiva” för mer än en HTO märktes som multipletter. Vi klassificerade alla streckkoder där vi upptäckte minst 200 RNA UMI, oavsett HTO-signal.
Våra klassificeringar (visualiserade som en värmekarta i fig. 1c) föreslog en tydlig identifiering av 8 singlet-populationer, liksom multipletgrupper. Vi identifierade också streckkoder med försumbar bakgrundssignal för någon av HTO:erna (märkta som ”negativa”), som huvudsakligen (86,5 %) bestod av HEK293T- och musceller. Vi tog bort alla HEK293T- och musceller från nedströmsanalyser (avsnittet ”Metoder”), och de återstående streckkoderna representerade 14 002 singlets och 2974 identifierbara multiplets, i linje med förväntningarna. Våra klassificeringar stämde också helt överens med en tSNE-inbäddning, beräknad med hjälp av endast de 8 HTO-signalerna, vilket gjorde det möjligt att tydligt visualisera inte bara de 8 grupperna av singlets (donatorer A till H) utan även de 28 små grupperna som representerar alla möjliga kombinationer av dubbletter (fig. 1d). Dessutom observerade vi en tydlig positiv förskjutning i fördelningen av RNA UMI per streckkod för multipletter, som förväntat (Fig. 1e), medan de återstående negativa streckkoderna uttryckte färre UMI och kan representera misslyckade reaktioner eller ”tomma” droppar som endast innehåller omgivande RNA. Dessa resultat tyder starkt på att HTO framgångsrikt tilldelade varje streckkod till sitt ursprungliga prov och möjliggjorde robust detektion av multiplets över provgränserna. Det stora dynamiska intervallet för RNA-UMI per cellstreckkod i multiplets (fig. 1e) illustrerar svårigheten med otvetydig multiplettilldelning baserad på högre UMI-antal. , och vi observerar samma utmaningar med den totala HTO-signalen (Additional file 1: Figur S1A). Genom att utföra transkriptomisk klustring av de klassificerade singletterna kunde man tydligt upptäcka sju hematopoetiska subpopulationer, som var spridda över alla 8 donatorer (Fig. 1f).
Genotypbaserad demultiplexering validerar Cell Hashing
Nästan jämförde vi våra HTO-baserade klassificeringar med de som erhållits genom demuxlet . Överlag observerade vi en stark överensstämmelse mellan teknikerna, även när man tar hänsyn till den exakta provblandningen i kallade doubletter (Fig. 2a). När vi utforskade områdena med oenighet identifierade vi 871 streckkoder som klassificerades baserat på HTO-nivåer som singlets men som identifierades som ”tvetydiga” av demuxlet. Det är anmärkningsvärt att styrkan i HTO-klassificeringen för dessa disharmoniska streckkoder (representerad av antalet läsuppgifter som tilldelats den högst uttryckta HTO:n) var identisk med de streckkoder som klassificerades som singlets med båda metoderna (fig. 2b). De diskordanta streckkoderna hade dock lägre RNA UMI-antal (fig. 2c). Vi drar slutsatsen att dessa streckkoder sannolikt inte kunde klassificeras genetiskt vid vårt relativt grunda sekvenseringsdjup (~ 24 115 reads per cell), vilket är under det rekommenderade djupet för användning av demuxlet, men att de sannolikt representerar riktiga singelceller baserat på våra HTO-klassificeringar.
Därutöver observerade vi också 2528 streckkoder som fick diskordanta singlet/doublet-klassificeringar mellan de två teknikerna (fig. 2d). Vi noterar att detta återspeglar en minoritet av streckkoder (jämfört med 13 421 överensstämmande klassificeringar) och att det i dessa disharmoniska fall är svårt att vara säker på vilken av metoderna som är korrekt. När vi undersökte UMI-fördelningarna för varje klassificeringsgrupp observerade vi dock att endast streckkoder som klassificerats som dubbletter med båda teknikerna uppvisade en positiv förskjutning i transkriptomisk komplexitet (fig. 2d). Detta tyder på att dessa diskordanta anrop till stor del består av riktiga singlets och utgör konservativa falska positiva från båda metoderna, kanske på grund av omgivande RNA- eller HTO-signal. I överensstämmelse med denna tolkning, när vi begränsade vår analys till fall där demuxlet kallade streckkoder som dubbletter med > 95 procents sannolikhet, observerade vi en 75-procentig minskning av antalet diskordanta anrop (fig. 2e). Demuxlet kräver tillräckligt många läsningar och SNP:er för att entydigt klassificera en cell till en donator, och som väntat hade diskordant klassificerade celler lägre antal sekvenseringsläsningar och SNP:er (Additional file 1: Figure S2A-D).
För det sista observerade vi också ett sällsynt antal fall där både Cell Hashing och demuxlet klassificerade celler som singletter, men med diskordanta (216/11 464; 1,9 %) donatorklassificeringar. För att undersöka detta ytterligare drog vi nytta av det faktum att alla donatorer (A-G) utom en (H) också färgades med CITE-seq-antikroppar, och därför borde donator H-cellerna inte innehålla ADT-läsningar. I 40 fall där demuxlet, men inte Cell Hashing, klassificerade celler som donator H, observerade vi dock robusta (> 1000) ADT-räkningar i 37 fall, vilket tyder på att dessa avvikande uppgifter är felklassificeringsfel från demuxlet (Additional file 1: Figur S2E), i linje med demuxlets uppskattade felfrekvens på 1-2 % .
För att ytterligare säkerställa att bakgrundsbindningsnivåer inte ledde till felaktigt demultiplexerade prover utförde vi ett separat experiment där vi blandade fyra cellinjer (HEK293T, THP1, K562 och KG1) tillsammans, var och en oberoende av varandra märkt med tre olika Cell Hashing-oligon. Efter demultiplexering, för att tilldela varje streckkod till en cellinje av ursprung, klustrade vi cellerna på grundval av deras RNA-uttrycksnivåer och fick fyra transkriptomiska kluster (som förväntat). När vi jämförde våra transkriptomiska kluster med demultiplexeringsresultaten observerade vi en nästan perfekt överensstämmelse (99,7 %), vilket visar på en låg frekvens av felaktig tilldelning för detta experiment (Additional file 1: Figur S3A, B).
Sluttligen försökte vi uppskatta de falskt negativa frekvenserna för Cell Hashing, som representerar äkta singelceller som inte får tillräckligt med Cell Hashing-signal för att klassificeras som singelceller. För att göra detta undersökte vi alla HTO-klassificerade ”singlet” och ”negativa” streckkoder från PBMC-experimentet och utförde klusterbildning baserad på transkriptomdata. Som förväntat fann vi att ”negativa” celler övervägande bildade ett distinkt kluster från singlets. Vi observerade dock 117 streckkoder som ursprungligen klassificerades som negativa, men vars transkriptomiska profiler klustrade över PBMC singlet-subtyper. Dessa streckkoder representerar sannolikt singelceller som klassificerades felaktigt från Cell Hashing, vilket representerar en falskt negativ frekvens på 0,9 % (Additional file 1: Figur S4), men har försumbara effekter på uppskattningar av celltypens proportioner. Sammantaget bekräftar våra resultat att Cell Hashing möjliggör robust och korrekt provklassificering i olika system.
Cell Hashing möjliggör effektiv optimering av CITE-seq-antikroppspaneler
Vår multiplexeringsstrategi möjliggör inte bara poolning mellan olika givare utan även samtidig profilering av flera experimentella förhållanden. Detta är allmänt tillämpbart för samtidig profilering av olika miljö- och genetiska störningar, men vi resonerade att vi också effektivt kunde optimera experimentella arbetsflöden, t.ex. titrering av antikroppskoncentrationer för CITE-seq-experiment. Vid flödescytometri körs antikroppar vanligtvis individuellt över en stor spädningsserie för att bedöma förhållandet mellan signal och brus och identifiera optimala koncentrationer . Även om sådana experiment skulle vara extremt kostnadsdrivande om de kördes som enskilda 10x Genomics-banor, resonerade vi att vi kunde multiplexa dessa experiment tillsammans med hjälp av Cell Hashing.
Vi inkuberade därför PBMC från olika givare med en utspädningsserie av antikroppskoncentrationer som sträckte sig över tre storleksordningar (avsnittet ”Metodik”). Koncentrationerna av CITE-seq-antikroppar var förskjutna mellan de olika proverna för att hålla den totala mängden antikroppar och oligo konsekvent i varje prov. Efter demultiplexering av proverna undersökte vi ADT-fördelningen över alla koncentrationer för varje antikropp (exempel i fig. 3a-c) och bedömde signal-brusförhållandet genom att beräkna ett färgningsindex som liknar vanligt förekommande mätvärden för flödescytometrioptimering (fig. 3d) (avsnittet ”Metoder”).
Alla antikroppar uppvisade endast bakgrundssignal i de negativa kontrollförhållandena och mycket svag signal-till-brus vid 0,06 μg/test. Vi observerade att signal-brusförhållandet för de flesta antikroppar började mättas inom koncentrationsområdet 0,5 till 1 μg/test, vilket är jämförbart med de rekommenderade koncentrationerna för flödescytometri (fig. 3d). Det här experimentet var tänkt som ett proof of concept; ett idealiskt titreringsexperiment skulle använda celler från samma donator för alla förhållanden och ett större koncentrationsintervall, men visar tydligt hur Cell Hashing kan användas för att snabbt och effektivt optimera experimentella arbetsflöden.
Cell Hashtags möjliggör diskriminering av celler av låg kvalitet från omgivande RNA
Våra cellhashtags kan särskilja enskilda celler från dubbletter baserat på det tydliga uttrycket av en enda HTO och vi frågade oss därefter om den här funktionen också kunde särskilja celler av låg kvalitet från omgivande RNA. Om så är fallet skulle detta göra det möjligt för oss att minska vår UMI-gräns (tidigare satt till 200) och tillåta möjligheten att vissa streckkoder som representerar omgivande RNA kan uttrycka mer UMI än vissa riktiga enskilda celler. De flesta arbetsflöden fastställer strikta UMI-cutoffs för att utesluta allt omgivande RNA, vilket snedvrider scRNA-seq-resultaten mot celler med lågt RNA-innehåll och troligen snedvrider proportionella uppskattningar av celltyp.
Förvisso, när vi beaktade 4344 streckkoder som innehöll 50-200 UMI, återfann vi 1110 ytterligare singelceller baserade på HTO-klassificeringar, med 3108 streckkoder som karakteriserades som negativa. Vi klassificerade varje streckkod som en av våra tidigare fastställda 7 hematopoetiska populationer (avsnittet ”Metoder”; fig. 1F) och visualiserade resultaten på en transkriptomisk tSNE-inbäddning, som beräknades oberoende av varandra för både ”singlet”- och ”negativa” grupper. För förutspådda singlets projicerades streckkoder till B-, NK-, T- och myeloida populationer som konsekvent separerades på tSNE, vilket tyder på att dessa streckkoder representerar verkliga singelceller (fig. 3e). Däremot separerades inte ”negativa” streckkoder utifrån deras forcerade klassificering, vilket stämmer överens med att dessa streckkoder återspeglar omgivande RNA-blandningar som kan blanda flera subpopulationer. Vi drar därför slutsatsen att Cell Hashing, genom att ge en avläsning av provets identitet som är oberoende av transkriptomet, kan hjälpa till att återskapa celler av låg kvalitet och/eller celler med mycket lågt RNA-innehåll som annars kan vara svåra att skilja från omgivande RNA (Fig. 3f).
Tillvägagångssättet för ett universellt Cell Hashing-antikroppsreagens
För våra proof-of-principal-experiment använde vi en pool av antikroppar som riktade sig mot högt uttryckta markörer för immuna ytor (CD45, CD98, CD44 och CD11a). För att möjliggöra multiplexering av alla celltyper och prover bestämde vi oss för att omkonstruera vår panel för att rikta in oss på mer ubiquitärt uttryckta ytmarkörer. MHC klass I-komplexet (beta-2-mikroglobulin) och natrium-kalium ATPas-underenheten (CD298) är bland de mest allmänt uttryckta ytproteinerna i mänskliga vävnader . Genom att använda en pool av antikroppar riktade mot båda proteinerna skulle vi kunna multiplexa praktiskt taget alla celltyper i ett experiment. Medan detta manuskript reviderades visade Hartmann och medarbetare att samma antikroppskombination är ett universellt multiplexeringsreagens för CyTOF . De extremt höga uttrycksnivåerna för båda markörerna bör möjliggöra robust HTO-demultiplexering, men skulle i princip kunna märka cellerna med ett överväldigande antal enkelsträngade polyA-oligon som skulle kunna konkurrera med polyadenylerade cellulära mRNA:er, vilket skulle resultera i lägre antal gener och/eller UMI-räkningar per cell. För att undersöka denna potentiella konkurrens färgade vi Jurkat-celler med en spädningsserie av Cell Hashing-antikroppar, körde en körbana med 10x Chromium single cell 3′ v2 tillsammans med en körbana med icke-hashade celler och sekvenserade de resulterande transkriptombiblioteken. Transkriptomiska komplexitetsnivåer, som indikeras av förhållandet mellan sekvenseringsläsningar och UMI-räkningar per cell, skiljde sig inte från icke-hashade celler i alla testade koncentrationer av Cell Hashing-antikroppar, vilket visar att det inte finns några nackdelar med multiplexering av prover (Additional file 1: Figur S5). Sammantaget visar dessa resultat hur Cell Hashing enkelt kan tillämpas på praktiskt taget alla mänskliga prover med lätt tillgängliga kommersiella reagenser och utan förlust av transkriptomisk komplexitet.