Hashtag-aktiverad demultiplexering baserad på ubiquitous ytproteinuttryck

Vi försökte utöka antikroppsbaserade multiplexeringsstrategier till scRNA-seq med hjälp av en modifiering av vår CITE-seq-metod. Vi valde inledningsvis en uppsättning monoklonala antikroppar riktade mot ubiquitärt och högt uttryckta immuna ytmarkörer (CD45, CD98, CD44 och CD11a), kombinerade dessa antikroppar till åtta identiska pooler (pool A till H) och konjugerade därefter varje pool till en distinkt Hashtag-oligonukleotid (hädanefter kallad HTO, figur 1a; avsnittet ”Metoder”). HTO:erna innehåller en unik streckkod på 12 bp som kan sekvenseras tillsammans med det cellulära transkriptomet, med endast mindre ändringar av standardprotokollen för scRNA-seq. Vi använde en förbättrad och förenklad konjugeringskemi jämfört med vårt tidigare tillvägagångssätt , genom att använda iEDDA-klickkemi för att kovalent fästa oligonukleotider till antikroppar (avsnittet ”Metoder”).

Fig. 1
figure1

Provmultiplexering med hjälp av DNA-streckkodade antikroppar. a Schematisk översikt över provmultiplexering genom Cell Hashing. Celler från olika prover inkuberas med DNA-kodade antikroppar som känner igen allestädes närvarande cellytproteiner. Distinkta streckkoder (kallade hashtag-oligos, HTO) på antikropparna gör det möjligt att sammanföra flera prover till ett scRNA-seq-experiment. Efter sekvensering kan cellerna tilldelas sitt ursprungsprov baserat på HTO-nivåer (avsnittet ”Metoder”). b Representativt spridningsdiagram som visar råantalet för HTO A och HTO B över alla cellstreckkoder. Båda axlarna har klippts av vid 99,9 % kvantifiering för att utesluta visuella outliers. c Värmekarta över skalade (z-poäng) normaliserade HTO-värden baserade på våra klassificeringar. Multipletter uttrycker mer än en HTO. Negativa populationer innehåller HEK293T- och NIH-3T3-celler från musen som spikades in i experimenten som negativa kontroller. d tSNE-inbäddning av HTO-dataset. Cellerna är färgade och märkta utifrån våra klassificeringar. Åtta singletkluster och alla 28 dubbeltkluster i tvärproverna är tydligt närvarande. e Fördelning av RNA UMIs per cellstreckkod i celler som karakteriserades som singlets (rött), multiplets (violett) eller negativa (grått). f Transkriptombaserad klustring av uttrycksprofiler för enskilda celler avslöjar distinkta immuncellspopulationer som är utspridda mellan olika givare. B, B-celler; T, T-celler; NK, naturliga mördarceller; mono, monocyter; DC, dendritiska celler. Cellerna är färgade baserat på deras HTO-klassificering (donator-ID), som i d

Vi utformade vår strategi så att CITE-seq och Cell Hashing kan utföras samtidigt, men för att generera separata sekvenseringsbibliotek. Specifikt innehåller HTO:erna ett annat amplifieringshandtag än våra standard CITE-seq antibody-derived tags (ADT) (avsnittet ”Metoder”). Detta gör att HTO:er, ADT:er och scRNA-seq-bibliotek kan amplifieras oberoende av varandra och sammanföras i önskad mängd. Vi har tidigare observerat en robust återhämtning av antikroppssignaler från högt uttryckta epitoper på grund av deras extremt höga antal kopior. Detta står i kontrast till de omfattande ”dropout”-nivåer som observerats för scRNA-seq-data och tyder på att vi troget kan återskapa HTOs från varje enskild cell, vilket gör det möjligt att med hög trovärdighet tilldela ursprungsmaterialet.

För att jämföra vår strategi och visa dess användbarhet erhöll vi mononukleära celler i perifert blod (PBMC) från åtta olika mänskliga donatorer (kallade donatorer A till H) och färgade oberoende av varandra varje prov med en av våra HTO-konjugerade antikroppspooler, samtidigt som vi utförde ett titreringsexperiment med en pool av sju immunfenotypiska markörer (avsnittet ”Metoder”) för CITE-seq. Vi sammanförde därefter alla celler i lika stor andel tillsammans med ett lika stort antal ofärgade HEK293T-celler (och 3 % NIH-3T3-celler från musen) som negativa kontroller, och körde poolen i en enda körfält på 10x Genomics Chromium Single Cell 3′ v2-systemet. I enlighet med tillvägagångssättet i Kang et al. ”superladdade” vi 10x Genomics-instrumentet genom att ladda celler i en betydligt högre koncentration med en förväntad avkastning på 20 000 enskilda celler och 5 000 multipletter. Baserat på Poisson-statistik bör 4365 multiplets representera cellkombinationer från olika prover och kan eventuellt kasseras, vilket leder till en andel olösta multiplets på 3,1 %. Om man uppnår en liknande multipletfrekvens utan multiplexering skulle det ge ~ 4000 singlets. Eftersom kostnaden för kommersiella droppbaserade system är fast per körning för provberedning, möjliggör multiplexering därför profilering av ~ 400 % fler celler för samma kostnad.

Vi utförde partitionering och omvänd transkription enligt standardprotokollen och använde endast en något modifierad nedströmsamplifieringsstrategi (avsnittet ”Metoder”) för att generera transkriptom-, HTO- och ADT-bibliotek. Vi sammanförde och sekvenserade dessa på en Illumina HiSeq2500 (två flödesceller för snabbkörning) och strävade efter att de tre biblioteken skulle bidra med 90 %:5 %:5 % i sekvenseringsdata. Dessutom utförde vi genotypning av alla åtta PBMC-prover och HEK293T-celler med Illumina Infinium CoreExome array, vilket gjorde det möjligt för oss att använda både HTO:er och provgenotyper (bedömda med demuxlet ) som oberoende demultiplexeringsmetoder.

När vi undersökte det parvisa uttrycket av två HTO-räkningar observerade vi förhållanden som liknar ”species-mixing”-plottar (Fig. 1b), vilket tyder på att det finns ömsesidig exklusivitet för HTO-signalen mellan singelceller. Vi utvidgade analysen bortom parvis analys och utvecklade en statistisk modell för att klassificera varje streckkod som ”positiv” eller ”negativ” för varje HTO (avsnittet ”Metoder”). I korthet modellerade vi ”bakgrundssignalen” för varje HTO oberoende av varandra som en negativ binomialfördelning och uppskattade bakgrundscellerna baserat på resultaten av en inledande k-medoidklustring av alla HTO-avläsningar (avsnittet ”Metoder”). Streckkoder med HTO-signaler över 99 %-kvantilen för denna fördelning märktes som ”positiva”, och streckkoder som var ”positiva” för mer än en HTO märktes som multipletter. Vi klassificerade alla streckkoder där vi upptäckte minst 200 RNA UMI, oavsett HTO-signal.

Våra klassificeringar (visualiserade som en värmekarta i fig. 1c) föreslog en tydlig identifiering av 8 singlet-populationer, liksom multipletgrupper. Vi identifierade också streckkoder med försumbar bakgrundssignal för någon av HTO:erna (märkta som ”negativa”), som huvudsakligen (86,5 %) bestod av HEK293T- och musceller. Vi tog bort alla HEK293T- och musceller från nedströmsanalyser (avsnittet ”Metoder”), och de återstående streckkoderna representerade 14 002 singlets och 2974 identifierbara multiplets, i linje med förväntningarna. Våra klassificeringar stämde också helt överens med en tSNE-inbäddning, beräknad med hjälp av endast de 8 HTO-signalerna, vilket gjorde det möjligt att tydligt visualisera inte bara de 8 grupperna av singlets (donatorer A till H) utan även de 28 små grupperna som representerar alla möjliga kombinationer av dubbletter (fig. 1d). Dessutom observerade vi en tydlig positiv förskjutning i fördelningen av RNA UMI per streckkod för multipletter, som förväntat (Fig. 1e), medan de återstående negativa streckkoderna uttryckte färre UMI och kan representera misslyckade reaktioner eller ”tomma” droppar som endast innehåller omgivande RNA. Dessa resultat tyder starkt på att HTO framgångsrikt tilldelade varje streckkod till sitt ursprungliga prov och möjliggjorde robust detektion av multiplets över provgränserna. Det stora dynamiska intervallet för RNA-UMI per cellstreckkod i multiplets (fig. 1e) illustrerar svårigheten med otvetydig multiplettilldelning baserad på högre UMI-antal. , och vi observerar samma utmaningar med den totala HTO-signalen (Additional file 1: Figur S1A). Genom att utföra transkriptomisk klustring av de klassificerade singletterna kunde man tydligt upptäcka sju hematopoetiska subpopulationer, som var spridda över alla 8 donatorer (Fig. 1f).

Genotypbaserad demultiplexering validerar Cell Hashing

Nästan jämförde vi våra HTO-baserade klassificeringar med de som erhållits genom demuxlet . Överlag observerade vi en stark överensstämmelse mellan teknikerna, även när man tar hänsyn till den exakta provblandningen i kallade doubletter (Fig. 2a). När vi utforskade områdena med oenighet identifierade vi 871 streckkoder som klassificerades baserat på HTO-nivåer som singlets men som identifierades som ”tvetydiga” av demuxlet. Det är anmärkningsvärt att styrkan i HTO-klassificeringen för dessa disharmoniska streckkoder (representerad av antalet läsuppgifter som tilldelats den högst uttryckta HTO:n) var identisk med de streckkoder som klassificerades som singlets med båda metoderna (fig. 2b). De diskordanta streckkoderna hade dock lägre RNA UMI-antal (fig. 2c). Vi drar slutsatsen att dessa streckkoder sannolikt inte kunde klassificeras genetiskt vid vårt relativt grunda sekvenseringsdjup (~ 24 115 reads per cell), vilket är under det rekommenderade djupet för användning av demuxlet, men att de sannolikt representerar riktiga singelceller baserat på våra HTO-klassificeringar.

Figur 2
figur2

Validering av Cell Hashing med hjälp av demuxlet. a Radnormaliserad ”förvirringsmatris” som jämför demuxlet- och HTO-klassificeringar. Varje värde på diagonalen representerar andelen streckkoder för en given HTO-klassificering som fick en identisk klassificering från demuxlet. b Antalsfördelning av den högst uttryckta HTO för grupper av concordanta och discordanta singlar. Båda grupperna har identisk klassificeringsstyrka baserad på Cell Hashing. c Discordant singlets har lägre UMI-antal, vilket tyder på att bristande sekvenseringsdjup bidrog till ”tvetydiga” samtal från demuxlet. d RNA UMI-fördelningar för discordant och concordant multiplets. Endast concordant multiplets uppvisar ökad molekylär komplexitet, vilket tyder på att båda metoderna konservativt överkallar multiplets i diskordanta fall. e Till stöd för detta tilldelar demuxlet lägre multiplets posteriora sannolikheter till diskordanta anrop

Därutöver observerade vi också 2528 streckkoder som fick diskordanta singlet/doublet-klassificeringar mellan de två teknikerna (fig. 2d). Vi noterar att detta återspeglar en minoritet av streckkoder (jämfört med 13 421 överensstämmande klassificeringar) och att det i dessa disharmoniska fall är svårt att vara säker på vilken av metoderna som är korrekt. När vi undersökte UMI-fördelningarna för varje klassificeringsgrupp observerade vi dock att endast streckkoder som klassificerats som dubbletter med båda teknikerna uppvisade en positiv förskjutning i transkriptomisk komplexitet (fig. 2d). Detta tyder på att dessa diskordanta anrop till stor del består av riktiga singlets och utgör konservativa falska positiva från båda metoderna, kanske på grund av omgivande RNA- eller HTO-signal. I överensstämmelse med denna tolkning, när vi begränsade vår analys till fall där demuxlet kallade streckkoder som dubbletter med > 95 procents sannolikhet, observerade vi en 75-procentig minskning av antalet diskordanta anrop (fig. 2e). Demuxlet kräver tillräckligt många läsningar och SNP:er för att entydigt klassificera en cell till en donator, och som väntat hade diskordant klassificerade celler lägre antal sekvenseringsläsningar och SNP:er (Additional file 1: Figure S2A-D).

För det sista observerade vi också ett sällsynt antal fall där både Cell Hashing och demuxlet klassificerade celler som singletter, men med diskordanta (216/11 464; 1,9 %) donatorklassificeringar. För att undersöka detta ytterligare drog vi nytta av det faktum att alla donatorer (A-G) utom en (H) också färgades med CITE-seq-antikroppar, och därför borde donator H-cellerna inte innehålla ADT-läsningar. I 40 fall där demuxlet, men inte Cell Hashing, klassificerade celler som donator H, observerade vi dock robusta (> 1000) ADT-räkningar i 37 fall, vilket tyder på att dessa avvikande uppgifter är felklassificeringsfel från demuxlet (Additional file 1: Figur S2E), i linje med demuxlets uppskattade felfrekvens på 1-2 % .

För att ytterligare säkerställa att bakgrundsbindningsnivåer inte ledde till felaktigt demultiplexerade prover utförde vi ett separat experiment där vi blandade fyra cellinjer (HEK293T, THP1, K562 och KG1) tillsammans, var och en oberoende av varandra märkt med tre olika Cell Hashing-oligon. Efter demultiplexering, för att tilldela varje streckkod till en cellinje av ursprung, klustrade vi cellerna på grundval av deras RNA-uttrycksnivåer och fick fyra transkriptomiska kluster (som förväntat). När vi jämförde våra transkriptomiska kluster med demultiplexeringsresultaten observerade vi en nästan perfekt överensstämmelse (99,7 %), vilket visar på en låg frekvens av felaktig tilldelning för detta experiment (Additional file 1: Figur S3A, B).

Sluttligen försökte vi uppskatta de falskt negativa frekvenserna för Cell Hashing, som representerar äkta singelceller som inte får tillräckligt med Cell Hashing-signal för att klassificeras som singelceller. För att göra detta undersökte vi alla HTO-klassificerade ”singlet” och ”negativa” streckkoder från PBMC-experimentet och utförde klusterbildning baserad på transkriptomdata. Som förväntat fann vi att ”negativa” celler övervägande bildade ett distinkt kluster från singlets. Vi observerade dock 117 streckkoder som ursprungligen klassificerades som negativa, men vars transkriptomiska profiler klustrade över PBMC singlet-subtyper. Dessa streckkoder representerar sannolikt singelceller som klassificerades felaktigt från Cell Hashing, vilket representerar en falskt negativ frekvens på 0,9 % (Additional file 1: Figur S4), men har försumbara effekter på uppskattningar av celltypens proportioner. Sammantaget bekräftar våra resultat att Cell Hashing möjliggör robust och korrekt provklassificering i olika system.

Cell Hashing möjliggör effektiv optimering av CITE-seq-antikroppspaneler

Vår multiplexeringsstrategi möjliggör inte bara poolning mellan olika givare utan även samtidig profilering av flera experimentella förhållanden. Detta är allmänt tillämpbart för samtidig profilering av olika miljö- och genetiska störningar, men vi resonerade att vi också effektivt kunde optimera experimentella arbetsflöden, t.ex. titrering av antikroppskoncentrationer för CITE-seq-experiment. Vid flödescytometri körs antikroppar vanligtvis individuellt över en stor spädningsserie för att bedöma förhållandet mellan signal och brus och identifiera optimala koncentrationer . Även om sådana experiment skulle vara extremt kostnadsdrivande om de kördes som enskilda 10x Genomics-banor, resonerade vi att vi kunde multiplexa dessa experiment tillsammans med hjälp av Cell Hashing.

Vi inkuberade därför PBMC från olika givare med en utspädningsserie av antikroppskoncentrationer som sträckte sig över tre storleksordningar (avsnittet ”Metodik”). Koncentrationerna av CITE-seq-antikroppar var förskjutna mellan de olika proverna för att hålla den totala mängden antikroppar och oligo konsekvent i varje prov. Efter demultiplexering av proverna undersökte vi ADT-fördelningen över alla koncentrationer för varje antikropp (exempel i fig. 3a-c) och bedömde signal-brusförhållandet genom att beräkna ett färgningsindex som liknar vanligt förekommande mätvärden för flödescytometrioptimering (fig. 3d) (avsnittet ”Metoder”).

Fig. 3
figure3

Cell Hashing möjliggör effektiv experimentell optimering och identifiering av celler av låg kvalitet. a-c Vi utförde en titreringsserie för att bedöma optimala färgningskoncentrationer för en panel av CITE-seq-antikroppar för immunfenotypning. Normaliserade ADT-räkningar för CD8 (a), CD45RA (b) och CD4 (c) visas för de olika koncentrationer som användes per test. d Titreringskurva som visar färgningsindexet (SI; avsnittet ”Metoder”) för dessa tre antikroppar över titreringsserien. Signal/brusförhållandet för dessa antikroppar börjar mättas vid nivåer som liknar de av tillverkaren rekommenderade färgningskoncentrationer som är typiska för flödescytometriantikroppar. e Celler med låga UMI-räkningar kan särskiljas från omgivande RNA med hjälp av HTO-klassificeringar. Klassificerade singlets grupperar sig i kanoniska hematopoietiska populationer. f Stråkkoder som klassificeras som ”negativa” grupperar sig inte i kluster och representerar sannolikt ”tomma” droppar som endast innehåller omgivande RNA

Alla antikroppar uppvisade endast bakgrundssignal i de negativa kontrollförhållandena och mycket svag signal-till-brus vid 0,06 μg/test. Vi observerade att signal-brusförhållandet för de flesta antikroppar började mättas inom koncentrationsområdet 0,5 till 1 μg/test, vilket är jämförbart med de rekommenderade koncentrationerna för flödescytometri (fig. 3d). Det här experimentet var tänkt som ett proof of concept; ett idealiskt titreringsexperiment skulle använda celler från samma donator för alla förhållanden och ett större koncentrationsintervall, men visar tydligt hur Cell Hashing kan användas för att snabbt och effektivt optimera experimentella arbetsflöden.

Cell Hashtags möjliggör diskriminering av celler av låg kvalitet från omgivande RNA

Våra cellhashtags kan särskilja enskilda celler från dubbletter baserat på det tydliga uttrycket av en enda HTO och vi frågade oss därefter om den här funktionen också kunde särskilja celler av låg kvalitet från omgivande RNA. Om så är fallet skulle detta göra det möjligt för oss att minska vår UMI-gräns (tidigare satt till 200) och tillåta möjligheten att vissa streckkoder som representerar omgivande RNA kan uttrycka mer UMI än vissa riktiga enskilda celler. De flesta arbetsflöden fastställer strikta UMI-cutoffs för att utesluta allt omgivande RNA, vilket snedvrider scRNA-seq-resultaten mot celler med lågt RNA-innehåll och troligen snedvrider proportionella uppskattningar av celltyp.

Förvisso, när vi beaktade 4344 streckkoder som innehöll 50-200 UMI, återfann vi 1110 ytterligare singelceller baserade på HTO-klassificeringar, med 3108 streckkoder som karakteriserades som negativa. Vi klassificerade varje streckkod som en av våra tidigare fastställda 7 hematopoetiska populationer (avsnittet ”Metoder”; fig. 1F) och visualiserade resultaten på en transkriptomisk tSNE-inbäddning, som beräknades oberoende av varandra för både ”singlet”- och ”negativa” grupper. För förutspådda singlets projicerades streckkoder till B-, NK-, T- och myeloida populationer som konsekvent separerades på tSNE, vilket tyder på att dessa streckkoder representerar verkliga singelceller (fig. 3e). Däremot separerades inte ”negativa” streckkoder utifrån deras forcerade klassificering, vilket stämmer överens med att dessa streckkoder återspeglar omgivande RNA-blandningar som kan blanda flera subpopulationer. Vi drar därför slutsatsen att Cell Hashing, genom att ge en avläsning av provets identitet som är oberoende av transkriptomet, kan hjälpa till att återskapa celler av låg kvalitet och/eller celler med mycket lågt RNA-innehåll som annars kan vara svåra att skilja från omgivande RNA (Fig. 3f).

Tillvägagångssättet för ett universellt Cell Hashing-antikroppsreagens

För våra proof-of-principal-experiment använde vi en pool av antikroppar som riktade sig mot högt uttryckta markörer för immuna ytor (CD45, CD98, CD44 och CD11a). För att möjliggöra multiplexering av alla celltyper och prover bestämde vi oss för att omkonstruera vår panel för att rikta in oss på mer ubiquitärt uttryckta ytmarkörer. MHC klass I-komplexet (beta-2-mikroglobulin) och natrium-kalium ATPas-underenheten (CD298) är bland de mest allmänt uttryckta ytproteinerna i mänskliga vävnader . Genom att använda en pool av antikroppar riktade mot båda proteinerna skulle vi kunna multiplexa praktiskt taget alla celltyper i ett experiment. Medan detta manuskript reviderades visade Hartmann och medarbetare att samma antikroppskombination är ett universellt multiplexeringsreagens för CyTOF . De extremt höga uttrycksnivåerna för båda markörerna bör möjliggöra robust HTO-demultiplexering, men skulle i princip kunna märka cellerna med ett överväldigande antal enkelsträngade polyA-oligon som skulle kunna konkurrera med polyadenylerade cellulära mRNA:er, vilket skulle resultera i lägre antal gener och/eller UMI-räkningar per cell. För att undersöka denna potentiella konkurrens färgade vi Jurkat-celler med en spädningsserie av Cell Hashing-antikroppar, körde en körbana med 10x Chromium single cell 3′ v2 tillsammans med en körbana med icke-hashade celler och sekvenserade de resulterande transkriptombiblioteken. Transkriptomiska komplexitetsnivåer, som indikeras av förhållandet mellan sekvenseringsläsningar och UMI-räkningar per cell, skiljde sig inte från icke-hashade celler i alla testade koncentrationer av Cell Hashing-antikroppar, vilket visar att det inte finns några nackdelar med multiplexering av prover (Additional file 1: Figur S5). Sammantaget visar dessa resultat hur Cell Hashing enkelt kan tillämpas på praktiskt taget alla mänskliga prover med lätt tillgängliga kommersiella reagenser och utan förlust av transkriptomisk komplexitet.

Articles

Lämna ett svar

Din e-postadress kommer inte publiceras.