Hashtag-enabled demultiplexing basato sull’espressione ubiquitaria delle proteine di superficie
Abbiamo cercato di estendere le strategie di multiplexing basate su anticorpi a scRNA-seq utilizzando una modifica del nostro metodo CITE-seq . Abbiamo inizialmente scelto una serie di anticorpi monoclonali diretti contro marcatori di superficie immunitaria ubiquitariamente e altamente espressi (CD45, CD98, CD44 e CD11a), combinato questi anticorpi in otto pool identici (piscina da A a H), e successivamente coniugato ogni piscina ad un distinto oligonucleotide Hashtag (d’ora in poi indicato come HTO, Fig. 1a; sezione “Metodi”). Il HTOs contengono un unico 12-bp codice a barre che può essere sequenziato insieme al trascrittoma cellulare, con solo piccole modifiche ai protocolli standard scRNA-seq. Abbiamo utilizzato una chimica coniugazione migliorata e semplificata rispetto al nostro approccio precedente, utilizzando iEDDA chimica click per attaccare covalentemente oligonucleotidi agli anticorpi (sezione “Metodi”).
Abbiamo progettato la nostra strategia per consentire CITE-seq e Cell Hashing da eseguire contemporaneamente, ma per generare librerie di sequenziamento separati. In particolare, gli HTO contengono un diverso manico di amplificazione rispetto ai nostri standard CITE-seq antibody-derived tag (ADT) (sezione “Metodi”). Questo permette HTOs, ADTs, e scRNA-seq librerie per essere indipendentemente amplificato e raggruppato in quantità desiderata. In particolare, abbiamo precedentemente osservato robusto recupero di segnali anticorpali da epitopi altamente espressi a causa del loro numero di copie estremamente elevato. Questo è in contrasto con i livelli estesi “dropout” osservati per scRNA-seq dati e suggerisce che possiamo recuperare fedelmente HTOs da ogni singola cella, consentendo l’assegnazione al campione di origine con alta fedeltà.
Per valutare la nostra strategia e dimostrare la sua utilità, abbiamo ottenuto le cellule mononucleate del sangue periferico (PBMC) da otto donatori umani separati (denominati donatori da A a H) e indipendentemente macchiato ogni campione con uno dei nostri pool di anticorpi coniugati HTO, mentre contemporaneamente eseguendo un esperimento di titolazione con un pool di sette marcatori immunofenotipici (sezione “metodi”) per CITE-seq. Successivamente abbiamo messo in comune tutte le cellule insieme in proporzione uguale, accanto a un numero uguale di cellule HEK293T non macchiate (e 3% di cellule NIH-3T3 di topo) come controlli negativi, ed eseguito il pool in una singola corsia sul sistema 10x Genomics Chromium Single Cell 3′ v2. Seguendo l’approccio in Kang et al. , abbiamo “super-caricato” lo strumento 10x Genomics, caricando le cellule ad una concentrazione significativamente maggiore con un rendimento atteso di 20.000 cellule singole e 5000 multiplette. Sulla base delle statistiche di Poisson, 4365 multiplette dovrebbe rappresentare combinazioni di cellule da campioni distinti e può potenzialmente essere scartato, portando ad un tasso di multiplet irrisolto del 3,1%. In particolare, il raggiungimento di un tasso di multipletto simile senza multiplexing produrrebbe ~ 4000 singlet. Come il costo dei sistemi commerciali basati su goccioline è fisso per esecuzione per la preparazione del campione, multiplexing permette quindi il profilo di ~ 400% più cellule per lo stesso costo.
Abbiamo eseguito partizionamento e trascrizione inversa secondo i protocolli standard, utilizzando solo una strategia di amplificazione a valle leggermente modificato (sezione “Metodi”) per generare trascrittoma, HTO, e librerie ADT. Abbiamo messo in comune e sequenziato queste su un Illumina HiSeq2500 (due celle a flusso rapido), puntando a un contributo del 90%:5%:5% delle tre librerie nei dati di sequenziamento. Inoltre, abbiamo eseguito genotipizzazione di tutti gli otto campioni PBMC e cellule HEK293T con l’Illumina Infinium CoreExome array, che ci permette di utilizzare sia HTOs e genotipi campione (valutato da demuxlet) come approcci demultiplexing indipendenti.
Esaminando l’espressione a coppie di due conteggi HTO, abbiamo osservato relazioni simili a “specie-mixing” trame (Fig. 1b), suggerendo esclusività reciproca del segnale HTO tra singlet. Estendendo oltre l’analisi a coppie, abbiamo sviluppato un modello statistico per classificare ogni codice a barre come “positivo” o “negativo” per ogni HTO (sezione “Metodi”). Brevemente, abbiamo modellato il segnale “di fondo” per ogni HTO in modo indipendente come una distribuzione binomiale negativa, stimando le cellule di fondo in base ai risultati di un iniziale k-medoidi clustering di tutte le letture HTO (sezione “Metodi”). Codici a barre con segnali HTO sopra il quantile 99% per questa distribuzione sono stati etichettati come “positivo”, e codici a barre che erano “positivo” per più di un HTO sono stati etichettati come multiplette. Abbiamo classificato tutti i codici a barre in cui abbiamo rilevato almeno 200 RNA UMI, indipendentemente dal segnale HTO.
Le nostre classificazioni (visualizzate come una mappa di calore in Fig. 1c) hanno suggerito una chiara identificazione di 8 popolazioni singoletto, così come i gruppi multiplet. Abbiamo anche identificato i codici a barre con un segnale di fondo trascurabile per qualsiasi HTOs (etichettati come “negativi”), costituito principalmente (86,5%) di HEK293T e cellule di topo. Abbiamo rimosso tutte le cellule HEK293T e topo dalle analisi a valle (sezione “Metodi”), con i codici a barre rimanenti che rappresentano 14.002 singlet e 2974 multiplet identificabili, in linea con le aspettative. Le nostre classificazioni sono stati anche pienamente concordanti con un tSNE incorporazione, calcolato utilizzando solo i segnali 8 HTO, che ha permesso la chiara visualizzazione non solo dei gruppi 8 di singoletto (donatori A attraverso H), ma anche i 28 piccoli gruppi che rappresentano tutte le combinazioni possibili doppietto (Fig. 1d). Inoltre, abbiamo osservato un chiaro spostamento positivo nella distribuzione di RNA UMI per codice a barre per multiplette, come previsto (Fig. 1e), mentre i restanti codici a barre negativi espresso meno UMI e può rappresentare reazioni fallite o “vuoto” goccioline contenenti solo RNA ambiente. Questi risultati suggeriscono fortemente che HTOs assegnato con successo ogni codice a barre nel suo campione originale e consentito il rilevamento robusto di cross-campione multiplette. L’ampia gamma dinamica di RNA UMI per codice a barre delle cellule in multiplette (Fig. 1e) illustra la difficoltà di assegnazione univoca multiplette basato su conteggi UMI superiore. La stessa sfida si osserva con il segnale HTO totale (Additional file 1: Figura S1A). Esecuzione di clustering transcriptomic dei singoletti classificati permesso di rilevare chiaramente sette sottopopolazioni ematopoietiche, che sono stati intervallati attraverso tutti i donatori 8 (Fig. 1f).
Genotipo basato demultiplexing convalida Cell Hashing
Abbiamo poi confrontato le nostre classificazioni HTO-based a quelli ottenuti da demuxlet . Nel complesso, abbiamo osservato una forte concordanza tra le tecniche, anche quando si considera la miscela campione preciso in doppiette chiamato (Fig. 2a). Esplorando le aree di disaccordo, abbiamo identificato 871 codici a barre che sono stati classificati in base ai livelli di HTO come singoletto ma sono stati identificati come “ambigui” da demuxlet. In particolare, la forza della classificazione HTO per questi codici a barre discordanti (rappresentato dal numero di legge assegnato al più altamente espresso HTO) era identico ai codici a barre che sono stati classificati come singoletto da entrambi gli approcci (Fig. 2b). Tuttavia, i codici a barre discordanti avevano un numero ridotto di RNA UMI (Fig. 2c). Concludiamo che questi codici a barre probabilmente non poteva essere geneticamente classificati alla nostra profondità di sequenziamento relativamente superficiale (~ 24.115 legge per cella), che è al di sotto della profondità consigliata per l’utilizzo demuxlet, ma probabilmente rappresentano vere e proprie cellule singole in base alle nostre classificazioni HTO.
Inoltre, abbiamo anche osservato 2528 codici a barre che hanno ricevuto singoletto discordante / doppio classificazioni tra le due tecniche (Fig. 2d). Notiamo che questo riflette una minoranza di codici a barre (rispetto a 13.421 classificazioni concordanti) e che in questi casi discordanti, è difficile essere certi di quale di questi metodi sia corretto. Tuttavia, quando abbiamo esaminato le distribuzioni UMI di ogni gruppo di classificazione, abbiamo osservato che solo i codici a barre classificati come doppiette da entrambe le tecniche hanno mostrato uno spostamento positivo nella complessità trascrittomica (Fig. 2d). Ciò suggerisce che queste chiamate discordanti sono in gran parte costituiti da singoletto vero e rappresentano conservatori falsi positivi da entrambi i metodi, forse a causa di RNA ambiente o segnale HTO. Coerente con questa interpretazione, quando abbiamo limitato la nostra analisi ai casi in cui demuxlet chiamato codici a barre come doppiette con > 95% di probabilità, abbiamo osservato un calo del 75% del numero di chiamate discordanti (Fig. 2e). Demuxlet richiede un numero sufficiente di letture e SNPs per classificare inequivocabilmente una cella ad un donatore, e come previsto, le cellule classificate in modo discordante avevano un numero inferiore di letture di sequenziamento e SNPs (Additional file 1: Figura S2A-D).
Infine, abbiamo anche osservato un raro numero di casi in cui sia Cell Hashing che demuxlet classificato le cellule come singole ma con classificazioni donatore discordanti (216/11.464; 1,9%). Per indagare ulteriormente, abbiamo approfittato del fatto che tutti i donatori (A-G) tranne uno (H) erano anche colorati con anticorpi CITE-seq, e quindi, le cellule del donatore H non dovrebbero contenere letture ADT. Tuttavia, in 40 casi in cui demuxlet, ma non Cell Hashing, classificato cellule come donatore H, abbiamo osservato robusto (> 1000) ADT conta in 37 casi, suggerendo che queste chiamate discordanti sono errori di classificazione da demuxlet (Additional file 1: Figura S2E), in linea con demuxlet stimato tasso di errore del 1-2%.
Per garantire ulteriormente che i livelli di legame di fondo non ha portato a campioni erroneamente demultiplexed, abbiamo eseguito un esperimento separato in cui abbiamo mescolato quattro linee cellulari (HEK293T, THP1, K562, e KG1) insieme, ciascuno indipendentemente etichettato con tre distinti Cell Hashing oligo. Dopo la demultiplazione, per assegnare ogni codice a barre a una linea cellulare di origine, abbiamo raggruppato le cellule sulla base dei loro livelli di espressione di RNA, ottenendo quattro cluster trascrittomici (come previsto). Confrontando i nostri cluster trascrittomica con i risultati demultiplexing, abbiamo osservato quasi perfetta concordanza (99,7%), dimostrando un basso tasso di errata assegnazione per questo esperimento (file aggiuntivo 1: Figura S3A, B).
Infine, abbiamo cercato di stimare i tassi falsi negativi per Cell Hashing, che rappresentano vere cellule singole che non ricevono segnale Cell Hashing sufficiente per essere classificati come singlets. Per fare questo, abbiamo esaminato tutti i codici a barre “singoletto” e “negativi” classificati HTO dall’esperimento PBMC ed eseguito il clustering basato sui dati del trascrittoma. Come previsto, abbiamo trovato che le cellule “negative” hanno prevalentemente formato un cluster distinto dai singlet. Tuttavia, abbiamo osservato 117 codici a barre originariamente classificati come negativi, ma i cui profili trascrittomici si sono raggruppati attraverso i sottotipi di singoletto PBMC. Questi codici a barre rappresentano probabilmente singole cellule che sono stati erroneamente classificati da Cell Hashing, che rappresenta un tasso di falsi negativi del 0,9% (Additional file 1: Figura S4), ma hanno effetti trascurabili sulle stime di proporzione di tipo cellulare. Presi insieme, i nostri risultati convalidano che Cell Hashing consente la classificazione del campione robusto e accurato attraverso diversi sistemi.
Cell Hashing consente l’ottimizzazione efficiente di pannelli di anticorpi CITE-seq
La nostra strategia di multiplexing non solo consente il pooling attraverso i donatori, ma anche il profiling simultaneo di più condizioni sperimentali. Questo è ampiamente applicabile alla profilazione simultanea di diverse perturbazioni ambientali e genetiche, ma abbiamo pensato che potremmo anche ottimizzare in modo efficiente i flussi di lavoro sperimentali, come la titolazione delle concentrazioni di anticorpi per esperimenti CITE-seq. In citometria a flusso, gli anticorpi sono tipicamente eseguiti individualmente su una grande serie di diluizioni per valutare i rapporti segnale-rumore e identificare le concentrazioni ottimali. Mentre tali esperimenti sarebbe estremamente costo proibitivo se eseguito come singole corsie 10x Genomics, abbiamo ragionato che potremmo multiplex questi esperimenti insieme utilizzando Cell Hashing.
Abbiamo quindi incubato le PBMC da diversi donatori con una serie di diluizione di concentrazioni di anticorpi che vanno oltre tre ordini di grandezza (sezione “Metodi”). Concentrazioni di anticorpi CITE-seq sono stati sfalsati tra i diversi campioni per mantenere la quantità totale di anticorpo e oligo coerente in ogni campione. Dopo demultiplexing campione, abbiamo esaminato le distribuzioni ADT attraverso tutte le concentrazioni per ogni anticorpo (esempi in Fig. 3a-c) e valutato il rapporto segnale-rumore calcolando un indice di colorazione simile alle metriche comunemente utilizzate per l’ottimizzazione della citometria a flusso (Fig. 3d) (sezione “Metodi”).
Tutti gli anticorpi esposti solo segnale di fondo nelle condizioni di controllo negativo e molto debole signal-to-noise a 0,06 μg / test. Abbiamo osservato che il rapporto segnale-rumore per la maggior parte degli anticorpi ha cominciato a saturare entro l’intervallo di concentrazione di 0,5 a 1 μg / test, paragonabile alle concentrazioni raccomandate per citometria a flusso (Fig. 3d). Questo esperimento era inteso come una prova di concetto; un esperimento di titolazione ideale userebbe cellule dallo stesso donatore per tutte le condizioni e una gamma più ampia di concentrazioni, ma dimostra chiaramente come Cell Hashing può essere utilizzato per ottimizzare in modo rapido ed efficiente flussi di lavoro sperimentale.
Cell Hashtags consentire la discriminazione delle cellule di bassa qualità da RNA ambiente
I nostri hashtag cella può discriminare singole cellule da doublets basato sulla chiara espressione di un singolo HTO, e abbiamo chiesto poi se questa caratteristica potrebbe anche distinguere le cellule di bassa qualità da RNA ambiente. Se così fosse, questo ci permetterebbe di ridurre il nostro “cutoff” UMI (precedentemente impostato a 200) e consentirebbe la possibilità che alcuni codici a barre che rappresentano RNA ambientale possono esprimere più UMI di alcune vere cellule singole. La maggior parte dei flussi di lavoro impostare rigorosi cutoff UMI per escludere tutto l’RNA ambientale, biasing scRNA-seq risultati contro le cellule con basso contenuto di RNA e probabilmente skewing stime proporzionali del tipo di cella.
Infatti, quando si considera 4344 codici a barre contenenti 50-200 UMI, abbiamo recuperato 1110 singoletto supplementare basato su classificazioni HTO, con 3108 codici a barre caratterizzato come negativi. Abbiamo classificato ogni codice a barre come una delle nostre 7 popolazioni ematopoietiche precedentemente determinate (sezione “Metodi”; Fig. 1F) e visualizzato i risultati su un embedding transcriptomic tSNE, calcolato indipendentemente per entrambi i gruppi “singoletto” e “negativo”. Per i singlet previsti, i codici a barre proiettato a B, NK, T, e popolazioni mieloidi che sono stati costantemente separati su tSNE, suggerendo che questi codici a barre rappresentano vere e proprie cellule singole (Fig. 3e). Al contrario, i codici a barre “negativi” non si sono separati in base alla loro classificazione forzata, coerente con questi codici a barre che riflettono miscele di RNA ambientale che possono fondere più sottopopolazioni. Concludiamo quindi che, fornendo una lettura di identità del campione che è indipendente dal trascrittoma, Cell Hashing può aiutare a recuperare le cellule di bassa qualità e / o cellule con contenuto di RNA molto basso che può altrimenti essere difficile da distinguere da RNA ambientale (Fig. 3f).
Per un reagente universale Cell Hashing anticorpo
Per la nostra prova di principio esperimenti, abbiamo usato un pool di anticorpi diretti contro i marcatori di superficie immunitaria altamente espressi (CD45, CD98, CD44 e CD11a). Per consentire il multiplexing di qualsiasi tipo di cellula e campione, abbiamo deciso di riprogettare il nostro pannello per puntare più marcatori di superficie ubiquitariamente espressi. Il complesso MHC di classe I (beta-2-microglobulina) e la subunità ATPasi sodio-potassio (CD298) sono tra le proteine di superficie più ampiamente espresse nei tessuti umani. Utilizzando un pool di anticorpi diretti contro entrambe le proteine ci permetterebbe di multiplexare virtualmente qualsiasi tipo di cellula in un esperimento. Mentre questo manoscritto era in fase di revisione, la stessa combinazione di anticorpi è stato dimostrato da Hartmann e colleghi per essere un reagente multiplexing universale per CyTOF. I livelli di espressione estremamente elevati di entrambi i marcatori dovrebbe consentire robusto HTO demultiplexing, ma in linea di principio potrebbe etichettare le cellule con un numero eccessivo di oligo a singolo filamento polyA che potrebbero competere con mRNA cellulare poliadenilato, con conseguente gene inferiore e / o conteggi UMI per cella. Per indagare questa potenziale concorrenza, abbiamo macchiato le cellule Jurkat con una serie di diluizioni di anticorpi Cell Hashing, ha eseguito una corsia di 10x Chromium singola cella 3′ v2 accanto a una corsia con le cellule non-hashed, e sequenziato le librerie trascrittoma risultanti. Livelli di complessità trascrittomica, come indicato dal rapporto tra sequenziamento legge e UMI conta per cella, erano indistinguibili da non-cellule nascoste su tutte le concentrazioni testate di anticorpi Cell Hashing, illustrando senza svantaggi quando multiplexing campioni (Additional file 1: Figura S5). Presi insieme, questi risultati dimostrano come Cell Hashing può essere facilmente applicato a qualsiasi campione umano con reagenti commerciali facilmente disponibili e senza una perdita di complessità trascrittomica.