Hashtag-fähiges Demultiplexing auf der Grundlage der ubiquitären Oberflächenproteinexpression
Wir haben versucht, Antikörper-basierte Multiplexing-Strategien auf scRNA-seq auszuweiten, indem wir eine Modifikation unserer CITE-seq-Methode verwendeten. Zunächst wählten wir eine Reihe monoklonaler Antikörper aus, die gegen ubiquitär und hoch exprimierte Immunoberflächenmarker (CD45, CD98, CD44 und CD11a) gerichtet sind, kombinierten diese Antikörper zu acht identischen Pools (Pool A bis H) und konjugierten anschließend jeden Pool mit einem bestimmten Hashtag-Oligonukleotid (im Folgenden als HTO bezeichnet, Abb. 1a; Abschnitt „Methoden“). Die HTOs enthalten einen eindeutigen 12-Bp-Barcode, der mit nur geringfügigen Änderungen an den standardmäßigen scRNA-Seq-Protokollen zusammen mit dem zellulären Transkriptom sequenziert werden kann. Wir haben eine verbesserte und vereinfachte Konjugationschemie im Vergleich zu unserem früheren Ansatz verwendet, indem wir die iEDDA-Klickchemie zur kovalenten Bindung von Oligonukleotiden an Antikörper eingesetzt haben (Abschnitt „Methoden“).
Wir haben unsere Strategie so konzipiert, dass CITE-seq und Cell Hashing gleichzeitig durchgeführt werden können, aber separate Sequenzierungsbibliotheken erzeugt werden. Insbesondere enthalten die HTOs einen anderen Amplifikationsgriff als unsere standardmäßigen CITE-seq-Antikörper-abgeleiteten Tags (ADT) (Abschnitt „Methoden“). Dadurch können HTOs, ADTs und scRNA-seq-Bibliotheken unabhängig voneinander amplifiziert und in gewünschten Mengen gepoolt werden. Wir haben in der Vergangenheit beobachtet, dass Antikörpersignale von hochexprimierten Epitopen aufgrund ihrer extrem hohen Kopienzahl robust wiedergewonnen werden können. Dies steht im Gegensatz zu den umfangreichen „Dropout“-Niveaus, die bei scRNA-seq-Daten beobachtet werden, und deutet darauf hin, dass wir HTOs von jeder einzelnen Zelle zuverlässig wiederherstellen können, was eine Zuordnung zur Ursprungsprobe mit hoher Zuverlässigkeit ermöglicht.
Um unsere Strategie zu testen und ihre Nützlichkeit zu demonstrieren, haben wir periphere mononukleäre Blutzellen (PBMCs) von acht verschiedenen menschlichen Spendern (als Spender A bis H bezeichnet) erhalten und jede Probe unabhängig voneinander mit einem unserer HTO-konjugierten Antikörperpools gefärbt, während wir gleichzeitig ein Titrationsexperiment mit einem Pool von sieben immunphänotypischen Markern (Abschnitt „Methoden“) für CITE-seq durchgeführt haben. Anschließend haben wir alle Zellen zu gleichen Teilen mit einer gleichen Anzahl ungefärbter HEK293T-Zellen (und 3 % NIH-3T3-Zellen von Mäusen) als Negativkontrollen gepoolt und den Pool in einer einzigen Spur auf dem 10x Genomics Chromium Single Cell 3′ v2 System durchgeführt. In Anlehnung an den Ansatz von Kang et al. haben wir das 10x Genomics-Gerät „super-loaded“, d. h. wir haben die Zellen in einer deutlich höheren Konzentration geladen, was eine erwartete Ausbeute von 20.000 Einzelzellen und 5000 Multiplets ergab. Auf der Grundlage der Poisson-Statistik sollten 4365 Multipletts Zellkombinationen aus verschiedenen Proben darstellen und können möglicherweise verworfen werden, was zu einer Rate unaufgelöster Multipletts von 3,1 % führt. Eine ähnliche Multiplett-Rate ohne Multiplexing würde ca. 4000 Singletts ergeben. Da die Kosten kommerzieller tropfenbasierter Systeme pro Lauf für die Probenvorbereitung festgelegt sind, ermöglicht das Multiplexing daher die Erstellung von Profilen von ~ 400 % mehr Zellen zu den gleichen Kosten.
Wir führten die Partitionierung und reverse Transkription gemäß den Standardprotokollen durch und verwendeten lediglich eine leicht modifizierte Downstream-Amplifikationsstrategie (Abschnitt „Methoden“), um Transkriptom-, HTO- und ADT-Bibliotheken zu erstellen. Wir haben diese gepoolt und auf einem Illumina HiSeq2500 (zwei Schnelldurchlaufzellen) sequenziert, wobei wir einen Anteil von 90 %:5 %:5 % der drei Bibliotheken in den Sequenzierdaten anstrebten. Zusätzlich führten wir eine Genotypisierung aller acht PBMC-Proben und HEK293T-Zellen mit dem Illumina Infinium CoreExome-Array durch, was es uns ermöglichte, sowohl HTOs als auch Probengenotypen (bewertet durch demuxlet) als unabhängige Demultiplexing-Ansätze zu nutzen.
Bei der Untersuchung der paarweisen Expression von zwei HTO-Zählungen beobachteten wir Beziehungen, die mit „Spezies-Mixing“-Plots (Abb. 1b) vergleichbar sind, was auf eine gegenseitige Exklusivität des HTO-Signals zwischen Singlets hindeutet. Über die paarweise Analyse hinaus entwickelten wir ein statistisches Modell, um jeden Barcode als „positiv“ oder „negativ“ für jede HTO zu klassifizieren (Abschnitt „Methoden“). Kurz gesagt, wir modellierten das „Hintergrund“-Signal für jede HTO unabhängig als negative Binomialverteilung und schätzten die Hintergrundzellen auf der Grundlage der Ergebnisse eines anfänglichen k-medoids Clustering aller HTO-Reads (Abschnitt „Methoden“). Barcodes mit HTO-Signalen oberhalb des 99%-Quantils für diese Verteilung wurden als „positiv“ bezeichnet, und Barcodes, die für mehr als eine HTO „positiv“ waren, wurden als Multiplets bezeichnet. Wir klassifizierten alle Barcodes, bei denen wir mindestens 200 RNA-UMI nachweisen konnten, unabhängig vom HTO-Signal.
Unsere Klassifizierungen (visualisiert als Heatmap in Abb. 1c) zeigten eine klare Identifizierung von 8 Singulett-Populationen sowie Multiplett-Gruppen. Wir identifizierten auch Barcodes mit vernachlässigbarem Hintergrundsignal für jede der HTOs (als „Negative“ bezeichnet), die hauptsächlich (86,5 %) aus HEK293T- und Mauszellen bestanden. Wir entfernten alle HEK293T- und Mauszellen aus den nachgeschalteten Analysen (Abschnitt „Methoden“), wobei die verbleibenden Barcodes erwartungsgemäß 14.002 Singlets und 2974 identifizierbare Multiplets repräsentierten. Unsere Klassifizierungen stimmten auch vollständig mit einer tSNE-Einbettung überein, die nur unter Verwendung der 8 HTO-Signale berechnet wurde und nicht nur die 8 Singlet-Gruppen (Spender A bis H), sondern auch die 28 kleinen Gruppen, die alle möglichen Dublett-Kombinationen repräsentieren, deutlich sichtbar machte (Abb. 1d). Darüber hinaus beobachteten wir, wie erwartet, eine deutliche positive Verschiebung in der Verteilung der RNA-UMI pro Barcode für Multipletts (Abb. 1e), während die verbleibenden negativen Barcodes weniger UMIs exprimierten und möglicherweise fehlgeschlagene Reaktionen oder „leere“ Tröpfchen darstellen, die nur Umgebungs-RNA enthalten. Diese Ergebnisse deuten stark darauf hin, dass die HTOs jeden Barcode erfolgreich seiner ursprünglichen Probe zuordnen und eine robuste Detektion von probenübergreifenden Multipletts ermöglichen. Der große dynamische Bereich der RNA-UMI pro Zell-Barcode bei Multipletts (Abb. 1e) verdeutlicht die Schwierigkeit einer eindeutigen Multiplet-Zuordnung auf der Grundlage höherer UMI-Zahlen. Die gleichen Probleme beobachten wir auch beim gesamten HTO-Signal (Additional file 1: Abbildung S1A). Die Durchführung eines transkriptomischen Clustering der klassifizierten Singlets ermöglichte die eindeutige Erkennung von sieben hämatopoetischen Subpopulationen, die über alle 8 Spender verteilt waren (Abb. 1f).
Genotyp-basiertes Demultiplexing validiert Cell Hashing
Als nächstes verglichen wir unsere HTO-basierten Klassifikationen mit denen, die durch Demuxlet erhalten wurden. Insgesamt konnten wir eine starke Übereinstimmung zwischen den Techniken feststellen, selbst wenn man die genaue Probenmischung in den sogenannten Doubletten berücksichtigt (Abb. 2a). Bei der Untersuchung der Bereiche, in denen es zu Unstimmigkeiten kam, identifizierten wir 871 Barcodes, die auf der Grundlage der HTO-Werte als Singlets klassifiziert wurden, aber von demuxlet als „mehrdeutig“ eingestuft wurden. Bemerkenswerterweise war die Stärke der HTO-Klassifizierung für diese diskordanten Barcodes (dargestellt durch die Anzahl der Reads, die der am stärksten exprimierten HTO zugeordnet wurden) identisch mit den Barcodes, die von beiden Ansätzen als Singlets klassifiziert wurden (Abb. 2b). Die diskordanten Barcodes wiesen jedoch geringere RNA-UMI-Zahlen auf (Abb. 2c). Wir kommen zu dem Schluss, dass diese Barcodes bei unserer relativ geringen Sequenzierungstiefe (~ 24.115 Reads pro Zelle), die unter der empfohlenen Tiefe für die Verwendung von Demuxlet liegt, wahrscheinlich nicht genetisch klassifiziert werden konnten, aber auf der Grundlage unserer HTO-Klassifizierungen wahrscheinlich echte Einzelzellen darstellen.
Außerdem beobachteten wir 2528 Barcodes, die zwischen den beiden Techniken diskordante Singlet/Doublet-Klassifikationen erhielten (Abb. 2d). Wir weisen darauf hin, dass es sich hierbei um eine Minderheit von Strichcodes handelt (im Vergleich zu 13.421 übereinstimmenden Klassifizierungen) und dass es in diesen Fällen schwierig ist, sicher zu sein, welche der beiden Methoden die richtige ist. Als wir jedoch die UMI-Verteilungen der einzelnen Klassifizierungsgruppen untersuchten, stellten wir fest, dass nur Barcodes, die von beiden Techniken als Dubletten klassifiziert wurden, eine positive Verschiebung der transkriptomischen Komplexität aufwiesen (Abb. 2d). Dies deutet darauf hin, dass diese nicht übereinstimmenden Anrufe größtenteils aus echten Singlets bestehen und konservative falsch-positive Ergebnisse beider Methoden darstellen, vielleicht aufgrund von Umgebungs-RNA oder HTO-Signalen. Als wir unsere Analyse auf die Fälle beschränkten, in denen Demuxlet Barcodes mit > 95 % Wahrscheinlichkeit als Doubletten bezeichnete, beobachteten wir im Einklang mit dieser Interpretation einen Rückgang der Anzahl der diskordanten Calls um 75 % (Abb. 2e). Demuxlet erfordert eine ausreichende Anzahl von Reads und SNPs, um eine Zelle eindeutig einem Spender zuzuordnen, und wie erwartet wiesen diskordant klassifizierte Zellen eine geringere Anzahl von Sequenzier-Reads und SNPs auf (Additional file 1: Abbildung S2A-D).
Schließlich beobachteten wir auch eine seltene Anzahl von Fällen, in denen sowohl Cell Hashing als auch demuxlet Zellen als Singlets klassifizierten, jedoch mit diskordanten Spenderklassifizierungen (216/11.464; 1,9 %). Zur weiteren Untersuchung nutzten wir die Tatsache, dass alle Spender (A-G) außer einem (H) auch mit CITE-seq-Antikörpern angefärbt wurden, so dass die Zellen des Spenders H keine ADT-Reads enthalten sollten. In 40 Fällen, in denen Demuxlet, aber nicht Cell Hashing, Zellen als Spender H klassifizierte, beobachteten wir jedoch in 37 Fällen robuste (> 1000) ADT-Zählungen, was darauf hindeutet, dass diese nicht übereinstimmenden Anrufe Fehlklassifizierungsfehler von Demuxlet sind (Zusatzdatei 1: Abbildung S2E), in Übereinstimmung mit der geschätzten Fehlerrate von Demuxlet von 1-2 %.
Um weiter sicherzustellen, dass Hintergrundbindungsniveaus nicht zu falsch demultiplexierten Proben führen, führten wir ein separates Experiment durch, bei dem wir vier Zelllinien (HEK293T, THP1, K562 und KG1) miteinander mischten, die jeweils unabhängig voneinander mit drei verschiedenen Cell-Hashing-Oligos markiert wurden. Nach dem Demultiplexen, um jeden Barcode einer Ursprungszelllinie zuzuordnen, gruppierten wir die Zellen auf der Grundlage ihrer RNA-Expressionsniveaus und erhielten (wie erwartet) vier transkriptomische Cluster. Beim Vergleich unserer transkriptomischen Cluster mit den Demultiplexing-Ergebnissen beobachteten wir eine nahezu perfekte Übereinstimmung (99,7 %), was eine niedrige Rate an Fehlzuordnungen für dieses Experiment belegt (Additional file 1: Abbildung S3A, B).
Schließlich versuchten wir, die Falsch-Negativ-Raten für Cell Hashing abzuschätzen, die echte Einzelzellen darstellen, die kein ausreichendes Cell Hashing-Signal erhalten, um als Singlets klassifiziert zu werden. Zu diesem Zweck untersuchten wir alle HTO-klassifizierten „Singlet“- und „Negative“-Barcodes aus dem PBMC-Experiment und führten ein Clustering auf der Grundlage von Transkriptomdaten durch. Wie erwartet, stellten wir fest, dass „negative“ Zellen überwiegend einen von Singlets getrennten Cluster bildeten. Wir beobachteten jedoch 117 Barcodes, die ursprünglich als negativ eingestuft worden waren, deren transkriptomische Profile sich jedoch in den Subtypen der PBMC-Singlet-Zellen gruppierten. Diese Barcodes repräsentieren wahrscheinlich einzelne Zellen, die beim Cell Hashing falsch klassifiziert wurden, was einer Falsch-Negativ-Rate von 0,9 % entspricht (Additional file 1: Abbildung S4), aber vernachlässigbare Auswirkungen auf die Schätzungen des Zelltyps hat. Zusammengenommen bestätigen unsere Ergebnisse, dass Cell Hashing eine robuste und genaue Klassifizierung von Proben in verschiedenen Systemen ermöglicht.
Cell Hashing ermöglicht die effiziente Optimierung von CITE-seq-Antikörper-Panels
Unsere Multiplexing-Strategie ermöglicht nicht nur das Pooling über verschiedene Spender hinweg, sondern auch die gleichzeitige Erstellung von Profilen unter verschiedenen Versuchsbedingungen. Dies ist für die gleichzeitige Erstellung von Profilen verschiedener Umwelt- und genetischer Störungen weithin anwendbar, aber wir dachten, dass wir auch experimentelle Arbeitsabläufe, wie die Titration von Antikörperkonzentrationen für CITE-seq-Experimente, effizient optimieren könnten. In der Durchflusszytometrie werden Antikörper in der Regel einzeln über eine große Verdünnungsreihe getestet, um das Signal-Rausch-Verhältnis zu bewerten und optimale Konzentrationen zu ermitteln. Während solche Experimente extrem kostspielig wären, wenn sie als einzelne 10x Genomics-Spuren durchgeführt würden, dachten wir, dass wir diese Experimente mit Hilfe von Cell Hashing zusammen multiplexen könnten.
Wir inkubierten daher die PBMCs von verschiedenen Spendern mit einer Verdünnungsreihe von Antikörperkonzentrationen, die über drei Größenordnungen reichten (Abschnitt „Methoden“). Die Konzentrationen der CITE-seq-Antikörper wurden zwischen den verschiedenen Proben gestaffelt, um die Gesamtmenge an Antikörpern und Oligos in jeder Probe gleich zu halten. Nach der Demultiplexierung der Proben untersuchten wir die ADT-Verteilungen über alle Konzentrationen für jeden Antikörper (Beispiele in Abb. 3a-c) und bewerteten das Signal-Rausch-Verhältnis, indem wir einen Färbungsindex berechneten, der den üblicherweise verwendeten Metriken für die Optimierung der Durchflusszytometrie ähnelt (Abb. 3d) (Abschnitt „Methoden“).
Alle Antikörper zeigten nur ein Hintergrundsignal in den Negativkontrollbedingungen und ein sehr schwaches Signal-Rausch-Verhältnis bei 0,06 μg/Test. Wir beobachteten, dass das Signal-Rausch-Verhältnis bei den meisten Antikörpern im Konzentrationsbereich von 0,5 bis 1 μg/Test zu sättigen begann, vergleichbar mit den empfohlenen Konzentrationen für die Durchflusszytometrie (Abb. 3d). Dieses Experiment war als Machbarkeitsstudie gedacht; ein ideales Titrationsexperiment würde Zellen desselben Spenders für alle Bedingungen und einen größeren Konzentrationsbereich verwenden, zeigt aber deutlich, wie Cell Hashing zur schnellen und effizienten Optimierung experimenteller Arbeitsabläufe eingesetzt werden kann.
Cell Hashtags ermöglichen die Unterscheidung von Zellen geringer Qualität von Umgebungs-RNA
Unsere Zell-Hashtags können einzelne Zellen von Doubletten auf der Grundlage der eindeutigen Expression eines einzelnen HTO unterscheiden, und wir fragten als Nächstes, ob dieses Merkmal auch Zellen geringer Qualität von Umgebungs-RNA unterscheiden könnte. Sollte dies der Fall sein, könnten wir unseren UMI-„Cutoff“ (der zuvor auf 200 festgelegt war) senken und die Möglichkeit in Betracht ziehen, dass bestimmte Barcodes, die Umgebungs-RNA darstellen, mehr UMI exprimieren als einige echte Einzelzellen. Die meisten Arbeitsabläufe legen strenge UMI-Cutoffs fest, um alle Umgebungs-RNA auszuschließen, was die scRNA-seq-Ergebnisse gegen Zellen mit niedrigem RNA-Gehalt verzerrt und wahrscheinlich die proportionalen Schätzungen des Zelltyps verzerrt.
In der Tat haben wir bei der Betrachtung von 4344 Barcodes, die 50-200 UMI enthalten, 1110 zusätzliche Singlets auf der Grundlage von HTO-Klassifizierungen gefunden, wobei 3108 Barcodes als negativ charakterisiert wurden. Wir klassifizierten jeden Barcode als eine unserer zuvor bestimmten 7 hämatopoetischen Populationen (Abschnitt „Methoden“; Abb. 1F) und visualisierten die Ergebnisse auf einer transkriptomischen tSNE-Einbettung, die unabhängig für die „Singlet“- und „Negativ“-Gruppen berechnet wurde. Bei den vorhergesagten Singlets projizierten die Barcodes auf B-, NK-, T- und myeloische Populationen, die auf der tSNE konsistent getrennt waren, was darauf hindeutet, dass diese Barcodes echte Einzelzellen darstellen (Abb. 3e). Im Gegensatz dazu trennten sich „negative“ Barcodes nicht auf der Grundlage ihrer erzwungenen Klassifizierung, was darauf hindeutet, dass diese Barcodes RNA-Mischungen aus der Umgebung widerspiegeln, die mehrere Subpopulationen vermischen können. Daraus schließen wir, dass Cell Hashing durch die Bereitstellung eines vom Transkriptom unabhängigen Indikators für die Probenidentität dazu beitragen kann, Zellen geringer Qualität und/oder Zellen mit sehr geringem RNA-Gehalt zu gewinnen, die andernfalls nur schwer von der Umgebungs-RNA zu unterscheiden sind (Abb. 3f).
Auf dem Weg zu einem universellen Cell Hashing-Antikörperreagenz
Für unsere Proof-of-Principle-Experimente haben wir einen Pool von Antikörpern verwendet, die gegen hochexprimierte Immunoberflächenmarker (CD45, CD98, CD44 und CD11a) gerichtet sind. Um ein Multiplexing für jeden Zelltyp und jede Probe zu ermöglichen, beschlossen wir, unser Panel so umzugestalten, dass es gegen mehr ubiquitär exprimierte Oberflächenmarker gerichtet ist. Der MHC-Klasse-I-Komplex (Beta-2-Mikroglobulin) und die Natrium-Kalium-ATPase-Untereinheit (CD298) gehören zu den am häufigsten exprimierten Oberflächenproteinen in menschlichen Geweben. Die Verwendung eines Pools von Antikörpern, die gegen beide Proteine gerichtet sind, würde es uns ermöglichen, praktisch jeden Zelltyp in einem einzigen Experiment zu multiplexen. Während dieses Manuskript überarbeitet wurde, zeigten Hartmann und Kollegen, dass die gleiche Antikörperkombination ein universelles Multiplex-Reagenz für CyTOF ist. Die extrem hohen Expressionsniveaus beider Marker sollten ein robustes HTO-Demultiplexing ermöglichen, könnten aber prinzipiell Zellen mit einer überwältigenden Anzahl einzelsträngiger polyA-Oligos markieren, die mit polyadenylierten zellulären mRNAs konkurrieren könnten, was zu einer geringeren Gen- und/oder UMI-Zahl pro Zelle führt. Um diese potenzielle Konkurrenz zu untersuchen, färbten wir Jurkat-Zellen mit einer Verdünnungsreihe von Cell Hashing-Antikörpern an, führten eine Lane mit 10x Chromium Single Cell 3′ v2 neben einer Lane mit nicht gehashten Zellen durch und sequenzierten die resultierenden Transkriptom-Bibliotheken. Die transkriptomische Komplexität, wie sie durch das Verhältnis zwischen Sequenzierlesungen und UMI-Zahlen pro Zelle angezeigt wird, war bei allen getesteten Konzentrationen von Cell-Hashing-Antikörpern nicht von nicht gehashten Zellen zu unterscheiden, was zeigt, dass es keine Nachteile beim Multiplexen von Proben gibt (Zusatzdatei 1: Abbildung S5). Zusammengenommen zeigen diese Ergebnisse, wie Cell Hashing mit leicht verfügbaren kommerziellen Reagenzien und ohne Verlust der transkriptomischen Komplexität auf praktisch jede menschliche Probe angewendet werden kann.