Hashtag-enabled demultiplexing based on ubiquitous surface protein expression
Postaraliśmy się rozszerzyć strategie multipleksowania opartego na przeciwciałach na scRNA-seq używając modyfikacji naszej metody CITE-seq . Początkowo wybraliśmy zestaw przeciwciał monoklonalnych skierowanych przeciwko wszechobecnym i wysoko wyrażonym immunologicznym markerom powierzchniowym (CD45, CD98, CD44 i CD11a), połączyliśmy te przeciwciała w osiem identycznych pul (pula od A do H), a następnie skoniugowaliśmy każdą pulę z odrębnym oligonukleotydem Hashtag (odtąd zwanym HTO, Rys. 1a; sekcja „Metody”). HTO zawierają unikalny 12-bp kod kreskowy, który może być sekwencjonowany wraz z transkryptomem komórkowym, z niewielkimi modyfikacjami standardowych protokołów scRNA-seq. Wykorzystaliśmy ulepszoną i uproszczoną chemię koniugacji w porównaniu z naszym poprzednim podejściem, stosując chemię kliknięć iEDDA do kowalencyjnego przyłączania oligonukleotydów do przeciwciał (sekcja „Metody”).
Zaprojektowaliśmy naszą strategię, aby umożliwić jednoczesne wykonanie CITE-seq i Cell Hashing, ale aby wygenerować oddzielne biblioteki sekwencjonowania. W szczególności, HTO zawierają inny uchwyt amplifikacyjny niż nasze standardowe znaczniki pochodzące z przeciwciał (ADT) CITE-seq (sekcja „Metody”). To pozwala HTOs, ADTs i bibliotekom scRNA-seq być niezależnie amplifikowane i łączone w pożądanych ilościach. W szczególności, wcześniej zaobserwowaliśmy silne odzyskiwanie sygnałów przeciwciał z wysoko wyrażonych epitopów, ze względu na ich niezwykle wysoką liczbę kopii. Jest to sprzeczne z rozległymi poziomami „dropout” obserwowanymi dla danych scRNA-seq i sugeruje, że możemy wiernie odzyskać HTO z każdej pojedynczej komórki, umożliwiając przypisanie do próbki pochodzenia z wysoką wiernością.
Aby porównać naszą strategię i zademonstrować jej użyteczność, uzyskaliśmy komórki jednojądrzaste krwi obwodowej (PBMC) od ośmiu oddzielnych dawców ludzkich (zwanych dawcami od A do H) i niezależnie wybarwiliśmy każdą próbkę jedną z naszych puli przeciwciał sprzężonych z HTO, jednocześnie wykonując eksperyment miareczkowania z pulą siedmiu markerów immunofenotypowych (sekcja „Metody”) dla CITE-seq. Następnie połączyliśmy wszystkie komórki w równych proporcjach, wraz z równą liczbą nie wybarwionych komórek HEK293T (i 3% mysich komórek NIH-3T3) jako kontroli negatywnych, i przeprowadziliśmy pulę w pojedynczym pasie na systemie 10x Genomics Chromium Single Cell 3′ v2. Zgodnie z podejściem opisanym w pracy Kang i wsp. „przeładowaliśmy” instrument 10x Genomics, ładując komórki w znacznie wyższym stężeniu, z oczekiwaną wydajnością 20 000 pojedynczych komórek i 5000 multipletów. W oparciu o statystykę Poissona, 4365 multipletów powinno reprezentować kombinacje komórek z różnych próbek i może być potencjalnie odrzucone, co prowadzi do nierozwiązanego wskaźnika multipletów wynoszącego 3,1%. Należy zauważyć, że osiągnięcie podobnego wskaźnika multipletów bez multipleksowania dałoby ~ 4000 multipletów. Ponieważ koszt komercyjnych systemów opartych na kropelkach jest stały dla każdego przebiegu przygotowania próbki, multipleksowanie pozwala zatem na profilowanie ~ 400% więcej komórek przy tym samym koszcie.
Wykonaliśmy podział i odwrotną transkrypcję zgodnie ze standardowymi protokołami, wykorzystując jedynie nieznacznie zmodyfikowaną strategię amplifikacji (sekcja „Metody”) w celu wygenerowania bibliotek transkryptomu, HTO i ADT. Połączyliśmy je i sekwencjonowaliśmy na Illumina HiSeq2500 (dwie szybko pracujące komórki przepływowe), dążąc do uzyskania 90%:5%:5% wkładu trzech bibliotek w dane sekwencjonowania. Dodatkowo, wykonaliśmy genotypowanie wszystkich ośmiu próbek PBMC i komórek HEK293T z Illumina Infinium CoreExome array, co pozwoliło nam wykorzystać zarówno HTOs i genotypy próbek (oceniane przez demuxlet ) jako niezależne podejścia demultiplexing.
Podczas badania ekspresji parami dwóch zliczeń HTO, zaobserwowaliśmy relacje zbliżone do „gatunków-mieszania” działek (ryc. 1b), sugerując wzajemną wyłączność sygnału HTO między singletami. Wykraczając poza analizę parami, stworzyliśmy model statystyczny do klasyfikacji każdego kodu kreskowego jako „pozytywnego” lub „negatywnego” dla każdego HTO (sekcja „Metody”). W skrócie, modelowaliśmy sygnał „tła” dla każdego HTO niezależnie jako rozkład dwumianowy ujemny, szacując komórki tła w oparciu o wyniki wstępnego grupowania k-medoidów wszystkich odczytów HTO (sekcja „Metody”). Kody kreskowe z sygnałami HTO powyżej kwantyla 99% dla tego rozkładu oznaczono jako „pozytywne”, a kody kreskowe, które były „pozytywne” dla więcej niż jednego HTO oznaczono jako multiplety. Sklasyfikowaliśmy wszystkie kody kreskowe, w których wykryliśmy co najmniej 200 RNA UMI, niezależnie od sygnału HTO.
Nasze klasyfikacje (wizualizowane jako mapa cieplna na Rys. 1c) sugerowały wyraźną identyfikację 8 populacji singletów, jak również grup multipletów. Zidentyfikowaliśmy również kody kreskowe o znikomym sygnale tła dla każdego z HTO (oznaczone jako „negatywne”), składające się głównie (86,5%) z komórek HEK293T i myszy. Usunęliśmy wszystkie komórki HEK293T i mysie z dalszych analiz (sekcja „Metody”), z pozostałymi kodami kreskowymi reprezentującymi 14,002 singletów i 2974 identyfikowalnych multipletów, zgodnie z oczekiwaniami. Nasze klasyfikacje były również w pełni zgodne z osadzeniem tSNE, obliczonym przy użyciu tylko 8 sygnałów HTO, co umożliwiło wyraźną wizualizację nie tylko 8 grup singletów (donory od A do H), ale także 28 małych grup reprezentujących wszystkie możliwe kombinacje dubletów (Rys. 1d). Co więcej, zaobserwowaliśmy wyraźne dodatnie przesunięcie w rozkładzie UMI RNA na kod paskowy dla multipletów, zgodnie z oczekiwaniami (Rys. 1e), podczas gdy pozostałe ujemne kody paskowe wyrażały mniej UMI i mogą reprezentować nieudane reakcje lub „puste” kropelki zawierające tylko RNA z otoczenia. Wyniki te zdecydowanie sugerują, że HTO z powodzeniem przypisały każdy kod kreskowy do jego oryginalnej próbki i umożliwiły solidne wykrywanie multipletów między próbkami. Duży zakres dynamiki UMI RNA na kod kreskowy komórki w multipletach (Rys. 1e) ilustruje trudności w jednoznacznym przypisaniu multipletów w oparciu o wyższe liczby UMI. i obserwujemy te same wyzwania w przypadku całkowitego sygnału HTO (plik dodatkowy 1: Figura S1A). Przeprowadzenie transkryptomicznego grupowania sklasyfikowanych singletów umożliwiło wyraźne wykrycie siedmiu subpopulacji krwiotwórczych, które były rozmieszczone we wszystkich 8 dawcach (ryc. 1f).
Genotype-based demultiplexing validates Cell Hashing
Ponownie porównaliśmy nasze klasyfikacje oparte na HTO z tymi uzyskanymi przez demuxlet . Ogólnie rzecz biorąc, zaobserwowaliśmy silną zgodność pomiędzy tymi technikami, nawet jeśli weźmiemy pod uwagę dokładną mieszaninę próbek w wywołanych dubletach (Rys. 2a). Badając obszary niezgodności, zidentyfikowaliśmy 871 kodów kreskowych, które zostały sklasyfikowane na podstawie poziomów HTO jako single, ale zostały zidentyfikowane jako „niejednoznaczne” przez demuxlet. Warto zauważyć, że siła klasyfikacji HTO dla tych rozbieżnych kodów kreskowych (reprezentowana przez liczbę odczytów przypisanych do HTO o najwyższej ekspresji) była identyczna z kodami kreskowymi, które zostały sklasyfikowane jako pojedyncze przez oba podejścia (Rys. 2b). Jednakże, niezgodne kody kreskowe miały zmniejszoną liczbę RNA UMI (Rys. 2c). Wnioskujemy, że te kody kreskowe prawdopodobnie nie mogły być genetycznie sklasyfikowane przy naszej stosunkowo płytkiej głębokości sekwencjonowania (~ 24,115 odczytów na komórkę), która jest poniżej głębokości zalecanej do stosowania demuxlet, ale prawdopodobnie reprezentują prawdziwe pojedyncze komórki w oparciu o nasze klasyfikacje HTO.
W dodatku, zaobserwowaliśmy również 2528 kodów kreskowych, które otrzymały niezgodne klasyfikacje singlet/doublet pomiędzy dwoma technikami (Rys. 2d). Zauważamy, że odzwierciedla to mniejszość kodów kreskowych (w porównaniu do 13 421 zgodnych klasyfikacji) i że w tych niezgodnych przypadkach trudno jest być pewnym, która z tych metod jest poprawna. Jednakże, gdy zbadaliśmy rozkłady UMI każdej grupy klasyfikacyjnej, zauważyliśmy, że tylko kody kreskowe sklasyfikowane jako dublety przez obie techniki wykazywały pozytywne przesunięcie w złożoności transkryptomicznej (Fig. 2d). Sugeruje to, że te rozbieżne połączenia składają się w dużej mierze z prawdziwych singletów i reprezentują konserwatywne fałszywie pozytywne wyniki z obu metod, być może z powodu otaczającego RNA lub sygnału HTO. Zgodnie z tą interpretacją, kiedy ograniczyliśmy naszą analizę do przypadków, w których demuxlet nazwał kody kreskowe jako dublety z prawdopodobieństwem > 95%, zaobserwowaliśmy 75% spadek liczby niezgodnych wywołań (Rys. 2e). Demuxlet wymaga wystarczającej liczby odczytów i SNPs, aby jednoznacznie zaklasyfikować komórkę do dawcy, i zgodnie z oczekiwaniami, niezgodnie sklasyfikowane komórki miały niższe liczby odczytów sekwencjonowania i SNPs (Dodatkowy plik 1: Figura S2A-D).
Wreszcie, zaobserwowaliśmy również rzadką liczbę przypadków, w których zarówno Cell Hashing, jak i demuxlet sklasyfikowały komórki jako singlety, ale z rozbieżnymi (216/11,464; 1,9%) klasyfikacjami dawcy. Aby zbadać dalej, wykorzystaliśmy fakt, że wszyscy dawcy (A-G) z wyjątkiem jednego (H) byli również wybarwieni przeciwciałami CITE-seq, a zatem komórki dawcy H nie powinny zawierać odczytów ADT. Jednak w 40 przypadkach, w których demuxlet, ale nie Cell Hashing, sklasyfikował komórki jako dawcę H, zaobserwowaliśmy solidne (> 1000) zliczenia ADT w 37 przypadkach, sugerując, że te rozbieżne połączenia są błędami klasyfikacji z demuxlet (Dodatkowy plik 1: Figura S2E), zgodnie z szacowanym wskaźnikiem błędu demuxlet na poziomie 1-2%.
Aby dodatkowo zapewnić, że poziomy wiązania tła nie prowadziły do nieprawidłowo zdemultipleksowanych próbek, przeprowadziliśmy oddzielny eksperyment, w którym zmieszaliśmy cztery linie komórkowe (HEK293T, THP1, K562 i KG1) razem, każdy niezależnie oznakowany trzema różnymi oligosami Cell Hashing. Po demultipleksacji, aby przypisać każdy kod kreskowy do linii komórkowej pochodzenia, połączyliśmy komórki w klastry na podstawie poziomu ekspresji RNA, uzyskując cztery klastry transkryptomiczne (zgodnie z oczekiwaniami). Porównując nasze klastry transkryptomiczne z wynikami demultipleksacji, zaobserwowaliśmy prawie idealną zgodność (99,7%), wykazując niski wskaźnik błędnego przypisania dla tego eksperymentu (plik dodatkowy 1: Figura S3A, B).
Wreszcie, próbowaliśmy oszacować wskaźniki fałszywie ujemne dla Cell Hashing, reprezentujące prawdziwe pojedyncze komórki, które nie otrzymują wystarczającego sygnału Cell Hashing, aby zostać sklasyfikowane jako pojedyncze. Aby to zrobić, zbadaliśmy wszystkie sklasyfikowane przez HTO „singletowe” i „negatywne” kody kreskowe z eksperymentu PBMC i przeprowadziliśmy grupowanie w oparciu o dane transkryptomu. Zgodnie z oczekiwaniami, stwierdziliśmy, że komórki „negatywne” przeważnie tworzyły odrębny klaster od pojedynczych. Jednakże, zaobserwowaliśmy 117 kodów paskowych pierwotnie sklasyfikowanych jako negatywne, ale których profile transkryptomiczne grupowały się pomiędzy podtypami singletów PBMC. Te kody kreskowe prawdopodobnie reprezentują pojedyncze komórki, które zostały nieprawidłowo sklasyfikowane z Cell Hashing, reprezentując wskaźnik fałszywych ujemnych 0,9% (plik dodatkowy 1: Figura S4), ale mają nieistotny wpływ na szacunki proporcji typów komórek. Łącznie, nasze wyniki potwierdzają, że Cell Hashing umożliwia solidną i dokładną klasyfikację próbek w różnych systemach.
Cell Hashing umożliwia wydajną optymalizację paneli przeciwciał CITE-seq
Nasza strategia multipleksowania nie tylko umożliwia łączenie wszystkich dawców, ale także jednoczesne profilowanie wielu warunków eksperymentalnych. Ma to szerokie zastosowanie do jednoczesnego profilowania różnych perturbacji środowiskowych i genetycznych, ale uznaliśmy, że możemy również skutecznie zoptymalizować przepływy pracy eksperymentalnej, takie jak miareczkowanie stężeń przeciwciał dla eksperymentów CITE-seq. W cytometrii przepływowej, przeciwciała są zwykle stosowane indywidualnie w dużych seriach rozcieńczeń, aby ocenić stosunek sygnału do szumu i zidentyfikować optymalne stężenia. Chociaż takie eksperymenty byłyby niezwykle kosztowne, gdyby były przeprowadzane jako indywidualne pasy 10x Genomics, uznaliśmy, że możemy zwielokrotnić te eksperymenty razem przy użyciu Cell Hashing.
W związku z tym inkubowaliśmy PBMCs od różnych dawców z serią rozcieńczeń stężeń przeciwciał w zakresie trzech rzędów wielkości (sekcja „Metody”). Stężenia przeciwciał CITE-seq były rozłożone pomiędzy różnymi próbkami, aby utrzymać całkowitą ilość przeciwciał i oligo na stałym poziomie w każdej próbce. Po demultipleksacji próbek zbadaliśmy rozkłady ADT we wszystkich stężeniach dla każdego przeciwciała (przykłady na Rys. 3a-c) i oceniliśmy stosunek sygnału do szumu, obliczając wskaźnik barwienia podobny do powszechnie stosowanych metryk optymalizacji cytometrii przepływowej (Rys. 3d) (sekcja „Metody”).
Wszystkie przeciwciała wykazywały tylko sygnał tła w warunkach kontroli negatywnej i bardzo słaby sygnał do szumu przy 0,06 μg/test. Zaobserwowaliśmy, że stosunek sygnału do szumu dla większości przeciwciał zaczął się nasycać w zakresie stężeń od 0,5 do 1 μg/test, porównywalnym do stężeń zalecanych w cytometrii przepływowej (ryc. 3d). Ten eksperyment był pomyślany jako dowód koncepcji; idealny eksperyment miareczkowania używałby komórek od tego samego dawcy dla wszystkich warunków i większego zakresu stężeń, ale wyraźnie pokazuje, jak Cell Hashing może być używany do szybkiej i wydajnej optymalizacji eksperymentalnych przepływów pracy.
Cell Hashtags enable the discrimination of low-quality cells from ambient RNA
Nasze hashtagi komórkowe mogą odróżnić pojedyncze komórki od dubletów w oparciu o wyraźną ekspresję pojedynczego HTO, a następnie zapytaliśmy, czy ta cecha może również odróżnić komórki niskiej jakości od otaczającego RNA. Jeśli tak, to umożliwiłoby nam to obniżenie naszego „odcięcia” UMI (poprzednio ustawionego na 200) i pozwoliłoby na możliwość, że niektóre kody kreskowe reprezentujące otaczające RNA mogą wyrażać więcej UMI niż niektóre prawdziwe pojedyncze komórki. Większość przepływów pracy ustawia rygorystyczny próg odcięcia UMI, aby wykluczyć wszystkie RNA z otoczenia, co powoduje, że wyniki scRNA-seq są ukierunkowane na komórki o niskiej zawartości RNA i prawdopodobnie zniekształca proporcjonalne oszacowania typu komórki.
Indeed, biorąc pod uwagę 4344 kody kreskowe zawierające 50-200 UMI, odzyskaliśmy 1110 dodatkowych pojedynczych komórek w oparciu o klasyfikacje HTO, z 3108 kodami kreskowymi scharakteryzowanymi jako negatywne. Sklasyfikowaliśmy każdy kod kreskowy jako jedną z naszych wcześniej określonych 7 populacji hematopoetycznych (sekcja „Metody”; ryc. 1F) i zwizualizowaliśmy wyniki na transkryptomicznym osadzeniu tSNE, obliczonym niezależnie dla grup „singletowych” i „negatywnych”. Dla przewidywanych singletów, kody kreskowe rzutowały na populacje B, NK, T i mieloidalne, które były konsekwentnie oddzielone na tSNE, sugerując, że te kody kreskowe reprezentują prawdziwe pojedyncze komórki (Fig. 3e). W przeciwieństwie do tego, „negatywne” kody kreskowe nie zostały rozdzielone w oparciu o ich wymuszoną klasyfikację, co jest zgodne z tym, że te kody kreskowe odzwierciedlają mieszaniny RNA otoczenia, które mogą łączyć wiele subpopulacji. Wnioskujemy zatem, że zapewniając odczyt tożsamości próbki, który jest niezależny od transkryptomu, Cell Hashing może pomóc w odzyskaniu komórek niskiej jakości i/lub komórek o bardzo niskiej zawartości RNA, które w przeciwnym razie mogą być trudne do odróżnienia od otaczającego RNA (ryc. 3f).
W kierunku uniwersalnego odczynnika przeciwciał Cell Hashing
Do naszych eksperymentów proof of principle, użyliśmy puli przeciwciał skierowanych przeciwko wysoko wyrażonym immunologicznym markerom powierzchniowym (CD45, CD98, CD44 i CD11a). Aby umożliwić multipleksowanie dowolnego typu komórek i próbek, zdecydowaliśmy się przeprojektować nasz panel, aby skierować go na bardziej wszechobecnie wyrażone markery powierzchniowe. Kompleks MHC klasy I (beta-2-mikroglobulina) i podjednostka ATPazy sodowo-potasowej (CD298) są jednymi z najszerzej wyrażanych białek powierzchniowych w ludzkich tkankach. Użycie puli przeciwciał skierowanych przeciwko obu białkom pozwoliłoby nam na multipleksowanie praktycznie każdego typu komórek w jednym eksperymencie. Podczas gdy ten manuskrypt był w trakcie poprawiania, ta sama kombinacja przeciwciał została zademonstrowana przez Hartmanna i współpracowników jako uniwersalny odczynnik multipleksujący dla CyTOF . Niezwykle wysokie poziomy ekspresji obu markerów powinny umożliwić solidne demultipleksowanie HTO, ale w zasadzie mogłyby znakować komórki z przytłaczającą liczbą jednoniciowych oligosów polyA, które mogłyby konkurować z poliadenylowanym komórkowym mRNA, powodując niższe liczby genów i / lub UMI na komórkę. Aby zbadać tę potencjalną konkurencję, wybarwiliśmy komórki Jurkat serią rozcieńczeń przeciwciał Cell Hashing, przeprowadziliśmy pas z 10x Chromium single cell 3′ v2 obok pasa z komórkami nie poddanymi hashingowi, a następnie sekwencjonowaliśmy powstałe biblioteki transkryptomowe. Poziomy złożoności transkryptomicznej, jak wskazuje relacja między odczytami sekwencjonowania a liczbą UMI na komórkę, były nie do odróżnienia od komórek nie poddanych wymazywaniu we wszystkich badanych stężeniach przeciwciał Cell Hashing, co ilustruje brak wad przy multipleksowaniu próbek (plik dodatkowy 1: Figura S5). Łącznie, wyniki te pokazują, jak Cell Hashing może być łatwo zastosowany do praktycznie każdej próbki ludzkiej przy użyciu łatwo dostępnych odczynników komercyjnych i bez utraty złożoności transkryptomicznej.
.