Hashtag-enabled demultiplexing based on ubiquitous surface protein expression
Snažili jsme se rozšířit strategie multiplexování založené na protilátkách na scRNA-seq pomocí modifikace naší metody CITE-seq . Nejprve jsme vybrali sadu monoklonálních protilátek namířených proti všudypřítomným a vysoce exprimovaným imunitním povrchovým markerům (CD45, CD98, CD44 a CD11a), spojili jsme tyto protilátky do osmi identických poolů (pool A až H) a následně jsme každý pool konjugovali s odlišným Hashtag oligonukleotidem (dále jen HTO, obr. 1a; část „Metody“). HTO obsahují jedinečný 12-bp čárový kód, který lze sekvenovat spolu s buněčným transkriptomem, pouze s malými úpravami standardních protokolů scRNA-seq. Ve srovnání s naším předchozím přístupem jsme použili vylepšenou a zjednodušenou konjugační chemii , a to pomocí iEDDA click chemie ke kovalentnímu připojení oligonukleotidů k protilátkám (oddíl „Metody“).
Naši strategii jsme navrhli tak, aby bylo možné provádět CITE-seq a Cell Hashing současně, ale aby byly generovány samostatné sekvenační knihovny. Konkrétně HTO obsahují jinou amplifikační rukojeť než naše standardní CITE-seq značky odvozené od protilátek (ADT) (část „Metody“). To umožňuje nezávislou amplifikaci HTO, ADT a knihoven scRNA-seq a jejich sdružování v požadovaném množství. Pozoruhodné je, že jsme již dříve pozorovali robustní obnovu signálů protilátek z vysoce exprimovaných epitopů díky jejich extrémně vysokému počtu kopií. To je v kontrastu s rozsáhlými „dropout“ úrovněmi pozorovanými u dat scRNA-seq a naznačuje, že můžeme věrně obnovit HTO z každé jednotlivé buňky, což umožňuje přiřazení ke vzorku původu s vysokou věrností.
Pro porovnání naší strategie a prokázání její užitečnosti jsme získali mononukleární buňky periferní krve (PBMC) od osmi různých lidských dárců (označovaných jako dárci A až H) a každý vzorek jsme nezávisle obarvili jedním z našich poolů protilátek konjugovaných s HTO a současně jsme provedli titrační experiment s poolem sedmi imunofenotypových markerů (část „Metody“) pro CITE-seq. Následně jsme spojili všechny buňky dohromady ve stejném poměru spolu se stejným počtem neobarvených buněk HEK293T (a 3 % myších buněk NIH-3T3) jako negativní kontroly a provedli jsme spojení v jedné dráze na systému 10x Genomics Chromium Single Cell 3′ v2. V souladu s přístupem uvedeným v práci Kang et al. jsme přístroj 10x Genomics „nadměrně zatížili“ a vložili buňky v podstatně vyšší koncentraci s očekávaným výtěžkem 20 000 jednotlivých buněk a 5 000 multipletů. Na základě Poissonovy statistiky by 4365 multipletů mělo představovat kombinace buněk z různých vzorků a potenciálně mohou být vyřazeny, což vede k míře nevyřešených multipletů 3,1 %. Je pozoruhodné, že dosažení podobné míry multipletů bez multiplexování by přineslo ~ 4000 singletů. Vzhledem k tomu, že náklady na komerční systémy založené na kapátkách jsou fixní na jeden běh přípravy vzorku, multiplexování tedy umožňuje profilovat ~ 400 % více buněk za stejné náklady.
Provedli jsme rozdělení a reverzní transkripci podle standardních protokolů, přičemž jsme použili pouze mírně upravenou strategii následné amplifikace (oddíl „Metody“) pro vytvoření knihoven transkriptomu, HTO a ADT. Ty jsme spojili a sekvenovali na přístroji Illumina HiSeq2500 (dvě průtokové buňky s rychlým chodem), přičemž jsme se snažili, aby podíl těchto tří knihoven v sekvenačních datech byl 90 %:5 %:5 %. Kromě toho jsme provedli genotypizaci všech osmi vzorků PBMC a buněk HEK293T pomocí pole Illumina Infinium CoreExome, což nám umožnilo využít jak HTO, tak genotypy vzorků (vyhodnocené pomocí demuxletu ) jako nezávislé demultiplexační přístupy.
Při zkoumání párové exprese dvou počtů HTO jsme pozorovali vztahy podobné „druhově smíšeným“ grafům (obr. 1b), což naznačuje vzájemnou exkluzivitu signálu HTO mezi singlety. Nad rámec párové analýzy jsme vytvořili statistický model pro klasifikaci každého čárového kódu jako „pozitivního“ nebo „negativního“ pro každý HTO (oddíl „Metody“). Stručně řečeno, modelovali jsme signál „pozadí“ pro každý HTO nezávisle jako negativní binomické rozdělení, přičemž jsme odhadovali buňky pozadí na základě výsledků počátečního k-medoidního shlukování všech čtení HTO (oddíl „Metody“). Čárové kódy se signály HTO nad 99% kvantilem tohoto rozdělení byly označeny jako „pozitivní“ a čárové kódy, které byly „pozitivní“ pro více než jeden HTO, byly označeny jako multiplety. Klasifikovali jsme všechny čárové kódy, u nichž jsme detekovali alespoň 200 RNA UMI, bez ohledu na signál HTO.
Naše klasifikace (vizualizované jako tepelná mapa na obr. 1c) naznačily jasnou identifikaci 8 populací singletů i skupin multipletů. Identifikovali jsme také čárové kódy se zanedbatelným signálem pozadí pro některý z HTO (označené jako „negativní“), které se skládaly především (86,5 %) z buněk HEK293T a myší. Z následných analýz jsme odstranili všechny buňky HEK293T a myší (oddíl „Metody“), přičemž zbývající čárové kódy představovaly 14 002 singletů a 2974 identifikovatelných multipletů, což bylo v souladu s očekáváním. Naše klasifikace se také plně shodovaly s vložením tSNE, vypočteným pouze pomocí 8 signálů HTO, které umožnilo jasně vizualizovat nejen 8 skupin singletů (dárci A až H), ale také 28 malých skupin představujících všechny možné kombinace dubletů (obr. 1d). Navíc jsme podle očekávání pozorovali jasný pozitivní posun v distribuci UMI RNA na čárový kód pro multiplety (obr. 1e), zatímco zbývající negativní čárové kódy vyjadřovaly méně UMI a mohly představovat neúspěšné reakce nebo „prázdné“ kapky obsahující pouze okolní RNA. Tyto výsledky silně naznačují, že HTO úspěšně přiřadily každý čárový kód k jeho původnímu vzorku a umožnily robustní detekci multipletů napříč vzorky. Velký dynamický rozsah UMI RNA na buněčný čárový kód v multipletech (obr. 1e) ilustruje obtížnost jednoznačného přiřazení multipletu na základě vyšších počtů UMI. , a stejné problémy pozorujeme i u celkového signálu HTO (doplňkový soubor 1: obr. S1A). Provedení transkriptomického shlukování klasifikovaných singletů umožnilo jednoznačnou detekci sedmi hematopoetických subpopulací, které se prolínaly všemi 8 dárci (obr. 1f).
Demultiplexování založené na genotypu potvrzuje platnost Cell Hashing
Naše klasifikace založené na HTO jsme dále porovnali s klasifikacemi získanými pomocí demuxletu . Celkově jsme pozorovali silnou shodu mezi technikami, a to i při zohlednění přesné směsi vzorků v tzv. dubletách (obr. 2a). Při zkoumání oblastí neshody jsme identifikovali 871 čárových kódů, které byly klasifikovány na základě úrovní HTO jako singlety, ale demuxlet je označil jako „nejednoznačné“. Pozoruhodné je, že síla klasifikace HTO u těchto nesouhlasných čárových kódů (reprezentovaná počtem čtení přiřazených k nejvíce exprimovanému HTO) byla shodná s čárovými kódy, které byly klasifikovány jako singlety oběma přístupy (obr. 2b). Diskordantní čárové kódy však měly snížený počet RNA UMI (obr. 2c). Došli jsme k závěru, že tyto čárové kódy pravděpodobně nemohly být geneticky klasifikovány při naší relativně malé hloubce sekvenování (~ 24 115 čtení na buňku), která je nižší než doporučená hloubka pro použití demuxletu, ale pravděpodobně představují skutečné singly na základě naší klasifikace HTO.
Kromě toho jsme také pozorovali 2528 čárových kódů, které obdržely diskordantní klasifikace singlet/doublet mezi oběma technikami (obr. 2d). Podotýkáme, že se jedná o menšinu čárových kódů (ve srovnání s 13 421 shodnými klasifikacemi) a že v těchto neshodných případech je obtížné si být jistý, která z těchto metod je správná. Když jsme však zkoumali rozložení UMI každé klasifikační skupiny, pozorovali jsme, že pouze čárové kódy klasifikované jako dublety oběma technikami vykazují pozitivní posun v transkriptomické složitosti (obr. 2d). To naznačuje, že tato nesouhlasná volání jsou z velké části tvořena skutečnými singlety a představují konzervativní falešně pozitivní výsledky obou metod, možná v důsledku signálu okolní RNA nebo HTO. V souladu s touto interpretací, když jsme naši analýzu omezili na případy, kdy demuxlet volal čárové kódy jako dublety s > 95% pravděpodobností, pozorovali jsme 75% pokles počtu diskordantních volání (obr. 2e). Demuxlet vyžaduje dostatečný počet čtení a SNP k jednoznačnému zařazení buňky k dárci a podle očekávání měly nesouhlasně klasifikované buňky nižší počet sekvenačních čtení a SNP (Additional file 1: Figure S2A-D).
Nakonec jsme také pozorovali vzácný počet případů, kdy jak Cell Hashing, tak demuxlet klasifikovaly buňky jako singlety, ale s nesouhlasnou (216/11 464; 1,9 %) klasifikací dárce. K dalšímu zkoumání jsme využili skutečnosti, že všichni dárci (A-G) kromě jednoho (H) byli také obarveni protilátkami CITE-seq, a proto by buňky dárce H neměly obsahovat čtení ADT. Nicméně ve 40 případech, kdy demuxlet, ale ne Cell Hashing, klasifikoval buňky jako dárce H, jsme v 37 případech pozorovali robustní (> 1000) počty ADT, což naznačuje, že tato nesouhlasná volání jsou chybami v klasifikaci demuxletu (Doplňkový soubor 1: Obrázek S2E), což je v souladu s odhadovanou chybovostí demuxletu 1-2 % .
Abychom se dále ujistili, že úrovně vazebného pozadí nevedly k nesprávně demultiplexovaným vzorkům, provedli jsme samostatný experiment, při kterém jsme smíchali čtyři buněčné linie (HEK293T, THP1, K562 a KG1), z nichž každá byla nezávisle označena třemi různými oligami Cell Hashing. Po demultiplexování jsme za účelem přiřazení každého čárového kódu k buněčné linii původu shlukovali buňky na základě jejich hladin exprese RNA, čímž jsme získali čtyři transkriptomické shluky (podle očekávání). Při porovnání našich transkriptomických shluků s výsledky demultiplexování jsme pozorovali téměř dokonalou shodu (99,7 %), což svědčí o nízké míře chybného přiřazení u tohoto experimentu (Doplňkový soubor 1: Obrázek S3A, B).
Nakonec jsme se pokusili odhadnout míru falešně negativních výsledků pro Cell Hashing, které představují skutečné jednotlivé buňky, které nezískaly dostatečný signál Cell Hashing, aby mohly být klasifikovány jako singlety. Za tímto účelem jsme prozkoumali všechny HTO klasifikované „singlety“ a „negativní“ čárové kódy z experimentu s PBMC a provedli shlukování na základě transkriptomových dat. Podle očekávání jsme zjistili, že „negativní“ buňky tvořily převážně odlišný shluk od singletů. Pozorovali jsme však 117 čárových kódů původně klasifikovaných jako negativní, jejichž transkriptomické profily se však shlukovaly napříč podtypy PBMC singletů. Tyto čárové kódy pravděpodobně představují jednotlivé buňky, které byly nesprávně klasifikovány z Cell Hashing, což představuje 0,9% míru falešné negativity (Additional file 1: Figure S4), ale mají zanedbatelný vliv na odhady podílu buněčných typů. Celkově naše výsledky potvrzují, že Cell Hashing umožňuje robustní a přesnou klasifikaci vzorků v různých systémech.
Cell Hashing umožňuje efektivní optimalizaci panelů protilátek CITE-seq
Naše strategie multiplexování umožňuje nejen sdružování napříč dárci, ale také současné profilování více experimentálních podmínek. To je široce použitelné pro simultánní profilování různých environmentálních a genetických perturbací, ale usoudili jsme, že bychom mohli také efektivně optimalizovat experimentální pracovní postupy, jako je titrace koncentrací protilátek pro experimenty CITE-seq. V průtokové cytometrii se protilátky obvykle používají jednotlivě ve velkých řadách ředění, aby se vyhodnotil poměr signál/šum a určily optimální koncentrace. Zatímco takové experimenty by byly extrémně nákladné, kdyby byly prováděny jako jednotlivé dráhy 10x Genomics, usoudili jsme, že bychom mohli tyto experimenty multiplexovat společně pomocí Cell Hashing.
Inkubovali jsme proto PBMC od různých dárců s ředicími sériemi koncentrací protilátek v rozsahu tří řádů („Metody“). Koncentrace protilátek CITE-seq byly mezi jednotlivými vzorky rozloženy tak, aby celkové množství protilátek a oligo bylo v každém vzorku konzistentní. Po demultiplexování vzorků jsme zkoumali distribuce ADT ve všech koncentracích pro každou protilátku (příklady na obr. 3a-c) a hodnotili poměr signál/šum výpočtem indexu barvení podobného běžně používaným metrikám pro optimalizaci průtokové cytometrie (obr. 3d) (oddíl „Metody“).
Všechny protilátky vykazovaly v podmínkách negativní kontroly pouze signál pozadí a velmi slabý poměr signál/šum při 0,06 μg/testu. Pozorovali jsme, že poměr signál/šum se u většiny protilátek začal sytit v rozmezí koncentrací 0,5 až 1 μg/test, což je srovnatelné s doporučenými koncentracemi pro průtokovou cytometrii (obr. 3d). Tento experiment byl zamýšlen jako ověření konceptu; ideální titrační experiment by použil buňky od stejného dárce pro všechny podmínky a větší rozsah koncentrací, ale jasně demonstruje, jak lze Cell Hashing použít k rychlé a efektivní optimalizaci experimentálních pracovních postupů.
Buněčné hashtagy umožňují rozlišit nekvalitní buňky od okolní RNA
Naše buněčné hashtagy mohou rozlišit jednotlivé buňky od dublet na základě jasné exprese jediného HTO a my jsme se dále ptali, zda tato funkce může také rozlišit nekvalitní buňky od okolní RNA. Pokud ano, umožnilo by nám to snížit naši „mezní hodnotu“ UMI (dříve nastavenou na 200) a umožnilo by to zohlednit možnost, že některé čárové kódy představující ambientní RNA mohou exprimovat více UMI než některé skutečné jednotlivé buňky. Většina pracovních postupů nastavuje přísné mezní hodnoty UMI, aby vyloučila veškerou okolní RNA, což zkresluje výsledky scRNA-seq proti buňkám s nízkým obsahem RNA a pravděpodobně zkresluje proporcionální odhady typu buněk.
Při zvážení 4344 čárových kódů obsahujících 50-200 UMI jsme na základě klasifikace HTO získali 1110 dalších singletů, přičemž 3108 čárových kódů bylo charakterizováno jako negativní. Každý čárový kód jsme klasifikovali jako jednu z našich dříve určených 7 hematopoetických populací (oddíl „Metody“; obr. 1F) a výsledky jsme vizualizovali na transkriptomickém tSNE embedingu, vypočteném nezávisle pro obě skupiny „singletů“ a „negativů“. U předpokládaných singletů se čárové kódy promítaly do B, NK, T a myeloidních populací, které byly na tSNE důsledně odděleny, což naznačuje, že tyto čárové kódy představují skutečné jednotlivé buňky (obr. 3e). Naproti tomu „negativní“ čárové kódy se na základě jejich vynucené klasifikace neoddělily, což odpovídá tomu, že tyto čárové kódy odrážejí směsi RNA z okolí, které mohou mísit více subpopulací. Došli jsme proto k závěru, že díky tomu, že Cell Hashing poskytuje údaj o identitě vzorku, který je nezávislý na transkriptomu, může pomoci získat zpět buňky nízké kvality a/nebo buňky s velmi nízkým obsahem RNA, které lze jinak obtížně odlišit od okolní RNA (obr. 3f).
Na cestě k univerzálnímu protilátkovému činidlu Cell Hashing
Pro naše experimenty s ověřením principu jsme použili soubor protilátek namířených proti vysoce exprimovaným imunitním povrchovým markerům (CD45, CD98, CD44 a CD11a). Abychom umožnili multiplexování jakéhokoli typu buněk a vzorku, rozhodli jsme se přepracovat náš panel tak, aby byl zaměřen na více všudypřítomně exprimovaných povrchových markerů. Komplex MHC třídy I (beta-2-mikroglobulin) a podjednotka sodíko-draselné ATPázy (CD298) patří mezi nejrozšířenější povrchové proteiny v lidských tkáních . Použití souboru protilátek namířených proti oběma proteinům by nám umožnilo multiplexovat prakticky jakýkoli typ buněk v jednom experimentu. V době, kdy byl tento rukopis v revizi, byla stejná kombinace protilátek prokázána Hartmannem a jeho kolegy jako univerzální multiplexovací činidlo pro CyTOF . Extrémně vysoké hladiny exprese obou markerů by měly umožnit robustní demultiplexování HTO, ale v zásadě by mohly označit buňky ohromným počtem jednořetězcových polyA olig, které by mohly soutěžit s polyadenylovanými buněčnými mRNA, což by mělo za následek nižší počet genů a/nebo UMI na buňku. Abychom tuto potenciální konkurenci prozkoumali, obarvili jsme buňky Jurkat sérií ředění protilátek Cell Hashing, provedli jsme pruh 10x Chromium single cell 3′ v2 vedle pruhu s nemaskovanými buňkami a sekvenovali výsledné knihovny transkriptomů. Úroveň transkriptomické složitosti, jak ukazuje vztah mezi počtem sekvenačních čtení a počtem UMI na buňku, byla nerozlišitelná od buněk, které nebyly chashovány, ve všech testovaných koncentracích protilátek Cell Hashing, což ukazuje, že při multiplexování vzorků nedochází k žádným nevýhodám (Additional file 1: Figure S5). Celkově tyto výsledky ukazují, jak lze Cell Hashing snadno aplikovat na prakticky jakýkoli lidský vzorek pomocí snadno dostupných komerčních činidel a bez ztráty transkriptomické komplexnosti.
.