Hashtag-enabled demultiplexing based on ubiquitous surface protein expression
We sought to extend antibody-based multiplexing strategies to scRNA-seq using a modification of our CITE-seq method . Kezdetben kiválasztottunk egy sor monoklonális antitestet, amelyek ubiquitikusan és magasan expresszált immunfelszíni markerek (CD45, CD98, CD44 és CD11a) ellen irányulnak, ezeket az antitesteket nyolc azonos poolba (pool A-tól H-ig) kombináltuk, majd minden egyes poolt egy külön Hashtag oligonukleotidhoz konjugáltunk (a továbbiakban HTO, 1a. ábra; “Módszerek” fejezet). A HTO-k egyedi, 12 bp hosszúságú vonalkódot tartalmaznak, amely a celluláris transzkriptommal együtt szekvenálható, a standard scRNS-seq protokollokhoz képest csak kisebb módosításokkal. A korábbi megközelítésünkhöz képest továbbfejlesztett és egyszerűsített konjugációs kémiát alkalmaztunk , az iEDDA click kémiát használva az oligonukleotidok antitestekhez való kovalens kötéséhez (“Módszerek” szakasz).
A stratégiánkat úgy alakítottuk ki, hogy a CITE-seq és a Cell Hashing egyidejűleg végezhető legyen, de külön szekvenáló könyvtárakat hozzunk létre. Konkrétan, a HTO-k más amplifikációs fogást tartalmaznak, mint a standard CITE-seq antitestből származó címkék (ADT) (“Módszerek” fejezet). Ez lehetővé teszi a HTO-k, ADT-k és scRNA-seq könyvtárak független amplifikálását és összevonását a kívánt mennyiségben. Figyelemre méltó, hogy korábban megfigyeltük az antitest jelek robusztus visszanyerését a magasan expresszált epitópokból, azok rendkívül magas kópiaszámának köszönhetően. Ez ellentétben áll a scRNA-seq adatoknál megfigyelt kiterjedt “kiesési” szintekkel, és arra utal, hogy a HTO-kat minden egyes sejtből hűen vissza tudjuk állítani, lehetővé téve a származási mintához való hozzárendelést nagy hűséggel.
Stratégiánk összehasonlítása és hasznosságának bizonyítása érdekében nyolc különböző emberi donortól (a továbbiakban: A-H donorok) nyertünk perifériás vér mononukleáris sejteket (PBMC), és minden mintát egymástól függetlenül festettünk meg a HTO-konjugált antitest-állományaink egyikével, miközben egyidejűleg hét immunfenotípusos markerből álló poolal (“Módszerek” fejezet) végeztünk titrálási kísérletet a CITE-seq számára. Ezt követően az összes sejtet egyenlő arányban összevontuk, azonos számú festetlen HEK293T sejtekkel (és 3%-os egér NIH-3T3 sejtekkel) mint negatív kontrollokkal együtt, és a pool-t egyetlen sávban futtattuk a 10x Genomics Chromium Single Cell 3′ v2 rendszeren. A Kang és munkatársai által alkalmazott megközelítést követve “szuperterheltük” a 10x Genomics műszert, a sejteket lényegesen magasabb koncentrációban töltöttük be, 20 000 egyedi sejt és 5000 multiplet várható hozamával. A Poisson-statisztika alapján 4365 multipletnek különböző mintákból származó sejtkombinációkat kell képviselnie, és potenciálisan elvethető, ami 3,1%-os fel nem oldott multiplet arányt eredményez. Figyelemre méltó, hogy multiplexelés nélkül hasonló multiplet-arány elérése ~ 4000 szingletet eredményezne. Mivel a kereskedelmi forgalomban kapható csepp alapú rendszerek költsége a mintaelőkészítés futásonkénti fix költsége, a multiplexálás ezért ~ 400%-kal több sejt profilozását teszi lehetővé ugyanazzal a költséggel.
A partícionálást és a reverz transzkripciót a standard protokollok szerint végeztük, csak egy kissé módosított downstream amplifikációs stratégiát alkalmazva (“Módszerek” fejezet) a transzkriptom, HTO és ADT könyvtárak létrehozásához. Ezeket összevontuk és szekvenáltuk egy Illumina HiSeq2500-on (két gyors lefutású áramlási cellán), törekedve arra, hogy a szekvenálási adatokban a három könyvtár 90%:5%:5%-os arányban szerepeljen. Emellett mind a nyolc PBMC-mintán és HEK293T-sejteken genotipizálást végeztünk az Illumina Infinium CoreExome array-vel, ami lehetővé tette számunkra, hogy mind a HTO-kat, mind a minták genotípusát (demuxlet ) független demultiplexelési megközelítésként használjuk.
A két HTO-szám páronkénti expressziójának vizsgálatakor “species-mixing” plotokhoz hasonló összefüggéseket figyeltünk meg (1b. ábra), ami a HTO-jel kölcsönös kizárólagosságára utal a singletek között. A páronkénti elemzésen túlmenően statisztikai modellt dolgoztunk ki az egyes vonalkódok “pozitív” vagy “negatív” besorolásához minden egyes HTO esetében (“Módszerek” fejezet). Röviden, az egyes HTO-k “háttér” jelét egymástól függetlenül modelleztük negatív binomiális eloszlásként, a háttérsejteket az összes HTO-olvasat kezdeti k-medoid klaszterezésének eredményei alapján becsültük meg (“Módszerek” szakasz). Az ezen eloszlás 99%-os kvantilisénél magasabb HTO-jelet mutató vonalkódokat “pozitívnak”, az egynél több HTO-ra “pozitív” vonalkódokat pedig multipleteknek jelöltük. Minden olyan vonalkódot besoroltunk, ahol legalább 200 RNS UMI-t detektáltunk, függetlenül a HTO-jelektől.
A besorolások (hőtérképként vizualizálva az 1c. ábrán) 8 szingletpopuláció, valamint multipletcsoportok egyértelmű azonosítását sugallták. Olyan vonalkódokat is azonosítottunk, amelyeknél a háttérjel elhanyagolható volt bármelyik HTO esetében (“negatívként” jelöltük), és amelyek elsősorban (86,5%-ban) HEK293T- és egérsejtekből álltak. Az összes HEK293T és egér sejtet eltávolítottuk a downstream elemzésekből (“Módszerek” szakasz), a megmaradt vonalkódok 14 002 singletet és 2974 azonosítható multipletet képviseltek, a várakozásoknak megfelelően. Osztályozásunk teljes mértékben egyezett a tSNE beágyazással is, amelyet csak a 8 HTO-jel felhasználásával számítottunk, ami lehetővé tette nemcsak a szingletek 8 csoportjának (donorok A-tól H-ig), hanem az összes lehetséges doublet-kombinációt képviselő 28 kis csoport egyértelmű megjelenítését is (1d. ábra). Ezenkívül a várakozásoknak megfelelően egyértelmű pozitív elmozdulást figyeltünk meg az RNS UMI-k vonalkódonkénti eloszlásában a multipletek esetében (1e. ábra), míg a fennmaradó negatív vonalkódok kevesebb UMI-t fejeztek ki, és esetleg sikertelen reakciókat vagy csak környezeti RNS-t tartalmazó “üres” cseppeket jelenthetnek. Ezek az eredmények határozottan arra utalnak, hogy a HTO-k sikeresen hozzárendeltek minden egyes vonalkódot az eredeti mintához, és lehetővé tették a keresztminták multipletjeinek robusztus kimutatását. A multipletekben az egy sejtre jutó RNS UMI nagy dinamikus tartománya (1e. ábra) jól szemlélteti a magasabb UMI-számok alapján történő egyértelmű multiplet hozzárendelés nehézségeit. , és ugyanezeket a kihívásokat figyeltük meg a teljes HTO-jel esetében is (Additional file 1: S1A ábra). Az osztályozott szingletek transzkriptomikai klaszterezésének elvégzése lehetővé tette hét hematopoetikus szubpopuláció egyértelmű kimutatását, amelyek mind a 8 donorban elszórtan helyezkedtek el (1f. ábra).
A genotípus-alapú demultiplexálás validálja a Cell Hashinget
A következőkben összehasonlítottuk a HTO-alapú osztályozásainkat a demuxlet segítségével kapott osztályozásokkal . Összességében erős egyezést figyeltünk meg a technikák között, még akkor is, ha figyelembe vesszük a pontos mintakeveréket az úgynevezett dupletekben (2a. ábra). Az eltérések területeit vizsgálva 871 olyan vonalkódot azonosítottunk, amelyeket a HTO-szintek alapján szingletként osztályoztunk, de a demuxlet “kétértelműnek” minősített. Figyelemre méltó, hogy a HTO-osztályozás erőssége ezeknek a diszharmonikus barcodoknak (amelyet a legnagyobb mértékben kifejezett HTO-hoz rendelt olvasatok száma jelez) azonos volt azokkal a barcodokkal, amelyeket mindkét megközelítéssel szingletként osztályoztak (2b. ábra). A diszkordáns vonalkódok esetében azonban csökkent az RNS UMI-szám (2c. ábra). Arra a következtetésre jutottunk, hogy ezek a barcódok valószínűleg nem voltak genetikailag osztályozhatók a mi viszonylag sekély szekvenálási mélységünkön (~ 24 115 olvasat/sejt), ami a demuxlet használatához ajánlott mélység alatt van, de a HTO osztályozásunk alapján valószínűleg valódi egysejtűeket képviselnek.
Mellett 2528 olyan vonalkódot is megfigyeltünk, amelyek a két technika között diszkordáns szinglet/dublett besorolást kaptak (2d. ábra). Megjegyezzük, hogy ez a vonalkódok kisebbségét tükrözi (a 13 421 egybehangzó osztályozáshoz képest), és hogy ezekben a nem egybehangzó esetekben nehéz biztosra venni, hogy melyik módszer a helyes. Amikor azonban megvizsgáltuk az egyes osztályozási csoportok UMI-eloszlásait, megfigyeltük, hogy csak a mindkét módszerrel kettősnek minősített vonalkódok mutattak pozitív elmozdulást a transzkriptomikai komplexitásban (2d. ábra). Ez arra utal, hogy ezek a diszharmonikus hívások nagyrészt valódi szingletekből állnak, és mindkét módszer konzervatív hamis pozitív eredményeit jelentik, talán a környezeti RNS vagy HTO jel miatt. Ezzel az értelmezéssel összhangban, amikor az elemzésünket azokra az esetekre korlátoztuk, amikor a demuxlet a vonalkódokat > 95%-os valószínűséggel dupletként hívta meg, 75%-os csökkenést figyeltünk meg a diszkordáns hívások számában (2e. ábra). A demuxlet elegendő számú leolvasást és SNP-t igényel ahhoz, hogy egy sejtet egyértelműen egy donorhoz soroljon, és ahogyan az várható volt, a diszkordánsan besorolt sejtek alacsonyabb számú szekvenáló leolvasással és SNP-vel rendelkeztek (Additional file 1: S2A-D ábra).
Végül megfigyeltünk egy ritka számú olyan esetet is, amikor mind a Cell Hashing, mind a demuxlet a sejteket singletként, de diszkordáns (216/11.464; 1,9%) donor besorolásokkal osztályozta. A további vizsgálathoz kihasználtuk, hogy egy kivételével (H) minden donor (A-G) CITE-seq antitesttel is meg volt festve, ezért a H donor sejtjei nem tartalmazhatnak ADT olvasatokat. Azonban 40 olyan esetben, amikor a demuxlet, de nem a Cell Hashing a sejteket H donornak minősítette, 37 esetben robusztus (> 1000) ADT-számokat figyeltünk meg, ami arra utal, hogy ezek a nem egyező hívások a demuxlet téves besorolási hibái (Additional file 1: Figure S2E), összhangban a demuxlet 1-2%-ra becsült hibaarányával .
Annak további biztosítására, hogy a háttér kötődési szintek ne vezessenek hibásan demultiplexált mintákhoz, külön kísérletet végeztünk, amelyben négy sejtvonalat (HEK293T, THP1, K562 és KG1) kevertünk össze, amelyeket egymástól függetlenül három különböző Cell Hashing oligóval jelöltünk. A demultiplexelést követően, hogy minden egyes vonalkódot egy-egy származási sejtvonalhoz rendelhessünk, a sejteket RNS-expressziós szintjük alapján klasztereztük, így négy transzkriptomikai klasztert kaptunk (a várakozásoknak megfelelően). Összehasonlítva a transzkriptomikai klasztereinket a demultiplexelési eredményekkel, szinte tökéletes egyezést (99,7%) figyeltünk meg, ami a téves hozzárendelés alacsony arányát mutatja ennél a kísérletnél (Additional file 1: S3A, B ábra).
Végül megkíséreltük megbecsülni a Cell Hashing hamis-negatív arányát, ami azokat a valódi egysejtűeket jelenti, amelyek nem kapnak elegendő Cell Hashing jelet ahhoz, hogy szingletnek minősítsük őket. Ehhez megvizsgáltuk a PBMC-kísérletből származó összes HTO-osztályozott “singlet” és “negatív” vonalkódot, és klaszterezést végeztünk a transzkriptom adatok alapján. A várakozásoknak megfelelően azt találtuk, hogy a “negatív” sejtek túlnyomórészt a singletektől elkülönülő klasztert alkottak. Megfigyeltünk azonban 117, eredetileg negatívnak minősített vonalkódot, amelyek transzkriptomikai profilja azonban a PBMC szinglet altípusai között klasztereződött. Ezek a vonalkódok valószínűleg a Cell Hashing alapján helytelenül besorolt szingulett sejteket képviselik, ami 0,9%-os hamis-negatív arányt jelent (Additional file 1: Figure S4), de elhanyagolható hatással vannak a sejttípusok arányának becslésére. Összességében eredményeink igazolják, hogy a Cell Hashing robusztus és pontos mintaosztályozást tesz lehetővé különböző rendszerekben.
A Cell Hashing lehetővé teszi a CITE-seq antitestpanelek hatékony optimalizálását
Multiplexelési stratégiánk nemcsak a donorok közötti poolingot teszi lehetővé, hanem több kísérleti feltétel egyidejű profilozását is. Ez széles körben alkalmazható különféle környezeti és genetikai perturbációk egyidejű profilozására, de arra gondoltunk, hogy hatékonyan optimalizálhatjuk a kísérleti munkafolyamatokat is, például a CITE-seq-kísérletekhez szükséges antitestkoncentrációk titrálását. Az áramlási citometriában az antitesteket általában egyenként futtatják egy nagy hígítási sorozaton keresztül, hogy értékeljék a jel-zaj arányt és meghatározzák az optimális koncentrációkat . Bár az ilyen kísérletek rendkívül költségigényesek lennének, ha egyedi 10x Genomics sávokban futtatnánk őket, úgy gondoltuk, hogy ezeket a kísérleteket a Cell Hashing segítségével együtt multiplexelhetjük.
Ezért inkubáltuk a különböző donorokból származó PBMC-ket három nagyságrendnyi antitest-koncentráció hígítási sorozatával (“Módszerek” szakasz). A CITE-seq antitestek koncentrációit a különböző minták között eltoltuk, hogy az antitest és az oligók teljes mennyisége minden egyes mintában egyenletes legyen. A minták demultiplexálása után megvizsgáltuk az ADT eloszlásokat az egyes antitestek összes koncentrációjára vonatkozóan (példák a 3a-c. ábrán), és a jel-zaj arányt az áramlási citometria optimalizálásához általánosan használt metrikákhoz hasonló festési index kiszámításával értékeltük (3d. ábra) (“Módszerek” fejezet).
Minden antitest csak háttérjelet mutatott a negatív kontrollkörülmények között és nagyon gyenge jel-zaj viszonyokat 0,06 μg/próbánál. Megfigyeltük, hogy a legtöbb antitest jel-zaj viszonya a 0,5 és 1 μg/test közötti koncentrációtartományban kezdett telítődni, ami összehasonlítható az áramlási citometriához ajánlott koncentrációkkal (3d. ábra). Ezt a kísérletet a koncepció bizonyításának szántuk; egy ideális titrálási kísérletben minden körülmények között ugyanattól a donortól származó sejteket és nagyobb koncentrációtartományt használnánk, de egyértelműen bemutatja, hogy a Cell Hashing hogyan használható a kísérleti munkafolyamatok gyors és hatékony optimalizálására.
A Cell Hashtagek lehetővé teszik az alacsony minőségű sejtek megkülönböztetését a környezeti RNS-től
Cell Hashtagjeink egyetlen HTO egyértelmű expressziója alapján képesek megkülönböztetni az egyes sejteket a dupletektől, és a következő kérdésünk az volt, hogy ez a funkció képes-e az alacsony minőségű sejteket is megkülönböztetni a környezeti RNS-től. Ha igen, akkor ez lehetővé tenné számunkra, hogy csökkentsük az UMI “cutoff” értékét (amelyet korábban 200-ra állítottunk be), és lehetővé tenné annak lehetőségét, hogy bizonyos környezeti RNS-t képviselő vonalkódok több UMI-t fejezzenek ki, mint egyes valódi egyedi sejtek. A legtöbb munkafolyamat szigorú UMI-határértékeket állít be az összes környezeti RNS kizárására, ami torzítja a scRNA-seq eredményeket az alacsony RNS-tartalmú sejtekkel szemben, és valószínűleg torzítja a sejttípusra vonatkozó arányos becsléseket.
Az 50-200 UMI-t tartalmazó 4344 vonalkódot figyelembe véve a HTO-osztályozás alapján további 1110 szingulátumot nyertünk vissza, 3108 vonalkódot pedig negatívnak minősítettünk. Minden egyes vonalkódot besoroltunk a korábban meghatározott 7 vérképzőszervi populációnk egyikébe (“Módszerek” fejezet; 1F ábra), és az eredményeket egy transzkriptomikai tSNE-beágyazáson vizualizáltuk, amelyet mind a “szinglet”, mind a “negatív” csoportokra függetlenül számítottunk. A prediktált singletek esetében a vonalkódok a B, NK, T és myeloid populációkra vetültek, amelyek következetesen elkülönültek a tSNE-n, ami arra utal, hogy ezek a vonalkódok valódi egysejtűeket képviselnek (3e. ábra). Ezzel szemben a “negatív” vonalkódok nem különültek el a kényszerített osztályozás alapján, ami összhangban van azzal, hogy ezek a vonalkódok környezeti RNS-keverékeket tükröznek, amelyek több alpopulációt keverhetnek. Ezért arra a következtetésre jutottunk, hogy azáltal, hogy a minta identitását a transzkriptomtól független módon jelzi, a Cell Hashing segíthet az alacsony minőségű és/vagy nagyon alacsony RNS-tartalmú sejtek visszanyerésében, amelyeket egyébként nehéz lenne megkülönböztetni a környezeti RNS-től (3f. ábra).
Egy univerzális Cell Hashing antitest-reagens felé
Az elvi kísérletekben olyan antitesteket használtunk, amelyek magasan expresszált immunfelszíni markerek (CD45, CD98, CD44 és CD11a) ellen irányultak. Annak érdekében, hogy lehetővé tegyük bármely sejttípus és minta multiplexálását, úgy döntöttünk, hogy panelünket úgy alakítjuk át, hogy több ubiquitástól kifejezett felszíni markert célozzon meg. Az MHC I. osztályú komplex (béta-2-mikroglobulin) és a nátrium-kálium ATPáz alegység (CD298) a humán szövetekben legszélesebb körben expresszálódó felszíni fehérjék közé tartoznak . A két fehérje ellen irányuló antitestek összessége lehetővé tenné gyakorlatilag bármely sejttípus multiplexálását egy kísérletben. Amíg ez a kézirat átdolgozás alatt állt, Hartmann és munkatársai kimutatták, hogy ugyanez az antitestkombináció egy univerzális multiplexáló reagens a CyTOF számára . Mindkét marker rendkívül magas expressziós szintje lehetővé teszi a robusztus HTO demultiplexelést, de elvileg túl nagy számú egyszálú polyA oligóval jelölheti a sejteket, amelyek versenyezhetnek a poliadenilált sejtes mRNS-ekkel, ami alacsonyabb sejtenkénti gén- és/vagy UMI-számot eredményezne. Ennek a lehetséges versengésnek a vizsgálatára Jurkat sejteket festettünk meg Cell Hashing antitestek hígítási sorozatával, lefuttattunk egy 10x Chromium egysejtes 3′ v2 sávot egy sávnyi nem hashingolt sejtekkel, és szekvenáltuk az így kapott transzkriptom könyvtárakat. A transzkriptomi komplexitási szintek, amint azt a szekvenálási leolvasások és a sejtenkénti UMI-számok közötti kapcsolat jelzi, a Cell Hashing antitestek minden vizsgált koncentrációjában nem voltak megkülönböztethetők a nem elmosott sejtektől, ami azt mutatja, hogy a minták multiplexelése nem jár hátrányokkal (Additional file 1: Figure S5). Ezek az eredmények együttesen azt mutatják, hogy a Cell Hashing könnyen alkalmazható gyakorlatilag bármilyen humán mintára, könnyen elérhető kereskedelmi reagensekkel és a transzkriptomikai komplexitás csökkenése nélkül.