Hashtag-enabled demultiplexing based on ubiquitous surface protein expression
Am încercat să extindem strategiile de multiplexare bazate pe anticorpi la scRNA-seq folosind o modificare a metodei noastre CITE-seq. Am ales inițial un set de anticorpi monoclonali direcționați împotriva markerilor de suprafață imunitari omniprezenți și foarte bine exprimați (CD45, CD98, CD44 și CD11a), am combinat acești anticorpi în opt grupuri identice (grupul A până la H) și, ulterior, am conjugat fiecare grup cu un oligonucleotid Hashtag distinct (denumit în continuare HTO, Fig. 1a; secțiunea „Metode”). HTO-urile conțin un cod de bare unic de 12 bp care poate fi secvențiat alături de transcriptomul celular, cu doar modificări minore ale protocoalelor standard de scRNA-seq. Am utilizat o chimie de conjugare îmbunătățită și simplificată în comparație cu abordarea noastră anterioară , prin utilizarea chimiei click iEDDA pentru a atașa covalent oligonucleotide la anticorpi (secțiunea „Metode”).
Am conceput strategia noastră pentru a permite ca CITE-seq și Cell Hashing să fie efectuate simultan, dar să genereze biblioteci de secvențiere separate. În mod specific, HTO-urile conțin un mâner de amplificare diferit față de etichetele noastre standard CITE-seq derivate din anticorpi (ADT) (secțiunea „Metode”). Acest lucru permite ca HTO-urile, ADT-urile și bibliotecile scRNA-seq să fie amplificate independent și grupate în cantitățile dorite. În special, am observat anterior o recuperare robustă a semnalelor anticorpilor de la epitopi foarte bine exprimați datorită numărului extrem de mare de copii al acestora. Acest lucru este în contrast cu nivelurile extinse de „abandon” observate pentru datele scRNA-seq și sugerează că putem recupera cu fidelitate HTO-urile din fiecare celulă în parte, permițând atribuirea la eșantionul de origine cu o fidelitate ridicată.
Pentru a compara strategia noastră și a demonstra utilitatea acesteia, am obținut celule mononucleare din sângele periferic (PBMC) de la opt donatori umani diferiți (denumiți donatori de la A la H) și am colorat în mod independent fiecare probă cu unul dintre grupurile noastre de anticorpi conjugați cu HTO, efectuând în același timp un experiment de titrare cu un grup de șapte markeri imunofenotipici (secțiunea „Metode”) pentru CITE-seq. Ulterior, am grupat toate celulele împreună în proporții egale, alături de un număr egal de celule HEK293T necolorate (și 3 % celule NIH-3T3 de șoarece) ca și controale negative, și am analizat grupul într-un singur culoar pe sistemul 10x Genomics Chromium Single Cell 3′ v2. Urmând abordarea din Kang și colab. , am „supraîncărcat” instrumentul 10x Genomics, încărcând celulele la o concentrație semnificativ mai mare, cu un randament așteptat de 20 000 de celule unice și 5 000 de multipleți. Pe baza statisticilor Poisson, 4365 de multipleți ar trebui să reprezinte combinații de celule din eșantioane distincte și pot fi eventual eliminați, ceea ce duce la o rată de multipleți nerezolvați de 3,1 %. În special, obținerea unei rate similare de multipleți fără multiplexare ar produce ~ 4000 de singleți. Având în vedere că costul sistemelor comerciale bazate pe picături este fixat per serie pentru pregătirea probelor, multiplexarea permite, prin urmare, profilarea a ~ 400% mai multe celule pentru același cost.
Am efectuat partiționarea și transcrierea inversă în conformitate cu protocoalele standard, utilizând doar o strategie de amplificare în aval ușor modificată (secțiunea „Metode”) pentru a genera biblioteci de transcriptom, HTO și ADT. Le-am grupat și secvențiat pe acestea pe un Illumina HiSeq2500 (două celule de curgere rapidă), vizând o contribuție de 90%:5%:5% a celor trei biblioteci în datele de secvențiere. În plus, am efectuat genotiparea tuturor celor opt probe PBMC și a celulelor HEK293T cu matricea Illumina Infinium CoreExome, ceea ce ne-a permis să utilizăm atât HTO-urile, cât și genotipurile probelor (evaluate prin demuxlet ) ca abordări independente de demultiplexare.
Când am examinat expresia pe perechi a două numere HTO, am observat relații asemănătoare cu diagramele de „amestecare a speciilor” (Fig. 1b), sugerând exclusivitatea reciprocă a semnalului HTO între singleți. Extinzând dincolo de analiza pe perechi, am dezvoltat un model statistic pentru a clasifica fiecare cod de bare ca fiind „pozitiv” sau „negativ” pentru fiecare HTO (secțiunea „Metode”). Pe scurt, am modelat semnalul „de fond” pentru fiecare HTO în mod independent ca o distribuție binomială negativă, estimând celulele de fond pe baza rezultatelor unei grupări inițiale k-medoids a tuturor citirilor HTO (secțiunea „Metode”). Codurile de bare cu semnale HTO peste cuantila de 99 % pentru această distribuție au fost etichetate ca fiind „pozitive”, iar codurile de bare care au fost „pozitive” pentru mai mult de un HTO au fost etichetate ca multiplete. Am clasificat toate codurile de bare în care am detectat cel puțin 200 de ARN UMI, indiferent de semnalul HTO.
Clasificările noastre (vizualizate sub forma unei hărți termice în Fig. 1c) au sugerat o identificare clară a 8 populații de singleți, precum și a grupurilor de multipleți. Am identificat, de asemenea, coduri de bare cu semnal de fond neglijabil pentru oricare dintre HTO-uri (etichetate ca „negative”), constând în principal (86,5%) din celule HEK293T și de șoarece. Am eliminat toate celulele HEK293T și de șoarece din analizele din aval (secțiunea „Metode”), codurile de bare rămase reprezentând 14.002 singleți și 2974 de multipleți identificabili, în conformitate cu așteptările. Clasificările noastre au fost, de asemenea, pe deplin concordante cu o încorporare tSNE, calculată folosind numai cele 8 semnale HTO, care a permis vizualizarea clară nu numai a celor 8 grupuri de singleți (donatori de la A la H), ci și a celor 28 de grupuri mici reprezentând toate combinațiile posibile de dubleți (Fig. 1d). Mai mult, am observat o schimbare pozitivă clară în distribuția UMI de ARN per cod de bare pentru multipleți, așa cum era de așteptat (Fig. 1e), în timp ce codurile de bare negative rămase au exprimat mai puține UMI și pot reprezenta reacții eșuate sau picături „goale” care conțin doar ARN ambiental. Aceste rezultate sugerează cu tărie că HTO-urile au atribuit cu succes fiecare cod de bare în eșantionul său original și au permis detectarea robustă a multipleților din eșantioane încrucișate. Intervalul dinamic mare al UMI de ARN per cod de bare celular în multiplete (Fig. 1e) ilustrează dificultatea atribuirii fără ambiguitate a multipletelor pe baza unui număr mai mare de UMI. , și observăm aceleași provocări cu semnalul HTO total (Fișier suplimentar 1: Figura S1A). Efectuarea grupării transcriptomice a singlet-urilor clasificate a permis detectarea clară a șapte subpopulații hematopoietice, care au fost intercalate în toți cei 8 donatori (Fig. 1f).
Demultiplexarea bazată pe genotip validează Cell Hashing
În continuare am comparat clasificările noastre bazate pe HTO cu cele obținute prin demuxlet . În general, am observat o concordanță puternică între tehnici, chiar și atunci când luăm în considerare amestecul precis de eșantioane din dubletele apelate (Fig. 2a). Explorând zonele de dezacord, am identificat 871 de coduri de bare care au fost clasificate pe baza nivelurilor HTO ca singlete, dar care au fost identificate ca fiind „ambigue” de către demuxlet. În mod notabil, puterea de clasificare HTO pentru aceste coduri de bare discordante (reprezentată de numărul de citiri atribuite celui mai puternic exprimat HTO) a fost identică cu cea a codurilor de bare care au fost clasificate ca singlete prin ambele abordări (Fig. 2b). Cu toate acestea, codurile de bare discordante au avut un număr redus de ARN UMI (Fig. 2c). Concluzionăm că aceste coduri de bare probabil nu au putut fi clasificate genetic la adâncimea noastră de secvențiere relativ superficială (~ 24.115 citiri pe celulă), care este sub adâncimea recomandată pentru utilizarea demuxletului, dar probabil că reprezintă adevărate celule unice pe baza clasificărilor noastre HTO.
În plus, am observat, de asemenea, 2528 de coduri de bare care au primit clasificări discordante de singlet/doublet între cele două tehnici (Fig. 2d). Observăm că acest lucru reflectă o minoritate de coduri de bare (în comparație cu 13 421 de clasificări concordante) și că, în aceste cazuri discordante, este dificil de a fi siguri care dintre aceste metode este corectă. Cu toate acestea, atunci când am examinat distribuțiile UMI ale fiecărui grup de clasificare, am observat că numai codurile de bare clasificate ca dublete prin ambele tehnici au prezentat o schimbare pozitivă în complexitatea transcriptomică (Fig. 2d). Acest lucru sugerează că aceste apeluri discordante sunt alcătuite în mare parte din singleți adevărați și reprezintă falsuri pozitive conservatoare din partea ambelor metode, poate din cauza semnalului ARN ambiental sau HTO. În concordanță cu această interpretare, atunci când am restrâns analiza noastră la cazurile în care demuxlet a numit codurile de bare ca dublete cu > 95% probabilitate, am observat o scădere de 75% a numărului de apeluri discordante (Fig. 2e). Demuxlet necesită un număr suficient de citiri și SNP-uri pentru a clasifica fără echivoc o celulă la un donator și, așa cum era de așteptat, celulele clasificate discordant au avut un număr mai mic de citiri de secvențiere și SNP-uri (Fișierul suplimentar 1: Figura S2A-D).
În cele din urmă, am observat, de asemenea, un număr rar de cazuri în care atât Cell Hashing, cât și demuxlet au clasificat celulele ca singlete, dar cu clasificări discordante ale donatorului (216/11.464; 1,9%). Pentru a investiga în continuare, am profitat de faptul că toți donatorii (A-G), cu excepția unuia (H), au fost, de asemenea, colorați cu anticorpi CITE-seq și, prin urmare, celulele donatorului H nu ar trebui să conțină lecturi ADT. Cu toate acestea, în 40 de cazuri în care demuxlet, dar nu și Cell Hashing, a clasificat celulele ca donator H, am observat numărători ADT robuste (> 1000) în 37 de cazuri, ceea ce sugerează că aceste apeluri discordante sunt erori de clasificare greșită de la demuxlet (Fișier suplimentar 1: Figura S2E), în conformitate cu rata de eroare estimată de demuxlet de 1-2% .
Pentru a ne asigura și mai mult că nivelurile de legare de fond nu au condus la eșantioane demultiplexate incorect, am efectuat un experiment separat în care am amestecat patru linii celulare (HEK293T, THP1, K562 și KG1) împreună, fiecare fiind etichetată independent cu trei oligoelemente distincte de Cell Hashing. După demultiplexare, pentru a atribui fiecare cod de bare unei linii celulare de origine, am grupat celulele pe baza nivelurilor de expresie a ARN-ului lor, obținând patru grupuri transcriptomice (așa cum era de așteptat). Comparând clusterele noastre transcriptomice cu rezultatele demultiplexării, am observat o concordanță aproape perfectă (99,7 %), demonstrând o rată scăzută de alocare greșită pentru acest experiment (Fișier suplimentar 1: Figura S3A, B).
În cele din urmă, am încercat să estimăm ratele fals-negative pentru Cell Hashing, reprezentând adevăratele celule unice care nu primesc suficient semnal Cell Hashing pentru a fi clasificate ca singlete. Pentru a face acest lucru, am examinat toate codurile de bare „singlet” și „negative” clasificate de HTO din experimentul PBMC și am efectuat o grupare pe baza datelor transcriptomice. Așa cum era de așteptat, am constatat că celulele „negative” au format în mod predominant un cluster distinct de singleți. Cu toate acestea, am observat 117 coduri de bare clasificate inițial ca fiind negative, dar ale căror profiluri transcriptomice s-au grupat în subtipurile PBMC singlet. Aceste coduri de bare reprezintă probabil celule unice care au fost clasificate incorect din Cell Hashing, reprezentând o rată fals-negativă de 0,9 % (Fișier suplimentar 1: Figura S4), dar au efecte neglijabile asupra estimărilor privind proporția tipului de celule. Luate împreună, rezultatele noastre validează faptul că Cell Hashing permite o clasificare robustă și precisă a probelor în diverse sisteme.
Cell Hashing permite optimizarea eficientă a panourilor de anticorpi CITE-seq
Strategia noastră de multiplexare nu numai că permite gruparea între donatori, ci și profilarea simultană a mai multor condiții experimentale. Acest lucru este aplicabil pe scară largă la profilarea simultană a diverselor perturbări de mediu și genetice, dar ne-am gândit că am putea, de asemenea, să optimizăm în mod eficient fluxurile de lucru experimentale, cum ar fi titrarea concentrațiilor de anticorpi pentru experimentele CITE-seq. În citometria de flux, anticorpii sunt, de obicei, utilizați individual pe o serie mare de diluții pentru a evalua raportul semnal-zgomot și pentru a identifica concentrațiile optime . În timp ce astfel de experimente ar fi extrem de prohibitive din punct de vedere al costurilor dacă ar fi rulate ca benzi individuale de 10x Genomics, ne-am gândit că am putea multiplexa aceste experimente împreună folosind Cell Hashing.
Am incubat, prin urmare, PBMC de la diferiți donatori cu o serie de diluții de concentrații de anticorpi care variază pe trei ordine de mărime (secțiunea „Metode”). Concentrațiile de anticorpi CITE-seq au fost eșalonate între diferitele probe pentru a menține cantitatea totală de anticorpi și oligoelemente constantă în fiecare probă. După demultiplexarea probelor, am examinat distribuțiile ADT în toate concentrațiile pentru fiecare anticorp (exemple în Fig. 3a-c) și am evaluat raportul semnal-zgomot prin calcularea unui indice de colorare similar cu parametrii utilizați în mod obișnuit pentru optimizarea citometriei de flux (Fig. 3d) (secțiunea „Metode”).
Toți anticorpii au prezentat doar un semnal de fond în condițiile de control negativ și un raport semnal/zgomot foarte slab la 0,06 μg/test. Am observat că raportul semnal/zgomot pentru majoritatea anticorpilor a început să se satureze în intervalul de concentrație de 0,5 până la 1 μg/test, comparabil cu concentrațiile recomandate pentru citometria de flux (Fig. 3d). Acest experiment a fost conceput ca o dovadă de concept; un experiment ideal de titrare ar folosi celule de la același donator pentru toate condițiile și un interval mai mare de concentrații, dar demonstrează în mod clar modul în care Cell Hashtags poate fi folosit pentru a optimiza rapid și eficient fluxurile de lucru experimentale.
Cell Hashtags permit discriminarea celulelor de calitate scăzută din ARN-ul ambiant
Hashtags-urile noastre de celule pot discrimina celulele unice din dublete pe baza exprimării clare a unui singur HTO, iar în continuare ne-am întrebat dacă această caracteristică ar putea, de asemenea, să distingă celulele de calitate scăzută din ARN-ul ambiant. În caz afirmativ, acest lucru ne-ar permite să reducem „cutoff-ul” nostru UMI (stabilit anterior la 200) și ar permite posibilitatea ca anumite coduri de bare reprezentând ARN ambiental să exprime mai mult UMI decât unele celule unice adevărate. Cele mai multe fluxuri de lucru stabilesc praguri stricte de UMI pentru a exclude tot ARN ambiant, influențând rezultatele scRNA-seq împotriva celulelor cu conținut scăzut de ARN și probabil denaturând estimările proporționale ale tipului de celule.
De fapt, atunci când am luat în considerare 4344 de coduri de bare care conțin 50-200 UMI, am recuperat 1110 singlete suplimentare pe baza clasificărilor HTO, cu 3108 coduri de bare caracterizate ca fiind negative. Am clasificat fiecare cod de bare ca fiind una dintre cele 7 populații hematopoietice determinate anterior (secțiunea „Metode”; Fig. 1F) și am vizualizat rezultatele pe o încorporare tSNE transcriptomică, calculată independent atât pentru grupurile de „singleți”, cât și pentru cele „negative”. Pentru singletele prezise, codurile de bare s-au proiectat în populațiile B, NK, T și mieloide, care au fost separate în mod constant pe tSNE, sugerând că aceste coduri de bare reprezintă adevărate celule unice (Fig. 3e). În schimb, codurile de bare „negative” nu s-au separat pe baza clasificării lor forțate, în concordanță cu faptul că aceste coduri de bare reflectă amestecuri de ARN ambiental care pot amesteca mai multe subpopulații. Prin urmare, concluzionăm că, prin faptul că oferă o citire a identității probei care este independentă de transcriptom, Cell Hashing poate ajuta la recuperarea celulelor de calitate scăzută și/sau a celulelor cu un conținut foarte scăzut de ARN care, altfel, pot fi dificil de distins de ARN ambiant (Fig. 3f).
Cu privire la un reactiv universal de anticorpi Cell Hashing
Pentru experimentele noastre de demonstrație de principiu, am folosit un grup de anticorpi direcționați împotriva markerilor de suprafață imuni foarte exprimați (CD45, CD98, CD44 și CD11a). Pentru a permite multiplexarea oricărui tip de celule și a oricărei probe, am decis să reproiectăm panoul nostru pentru a viza mai mulți markeri de suprafață exprimați omniprezent. Complexul MHC clasa I (beta-2-microglobulină) și subunitatea ATPază sodiu-potasiu (CD298) sunt printre cele mai larg exprimate proteine de suprafață în țesuturile umane . Utilizarea unui grup de anticorpi direcționați împotriva ambelor proteine ne-ar permite să multiplexăm practic orice tip de celule într-un singur experiment. În timp ce acest manuscris era în curs de revizuire, aceeași combinație de anticorpi a fost demonstrată de Hartmann și colegii săi ca fiind un reactiv universal de multiplexare pentru CyTOF . Nivelurile extrem de ridicate de expresie ale ambilor markeri ar trebui să permită o demultiplexare HTO robustă, dar, în principiu, ar putea eticheta celulele cu un număr copleșitor de oligo poliA monocatenare care ar putea concura cu ARNm celulare poliadenilate, ceea ce ar duce la un număr mai mic de gene și/sau UMI pe celulă. Pentru a investiga această potențială competiție, am colorat celulele Jurkat cu o serie de diluții de anticorpi Cell Hashing, am analizat un culoar de 10x Chromium single cell 3′ v2 alături de un culoar cu celule fără hash și am secvențiat bibliotecile de transcriptome rezultate. Nivelurile de complexitate transcriptomică, așa cum este indicat de relația dintre citirile de secvențiere și numărul de UMI pe celulă, au fost nediferențiate față de celulele neecranate la toate concentrațiile testate de anticorpi Cell Hashing, ilustrând faptul că nu există dezavantaje la multiplexarea probelor (Fișier suplimentar 1: Figura S5). Luate împreună, aceste rezultate demonstrează modul în care Cell Hashing poate fi aplicat cu ușurință la aproape orice probă umană cu reactivi comerciali ușor disponibili și fără o pierdere a complexității transcriptomice.
.