Hashtag-enabled demultiplexing based on ubiquitous surface protein expression

Nous avons cherché à étendre les stratégies de multiplexage basées sur les anticorps à scRNA-seq en utilisant une modification de notre méthode CITE-seq . Nous avons d’abord choisi un ensemble d’anticorps monoclonaux dirigés contre des marqueurs de surface immunitaire ubiquitaires et fortement exprimés (CD45, CD98, CD44 et CD11a), nous avons combiné ces anticorps en huit pools identiques (pool A à H), puis nous avons conjugué chaque pool à un oligonucléotide Hashtag distinct (désormais appelé HTO, figure 1a ; section  » Méthodes « ). Les HTO contiennent un code-barres unique de 12 pb qui peut être séquencé en même temps que le transcriptome cellulaire, avec seulement quelques modifications mineures aux protocoles scRNA-seq standard. Nous avons utilisé une chimie de conjugaison améliorée et simplifiée par rapport à notre approche précédente , en utilisant la chimie de clic iEDDA pour attacher de manière covalente les oligonucléotides aux anticorps (section « Méthodes »).

Fig. 1
figure1

Multiplexage d’échantillons à l’aide d’anticorps à code-barres ADN. a Vue d’ensemble schématique du multiplexage d’échantillons par Cell Hashing. Les cellules de différents échantillons sont incubées avec des anticorps à code-barres ADN reconnaissant des protéines de surface cellulaire ubiquitaires. Des codes-barres distincts (appelés hashtag-oligos, HTO) sur les anticorps permettent de regrouper plusieurs échantillons dans une seule expérience scRNA-seq. Après le séquençage, les cellules peuvent être assignées à leur échantillon d’origine en fonction des niveaux de HTO (section « Méthodes »). b Diagramme de dispersion représentatif montrant les comptes bruts pour HTO A et HTO B sur tous les codes-barres de cellules. Les deux axes sont coupés aux quantiles de 99,9 % pour exclure les valeurs visuelles aberrantes. c Carte thermique des valeurs HTO normalisées (z-scores) basées sur nos classifications. Les multiplets expriment plus d’une HTO. Les populations négatives contiennent des cellules HEK293T et des cellules NIH-3T3 de souris qui ont été introduites dans les expériences comme contrôles négatifs. d Incorporation tSNE de l’ensemble de données HTO. Les cellules sont colorées et étiquetées en fonction de nos classifications. Huit groupes de singulet et les 28 groupes de doublet de l’échantillon croisé sont clairement présents. e Distribution des UMI d’ARN par code-barres cellulaire dans les cellules caractérisées comme singulet (rouge), multiplet (violet) ou négatif (gris). f Le regroupement des profils d’expression unicellulaires basé sur le transcriptome révèle des populations de cellules immunitaires distinctes réparties entre les donneurs. B, cellules B ; T, cellules T ; NK, cellules tueuses naturelles ; mono, monocytes ; DC, cellules dendritiques. Les cellules sont colorées en fonction de leur classification HTO (ID du donneur), comme dans d

Nous avons conçu notre stratégie pour permettre à CITE-seq et Cell Hashing d’être réalisés simultanément, mais de générer des bibliothèques de séquençage distinctes. Plus précisément, les HTO contiennent une poignée d’amplification différente de celle de nos étiquettes dérivées d’anticorps (ADT) standard CITE-seq (section  » Méthodes « ). Cela permet d’amplifier indépendamment les HTO, les ADT et les bibliothèques scRNA-seq et de les regrouper dans les quantités souhaitées. Notamment, nous avons précédemment observé une récupération robuste des signaux d’anticorps à partir d’épitopes hautement exprimés en raison de leur nombre de copies extrêmement élevé. Cela contraste avec les niveaux de « dropout » étendus observés pour les données scRNA-seq et suggère que nous pouvons récupérer fidèlement les HTO de chaque cellule unique, permettant l’affectation à l’échantillon d’origine avec une grande fidélité.

Pour évaluer notre stratégie et démontrer son utilité, nous avons obtenu des cellules mononucléaires du sang périphérique (PBMC) de huit donneurs humains distincts (appelés donneurs A à H) et avons coloré indépendamment chaque échantillon avec l’un de nos pools d’anticorps conjugués à l’HTO, tout en réalisant simultanément une expérience de titrage avec un pool de sept marqueurs immunophénotypiques (section  » Méthodes « ) pour CITE-seq. Nous avons ensuite regroupé toutes les cellules en proportion égale, avec un nombre égal de cellules HEK293T non colorées (et 3 % de cellules NIH-3T3 de souris) comme témoins négatifs, et nous avons analysé le pool dans une seule voie sur le système 10x Genomics Chromium Single Cell 3′ v2. En suivant l’approche de Kang et al, nous avons  » surchargé  » l’instrument 10x Genomics, en chargeant les cellules à une concentration significativement plus élevée avec un rendement attendu de 20 000 cellules uniques et 5000 multiplets. Sur la base des statistiques de Poisson, 4365 multiplets devraient représenter des combinaisons de cellules provenant d’échantillons distincts et peuvent potentiellement être rejetés, ce qui conduit à un taux de multiplets non résolus de 3,1 %. Notamment, pour atteindre un taux de multiplets similaire sans multiplexage, il faudrait obtenir environ 4000 multiplets. Comme le coût des systèmes commerciaux à base de gouttelettes est fixe par cycle pour la préparation des échantillons, le multiplexage permet donc le profilage de ~ 400% de cellules supplémentaires pour le même coût.

Nous avons effectué le partitionnement et la transcription inverse selon les protocoles standard, en utilisant uniquement une stratégie d’amplification en aval légèrement modifiée (section « Méthodes ») pour générer des bibliothèques de transcriptome, HTO et ADT. Nous avons regroupé et séquencé ces bibliothèques sur un Illumina HiSeq2500 (deux cellules d’écoulement à exécution rapide), en visant une contribution de 90%:5%:5% des trois bibliothèques dans les données de séquençage. De plus, nous avons effectué le génotypage des huit échantillons de PBMC et des cellules HEK293T à l’aide de la matrice CoreExome Infinium d’Illumina, ce qui nous a permis d’utiliser les HTO et les génotypes des échantillons (évalués par demuxlet) comme approches de démultiplexage indépendantes.

Lorsque nous avons examiné l’expression par paires de deux HTO, nous avons observé des relations semblables à des graphiques de  » mélange d’espèces  » (figure 1b), suggérant une exclusivité mutuelle du signal HTO entre les singlets. Au-delà de l’analyse par paire, nous avons développé un modèle statistique pour classer chaque code-barres comme « positif » ou « négatif » pour chaque HTO (section « Méthodes »). En bref, nous avons modélisé le signal  » de fond  » pour chaque HTO indépendamment comme une distribution binomiale négative, en estimant les cellules de fond sur la base des résultats d’un regroupement initial de k-medoids de toutes les lectures HTO (section  » Méthodes « ). Les codes-barres dont les signaux HTO sont supérieurs au quantile de 99 % de cette distribution ont été étiquetés comme  » positifs « , et les codes-barres qui étaient  » positifs  » pour plus d’une HTO ont été étiquetés comme multiplets. Nous avons classé tous les codes-barres où nous avons détecté au moins 200 UMI d’ARN, indépendamment du signal HTO.

Nos classifications (visualisées sous forme de carte thermique dans la figure 1c) ont suggéré une identification claire de 8 populations de singlets, ainsi que des groupes de multiplets. Nous avons également identifié des codes-barres avec un signal de fond négligeable pour toutes les HTO (étiquetés comme  » négatifs « ), composés principalement (86,5 %) de cellules HEK293T et de souris. Nous avons retiré toutes les cellules HEK293T et de souris des analyses en aval (section « Méthodes »), les codes-barres restants représentant 14 002 singlets et 2974 multiplets identifiables, conformément aux attentes. Nos classifications étaient également totalement concordantes avec un encastrement tSNE, calculé en utilisant uniquement les 8 signaux HTO, qui a permis de visualiser clairement non seulement les 8 groupes de singlets (donneurs A à H) mais aussi les 28 petits groupes représentant toutes les combinaisons possibles de doublets (Fig. 1d). De plus, nous avons observé un changement positif clair dans la distribution des UMI d’ARN par code-barres pour les multiplets, comme prévu (Fig. 1e), tandis que les codes-barres négatifs restants exprimaient moins d’UMI et peuvent représenter des réactions ratées ou des gouttelettes  » vides  » contenant uniquement de l’ARN ambiant. Ces résultats suggèrent fortement que les HTO ont assigné avec succès chaque code-barres à son échantillon d’origine et ont permis une détection robuste des multiplets inter-échantillons. La grande plage dynamique de l’UMI de l’ARN par code-barres cellulaire dans les multiplets (Fig. 1e) illustre la difficulté d’une affectation non ambiguë des multiplets sur la base d’un nombre élevé d’UMI. Nous avons également observé les mêmes difficultés avec le signal HTO total (fichier supplémentaire 1 : figure S1A). La réalisation d’un clustering transcriptomique des singlets classés a permis de détecter clairement sept sous-populations hématopoïétiques, qui étaient dispersées dans les 8 donneurs (figure 1f).

Le démultiplexage basé sur le génotype valide le Cell Hashing

Nous avons ensuite comparé nos classifications basées sur l’HTO à celles obtenues par demuxlet . Dans l’ensemble, nous avons observé une forte concordance entre les techniques, même en considérant le mélange précis d’échantillons dans les doublets appelés (figure 2a). En explorant les zones de désaccord, nous avons identifié 871 codes-barres qui ont été classés sur la base des niveaux HTO comme des singlets mais qui ont été identifiés comme  » ambigus  » par demuxlet. Notamment, la force de la classification HTO pour ces codes-barres discordants (représentée par le nombre de lectures assignées à la HTO la plus fortement exprimée) était identique aux codes-barres qui ont été classés comme singlets par les deux approches (Fig. 2b). Cependant, les codes-barres discordants présentaient un nombre réduit d’UMI d’ARN (Fig. 2c). Nous concluons que ces codes-barres n’ont probablement pas pu être classés génétiquement à notre profondeur de séquençage relativement faible (~ 24 115 lectures par cellule), qui est inférieure à la profondeur recommandée pour l’utilisation de demuxlet, mais représentent probablement de véritables cellules uniques sur la base de nos classifications HTO.

Fig. 2
figure2

Validation du hachage cellulaire à l’aide de demuxlet. a « matrice de confusion » normalisée par rangée comparant les classifications demuxlet et HTO. Chaque valeur sur la diagonale représente la fraction de codes-barres pour une classification HTO donnée qui a reçu une classification identique de demuxlet. b Distribution du nombre de HTO les plus fortement exprimées pour les groupes de singlets concordants et discordants. Les deux groupes ont une force de classification identique basée sur le Cell Hashing. c Les singlets discordants ont un nombre d’UMI plus faible, ce qui suggère qu’un manque de profondeur de séquençage a contribué aux appels  » ambigus  » de demuxlet. d Distributions des UMI d’ARN pour les multiplets discordants et concordants. Seuls les multiplets concordants présentent une complexité moléculaire accrue, ce qui suggère que les deux méthodes surestiment prudemment les multiplets dans les cas discordants. e À l’appui de cette affirmation, demuxlet attribue des probabilités postérieures de multiplets plus faibles aux appels discordants

En outre, nous avons également observé 2528 codes-barres qui ont reçu des classifications de singlet/doublet discordantes entre les deux techniques (Fig. 2d). Nous notons que cela reflète une minorité de codes-barres (par rapport aux 13 421 classifications concordantes) et que dans ces cas discordants, il est difficile de savoir avec certitude laquelle de ces méthodes est correcte. Cependant, lorsque nous avons examiné les distributions UMI de chaque groupe de classification, nous avons observé que seuls les codes-barres classés comme doublets par les deux techniques présentaient un changement positif dans la complexité transcriptomique (Fig. 2d). Cela suggère que ces appels discordants sont en grande partie constitués de vrais singlets et représentent des faux positifs conservateurs des deux méthodes, peut-être dus à l’ARN ambiant ou au signal HTO. Conformément à cette interprétation, lorsque nous avons restreint notre analyse aux cas où demuxlet a appelé les codes-barres comme des doublets avec une probabilité de > 95 %, nous avons observé une baisse de 75 % du nombre d’appels discordants (Fig. 2e). Demuxlet nécessite un nombre suffisant de lectures et de SNP pour classer sans équivoque une cellule à un donneur, et comme prévu, les cellules classées de manière discordante avaient un nombre plus faible de lectures de séquençage et de SNP (fichier supplémentaire 1 : figure S2A-D).

Enfin, nous avons également observé un nombre rare de cas où à la fois Cell Hashing et demuxlet ont classé les cellules comme des singlets mais avec des classifications de donneurs discordantes (216/11 464 ; 1,9 %). Pour approfondir la question, nous avons profité du fait que tous les donneurs (A-G) sauf un (H) étaient également colorés avec des anticorps CITE-seq, et que par conséquent, les cellules du donneur H ne devraient pas contenir de lectures ADT. Cependant, dans 40 cas où demuxlet, mais pas Cell Hashing, a classé les cellules comme donneur H, nous avons observé des comptages ADT robustes (> 1000) dans 37 cas, ce qui suggère que ces appels discordants sont des erreurs de classification de demuxlet (Additional file 1 : Figure S2E), en accord avec le taux d’erreur estimé de demuxlet de 1-2% .

Pour s’assurer davantage que les niveaux de liaison de fond ne conduisaient pas à des échantillons démultiplexés de manière incorrecte, nous avons réalisé une expérience distincte où nous avons mélangé quatre lignées cellulaires (HEK293T, THP1, K562 et KG1) ensemble, chacune marquée indépendamment avec trois oligos distincts de Cell Hashing. Après démultiplexage, pour attribuer chaque code-barres à une lignée cellulaire d’origine, nous avons regroupé les cellules sur la base de leurs niveaux d’expression d’ARN, obtenant ainsi quatre clusters transcriptomiques (comme prévu). En comparant nos clusters transcriptomiques avec les résultats du démultiplexage, nous avons observé une concordance presque parfaite (99,7 %), démontrant un faible taux de mauvaise affectation pour cette expérience (fichier supplémentaire 1 : figure S3A, B).

Enfin, nous avons tenté d’estimer les taux de faux négatifs pour le Cell Hashing, représentant les vraies cellules uniques qui ne reçoivent pas suffisamment de signal de Cell Hashing pour être classées comme singlets. Pour ce faire, nous avons examiné tous les codes-barres  » singlet  » et  » négatifs  » classés par HTO à partir de l’expérience PBMC et avons effectué un regroupement basé sur les données du transcriptome. Comme prévu, nous avons constaté que les cellules  » négatives  » formaient principalement un groupe distinct des singlets. Cependant, nous avons observé 117 codes-barres initialement classés comme négatifs, mais dont les profils transcriptomiques se sont regroupés parmi les sous-types de singlets PBMC. Ces codes-barres représentent probablement des cellules uniques qui ont été classées de manière incorrecte à partir de Cell Hashing, ce qui représente un taux de faux négatifs de 0,9 % (Additional file 1 : Figure S4), mais ont des effets négligeables sur les estimations de la proportion de types de cellules. Dans l’ensemble, nos résultats valident le fait que le Cell Hashing permet une classification robuste et précise des échantillons dans divers systèmes.

Le Cell Hashing permet l’optimisation efficace des panels d’anticorps CITE-seq

Notre stratégie de multiplexage permet non seulement le regroupement de plusieurs donneurs, mais aussi le profilage simultané de plusieurs conditions expérimentales. Cela est largement applicable au profilage simultané de diverses perturbations environnementales et génétiques, mais nous avons pensé que nous pourrions également optimiser efficacement les flux de travail expérimentaux, tels que le titrage des concentrations d’anticorps pour les expériences CITE-seq. En cytométrie en flux, les anticorps sont généralement utilisés individuellement sur une grande série de dilutions pour évaluer les rapports signal/bruit et identifier les concentrations optimales. Alors que de telles expériences seraient extrêmement coûteuses si elles étaient exécutées en tant que voies individuelles 10x Genomics, nous avons raisonné que nous pourrions multiplexer ces expériences ensemble en utilisant Cell Hashing.

Nous avons donc incubé les PBMC de différents donneurs avec une série de dilution de concentrations d’anticorps allant sur trois ordres de grandeur (section « Méthodes »). Les concentrations d’anticorps CITE-seq ont été échelonnées entre les différents échantillons pour que la quantité totale d’anticorps et d’oligo reste cohérente dans chaque échantillon. Après le démultiplexage des échantillons, nous avons examiné les distributions d’ADT à travers toutes les concentrations pour chaque anticorps (exemples dans la Fig. 3a-c) et évalué le rapport signal/bruit en calculant un indice de coloration similaire aux métriques couramment utilisées pour l’optimisation de la cytométrie de flux (Fig. 3d) (section « Méthodes »).

Fig. 3
figure3

Le Hachage de cellules permet une optimisation expérimentale efficace et l’identification des cellules de faible qualité. a-c Nous avons réalisé une série de titrages pour évaluer les concentrations de coloration optimales pour un panel d’anticorps d’immunophénotypage CITE-seq. Les comptes ADT normalisés pour CD8 (a), CD45RA (b) et CD4 (c) sont représentés pour les différentes concentrations utilisées par test. d Courbe de titrage décrivant l’indice de coloration (SI ; section  » Méthodes « ) pour ces trois anticorps à travers la série de titrages. Le rapport signal/bruit de ces anticorps commence à saturer à des niveaux similaires aux concentrations de coloration recommandées par le fabricant, typiques des anticorps de cytométrie de flux. e Les cellules avec un faible nombre d’UMI peuvent être distinguées de l’ARN ambiant en utilisant les classifications HTO. Les singlets classés se regroupent en populations hématopoïétiques canoniques. f Les codes-barres classés comme  » négatifs  » ne se regroupent pas en clusters et représentent probablement des gouttelettes  » vides  » contenant uniquement de l’ARN ambiant

Tous les anticorps ne présentaient qu’un signal de fond dans les conditions de contrôle négatif et un signal sur bruit très faible à 0,06 μg/test. Nous avons observé que le rapport signal/bruit de la plupart des anticorps commençait à saturer dans la plage de concentration de 0,5 à 1 μg/test, comparable aux concentrations recommandées pour la cytométrie en flux (figure 3d). Cette expérience se voulait une preuve de concept ; une expérience de titrage idéale utiliserait des cellules provenant du même donneur pour toutes les conditions et une plus grande gamme de concentrations, mais elle démontre clairement comment le Cell Hashing peut être utilisé pour optimiser rapidement et efficacement les flux de travail expérimentaux.

Les hashtags de cellules permettent de discriminer les cellules de faible qualité de l’ARN ambiant

Nos hashtags de cellules peuvent discriminer les cellules simples des doublets sur la base de l’expression claire d’une seule HTO, et nous nous sommes ensuite demandé si cette fonctionnalité pouvait également distinguer les cellules de faible qualité de l’ARN ambiant. Si tel était le cas, cela nous permettrait de réduire notre « seuil » d’UMI (précédemment fixé à 200) et de tenir compte de la possibilité que certains codes-barres représentant l’ARN ambiant expriment plus d’UMI que certaines cellules uniques véritables. La plupart des flux de travail fixent des seuils UMI stricts pour exclure tout ARN ambiant, ce qui biaise les résultats de scRNA-seq contre les cellules à faible teneur en ARN et fausse probablement les estimations proportionnelles du type de cellule.

En effet, en considérant 4344 codes-barres contenant 50-200 UMI, nous avons récupéré 1110 singlets supplémentaires sur la base des classifications HTO, avec 3108 codes-barres caractérisés comme négatifs. Nous avons classé chaque code-barres comme l’une de nos 7 populations hématopoïétiques précédemment déterminées (section  » Méthodes  » ; Fig. 1F) et avons visualisé les résultats sur un encastrement transcriptomique tSNE, calculé indépendamment pour les groupes  » singlets  » et  » négatifs « . Pour les singlets prédits, les codes-barres se sont projetés vers les populations B, NK, T et myéloïdes qui étaient constamment séparées sur le tSNE, ce qui suggère que ces codes-barres représentent de véritables cellules uniques (Fig. 3e). En revanche, les codes-barres  » négatifs  » ne se sont pas séparés en fonction de leur classification forcée, ce qui est cohérent avec le fait que ces codes-barres reflètent des mélanges d’ARN ambiants qui peuvent mélanger plusieurs sous-populations. Nous concluons donc qu’en fournissant une lecture de l’identité de l’échantillon qui est indépendante du transcriptome, le Cell Hashing peut aider à récupérer des cellules de faible qualité et/ou des cellules à très faible teneur en ARN qui peuvent autrement être difficiles à distinguer de l’ARN ambiant (Fig. 3f).

Vers un réactif anticorps universel Cell Hashing

Pour nos expériences de preuve de principe, nous avons utilisé un pool d’anticorps dirigés contre des marqueurs de surface immunitaire hautement exprimés (CD45, CD98, CD44 et CD11a). Pour permettre le multiplexage de n’importe quel type de cellule et d’échantillon, nous avons décidé de revoir la conception de notre panel pour cibler des marqueurs de surface exprimés de manière plus ubiquitaire. Le complexe MHC de classe I (bêta-2-microglobuline) et la sous-unité sodium-potassium de l’ATPase (CD298) sont parmi les protéines de surface les plus largement exprimées dans les tissus humains. L’utilisation d’un pool d’anticorps dirigés contre ces deux protéines nous permettrait de multiplexer pratiquement tous les types de cellules en une seule expérience. Alors que ce manuscrit était en cours de révision, Hartmann et ses collègues ont démontré que la même combinaison d’anticorps était un réactif de multiplexage universel pour CyTOF . Les niveaux d’expression extrêmement élevés des deux marqueurs devraient permettre un démultiplexage HTO robuste, mais en principe, ils pourraient marquer les cellules avec un nombre écrasant d’oligos polyA simple brin qui pourraient entrer en compétition avec les ARNm cellulaires polyadénylés, ce qui entraînerait une diminution du nombre de gènes et/ou d’UMI par cellule. Pour étudier cette concurrence potentielle, nous avons coloré des cellules Jurkat avec une série de dilutions d’anticorps Cell Hashing, nous avons analysé une voie de cellules uniques 10x Chromium 3′ v2 à côté d’une voie avec des cellules non hachées, et nous avons séquencé les bibliothèques transcriptomiques résultantes. Les niveaux de complexité transcriptomique, tels qu’indiqués par la relation entre les lectures de séquençage et le nombre d’UMI par cellule, étaient indiscernables de ceux des cellules non blanchies pour toutes les concentrations testées d’anticorps Cell Hashing, ce qui n’illustre aucun inconvénient lors du multiplexage des échantillons (fichier supplémentaire 1 : figure S5). Pris ensemble, ces résultats démontrent comment le Cell Hashing peut être facilement appliqué à pratiquement n’importe quel échantillon humain avec des réactifs commerciaux facilement disponibles et sans perte de complexité transcriptomique.

Articles

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée.