Demultiplexado habilitado por hashtags basado en la expresión ubicua de proteínas de superficie

Intentamos ampliar las estrategias de multiplexado basadas en anticuerpos a scRNA-seq utilizando una modificación de nuestro método CITE-seq . Inicialmente elegimos un conjunto de anticuerpos monoclonales dirigidos contra marcadores de superficie inmunitarios ubicuos y altamente expresados (CD45, CD98, CD44 y CD11a), combinamos estos anticuerpos en ocho grupos idénticos (grupos de la A a la H), y posteriormente conjugamos cada grupo con un oligonucleótido Hashtag distinto (en adelante denominado HTO, Fig. 1a; sección «Métodos»). Los HTOs contienen un código de barras único de 12 pb que puede ser secuenciado junto con el transcriptoma celular, con sólo pequeñas modificaciones en los protocolos estándar de scRNA-seq. Utilizamos una química de conjugación mejorada y simplificada en comparación con nuestro enfoque anterior, mediante el uso de la química de clic iEDDA para unir covalentemente los oligonucleótidos a los anticuerpos (sección «Métodos»).

Fig. 1
figure1

Multiplexación de muestras utilizando anticuerpos con código de barras de ADN. a Resumen esquemático de la multiplexación de muestras mediante Cell Hashing. Las células de diferentes muestras se incuban con anticuerpos con códigos de barras de ADN que reconocen proteínas ubicuas de la superficie celular. Los distintos códigos de barras (denominados hashtag-oligos, HTO) de los anticuerpos permiten agrupar varias muestras en un experimento de scRNA-seq. Tras la secuenciación, las células pueden asignarse a su muestra de origen en función de los niveles de HTO (sección «Métodos»). b Gráfico de dispersión representativo que muestra los recuentos brutos de HTO A y HTO B en todos los códigos de barras de las células. Ambos ejes están recortados al 99,9% de los cuantiles para excluir los valores atípicos visuales. c Mapa de calor de los valores HTO normalizados a escala (puntuaciones z) basados en nuestras clasificaciones. Los multipletes expresan más de un HTO. Las poblaciones negativas contienen células HEK293T y NIH-3T3 de ratón que se introdujeron en los experimentos como controles negativos. d Incrustación tSNE del conjunto de datos HTO. Las células están coloreadas y etiquetadas según nuestras clasificaciones. Ocho clusters de singletes y los 28 clusters de dobletes de muestras cruzadas están claramente presentes. e Distribución de UMIs de ARN por código de barras de células que fueron caracterizadas como singletes (rojo), multipletes (violeta) o negativas (gris). f La agrupación basada en el transcriptoma de los perfiles de expresión de células individuales revela distintas poblaciones de células inmunes intercaladas en los donantes. B, células B; T, células T; NK, células asesinas naturales; mono, monocitos; DC, células dendríticas. Las células están coloreadas en función de su clasificación HTO (ID del donante), como en d

Diseñamos nuestra estrategia para permitir que CITE-seq y Cell Hashing se realicen simultáneamente, pero para generar bibliotecas de secuenciación separadas. En concreto, los HTOs contienen un asa de amplificación diferente a la de nuestras etiquetas estándar derivadas de anticuerpos (ADT) de CITE-seq (sección «Métodos»). Esto permite que los HTOs, los ADTs y las bibliotecas de scRNA-seq se amplifiquen independientemente y se agrupen en las cantidades deseadas. En particular, hemos observado previamente una recuperación robusta de las señales de anticuerpos de epítopos altamente expresados debido a su número de copias extremadamente alto. Esto contrasta con los amplios niveles de «abandono» observados en los datos de scRNA-seq y sugiere que podemos recuperar fielmente los HTO de cada célula individual, permitiendo la asignación a la muestra de origen con alta fidelidad.

Para evaluar nuestra estrategia y demostrar su utilidad, obtuvimos células mononucleares de sangre periférica (PBMC) de ocho donantes humanos distintos (denominados donantes A a H) y teñimos independientemente cada muestra con uno de nuestros grupos de anticuerpos conjugados con HTO, mientras realizábamos simultáneamente un experimento de valoración con un grupo de siete marcadores inmunofenotípicos (sección «Métodos») para CITE-seq. Posteriormente, agrupamos todas las células en la misma proporción, junto con un número igual de células HEK293T sin teñir (y un 3% de células NIH-3T3 de ratón) como controles negativos, y ejecutamos el pool en un solo carril en el sistema 10x Genomics Chromium Single Cell 3′ v2. Siguiendo el enfoque de Kang et al. , «supercargamos» el instrumento 10x Genomics, cargando las células a una concentración significativamente mayor con un rendimiento esperado de 20.000 células individuales y 5000 multipletes. Basándonos en la estadística de Poisson, 4365 multipletes deberían representar combinaciones de células de distintas muestras y pueden ser potencialmente descartados, lo que lleva a una tasa de multipletes no resueltos del 3,1%. En particular, si se consigue una tasa de multipletes similar sin multiplexación, se obtendrían unos 4.000 singletes. Dado que el coste de los sistemas comerciales basados en gotas es fijo por carrera para la preparación de la muestra, la multiplexación permite por tanto el perfilado de ~ 400% más de células por el mismo coste.

Realizamos la partición y la transcripción inversa de acuerdo con los protocolos estándar, utilizando sólo una estrategia de amplificación descendente ligeramente modificada (sección «Métodos») para generar bibliotecas de transcriptoma, HTO y ADT. Las agrupamos y secuenciamos en una Illumina HiSeq2500 (dos celdas de flujo de ejecución rápida), con el objetivo de lograr una contribución del 90%:5%:5% de las tres bibliotecas en los datos de secuenciación. Además, realizamos la genotipificación de las ocho muestras de PBMC y de las células HEK293T con la matriz Infinium CoreExome de Illumina, lo que nos permitió utilizar tanto los HTO como los genotipos de las muestras (evaluados por demuxlet ) como enfoques de demultiplexación independientes.

Al examinar la expresión por pares de dos recuentos de HTO, observamos relaciones similares a los gráficos de «mezcla de especies» (Fig. 1b), lo que sugiere la exclusividad mutua de la señal de HTO entre singletes. Más allá del análisis por pares, desarrollamos un modelo estadístico para clasificar cada código de barras como «positivo» o «negativo» para cada HTO (sección «Métodos»). Brevemente, modelamos la señal de «fondo» para cada HTO de forma independiente como una distribución binomial negativa, estimando las células de fondo en base a los resultados de una agrupación inicial de k-medoides de todas las lecturas HTO (sección «Métodos»). Los códigos de barras con señales HTO por encima del cuantil del 99% para esta distribución se etiquetaron como «positivos», y los códigos de barras que eran «positivos» para más de un HTO se etiquetaron como multipletes. Clasificamos todos los códigos de barras en los que detectamos al menos 200 UMI de ARN, independientemente de la señal de HTO.

Nuestras clasificaciones (visualizadas como un mapa de calor en la Fig. 1c) sugirieron una clara identificación de 8 poblaciones singulares, así como de grupos de multipletes. También identificamos códigos de barras con una señal de fondo insignificante para cualquiera de los HTO (etiquetados como «negativos»), que consistían principalmente (86,5%) en células HEK293T y de ratón. Eliminamos todas las células HEK293T y de ratón de los análisis posteriores (sección «Métodos»), y los códigos de barras restantes representaron 14.002 singletes y 2.974 multipletes identificables, de acuerdo con las expectativas. Nuestras clasificaciones también fueron totalmente concordantes con una incrustación tSNE, calculada utilizando sólo las 8 señales HTO, lo que permitió visualizar claramente no sólo los 8 grupos de singletes (donantes A a H), sino también los 28 grupos pequeños que representan todas las posibles combinaciones de dobletes (Fig. 1d). Además, observamos un claro cambio positivo en la distribución de UMI de ARN por código de barras para los multipletes, tal y como se esperaba (Fig. 1e), mientras que los restantes códigos de barras negativos expresaban menos UMIs y podrían representar reacciones fallidas o gotas «vacías» que sólo contenían ARN ambiental. Estos resultados sugieren fuertemente que los HTOs asignaron con éxito cada código de barras en su muestra original y permitieron la detección robusta de multipletes de muestras cruzadas. El gran rango dinámico de UMI de ARN por código de barras celular en los multipletes (Fig. 1e) ilustra la dificultad de la asignación inequívoca de multipletes basada en recuentos de UMI más altos. En este sentido, observamos los mismos retos con la señal total de HTO (Archivo adicional 1: Figura S1A). La agrupación transcriptómica de los singletes clasificados permitió detectar claramente siete subpoblaciones hematopoyéticas, que estaban intercaladas en los 8 donantes (Fig. 1f).

La demultiplexación basada en el genotipo valida el Cell Hashing

A continuación comparamos nuestras clasificaciones basadas en HTO con las obtenidas mediante demuxlet . En general, observamos una fuerte concordancia entre las técnicas, incluso cuando se considera la mezcla precisa de muestras en los llamados dobletes (Fig. 2a). Explorando las áreas de desacuerdo, identificamos 871 códigos de barras que fueron clasificados en base a los niveles de HTO como singletes pero que fueron identificados como «ambiguos» por demuxlet. En particular, la fuerza de la clasificación HTO para estos códigos de barras discordantes (representada por el número de lecturas asignadas al HTO más expresado) fue idéntica a la de los códigos de barras que fueron clasificados como singlets por ambos enfoques (Fig. 2b). Sin embargo, los códigos de barras discordantes tenían recuentos reducidos de UMI de ARN (Fig. 2c). Llegamos a la conclusión de que estos códigos de barras probablemente no podrían ser clasificados genéticamente en nuestra profundidad de secuenciación relativamente poco profunda (~ 24.115 lecturas por célula), que está por debajo de la profundidad recomendada para el uso de demuxlet, pero probablemente representan verdaderas células individuales basadas en nuestras clasificaciones HTO.

Fig. 2
figure2

Validación de Cell Hashing utilizando demuxlet. a Matriz de confusión normalizada por filas que compara las clasificaciones demuxlet y HTO. Cada valor en la diagonal representa la fracción de códigos de barras para una clasificación HTO dada que recibió una clasificación idéntica de demuxlet. b Distribución de conteo del HTO más altamente expresado para grupos de singletes concordantes y discordantes. Ambos grupos tienen una fuerza de clasificación idéntica basada en Cell Hashing. c Los singlets discordantes tienen recuentos de UMI más bajos, lo que sugiere que la falta de profundidad de secuenciación contribuyó a las llamadas «ambiguas» de demuxlet. d Distribuciones de UMI de ARN para multiplets discordantes y concordantes. Sólo los multipletes concordantes muestran una mayor complejidad molecular, lo que sugiere que ambos métodos están sobrecalificando los multipletes en los casos discordantes. e En apoyo de esto, demuxlet asigna menores probabilidades posteriores de multipletes a las llamadas discordantes

Además, también observamos 2528 códigos de barras que recibieron clasificaciones discordantes de singlete/doblete entre las dos técnicas (Fig. 2d). Observamos que esto refleja una minoría de códigos de barras (en comparación con 13.421 clasificaciones concordantes) y que en estos casos discordantes, es difícil estar seguro de cuál de estos métodos es el correcto. Sin embargo, cuando examinamos las distribuciones de UMI de cada grupo de clasificación, observamos que sólo los códigos de barras clasificados como dobletes por ambas técnicas mostraban un cambio positivo en la complejidad transcriptómica (Fig. 2d). Esto sugiere que estas llamadas discordantes se componen en gran parte de verdaderos singletes y representan falsos positivos conservadores de ambos métodos, tal vez debido a la señal de ARN ambiental o HTO. En consonancia con esta interpretación, cuando restringimos nuestro análisis a los casos en los que demuxlet llamaba a los códigos de barras como dobletes con > 95% de probabilidad, observamos un descenso del 75% en el número de llamadas discordantes (Fig. 2e). Demuxlet requiere un número suficiente de lecturas y SNPs para clasificar inequívocamente una célula a un donante, y como se esperaba, las células clasificadas de forma discordante tenían un menor número de lecturas de secuenciación y SNPs (archivo adicional 1: Figura S2A-D).

Por último, también observamos un raro número de casos en los que tanto Cell Hashing como demuxlet clasificaron células como singlets pero con clasificaciones de donantes discordantes (216/11.464; 1,9%). Para investigar más a fondo, aprovechamos el hecho de que todos los donantes (A-G), excepto uno (H), también se tiñeron con anticuerpos CITE-seq y, por tanto, las células del donante H no deberían contener lecturas ADT. Sin embargo, en 40 casos en los que demuxlet, pero no Cell Hashing, clasificó las células como donante H, observamos recuentos ADT robustos (> 1000) en 37 casos, lo que sugiere que estas llamadas discordantes son errores de clasificación de demuxlet (archivo adicional 1: Figura S2E), en línea con la tasa de error estimada de demuxlet del 1-2% .

Para asegurar aún más que los niveles de unión de fondo no condujeron a muestras demultiplexadas incorrectamente, realizamos un experimento separado en el que mezclamos cuatro líneas celulares (HEK293T, THP1, K562 y KG1) juntas, cada una etiquetada independientemente con tres oligos Cell Hashing distintos. Tras el demultiplexado, para asignar cada código de barras a una línea celular de origen, agrupamos las células en función de sus niveles de expresión de ARN, obteniendo cuatro clusters transcriptómicos (como era de esperar). Al comparar nuestros clusters transcriptómicos con los resultados del demultiplexado, observamos una concordancia casi perfecta (99,7%), lo que demuestra una baja tasa de asignación errónea para este experimento (Archivo adicional 1: Figura S3A, B).

Por último, intentamos estimar las tasas de falsos negativos para el Cell Hashing, que representan verdaderas células individuales que no reciben suficiente señal de Cell Hashing para ser clasificadas como singletes. Para ello, examinamos todos los códigos de barras «singlete» y «negativo» clasificados por HTO del experimento PBMC y realizamos una agrupación basada en los datos del transcriptoma. Como se esperaba, descubrimos que las células «negativas» formaban predominantemente un grupo distinto de los singletes. Sin embargo, observamos 117 códigos de barras originalmente clasificados como negativos, pero cuyos perfiles transcriptómicos se agrupaban en los subtipos de PBMC singulares. Estos códigos de barras probablemente representan células individuales que fueron clasificadas incorrectamente a partir del Cell Hashing, lo que representa una tasa de falsos negativos del 0,9% (archivo adicional 1: Figura S4), pero tienen efectos insignificantes en las estimaciones de la proporción del tipo de célula. En conjunto, nuestros resultados validan que el Cell Hashing permite una clasificación robusta y precisa de las muestras en diversos sistemas.

El Cell Hashing permite la optimización eficiente de los paneles de anticuerpos de CITE-seq

Nuestra estrategia de multiplexación no sólo permite la agrupación entre donantes, sino también el perfilado simultáneo de múltiples condiciones experimentales. Esto es ampliamente aplicable al perfilado simultáneo de diversas perturbaciones ambientales y genéticas, pero razonamos que también podríamos optimizar eficientemente los flujos de trabajo experimentales, como la titulación de las concentraciones de anticuerpos para los experimentos CITE-seq. En la citometría de flujo, los anticuerpos se suelen utilizar individualmente en una gran serie de diluciones para evaluar la relación señal-ruido e identificar las concentraciones óptimas. Mientras que tales experimentos serían extremadamente prohibitivos si se ejecutan como carriles individuales de 10x Genomics, razonamos que podríamos multiplexar estos experimentos juntos usando Cell Hashing.

Por lo tanto, incubamos las PBMC de diferentes donantes con una serie de dilución de concentraciones de anticuerpos que varían en tres órdenes de magnitud (sección «Métodos»). Las concentraciones de anticuerpos CITE-seq se escalonaron entre las diferentes muestras para mantener la cantidad total de anticuerpos y oligo consistente en cada muestra. Tras el demultiplexado de la muestra, examinamos las distribuciones de TDA en todas las concentraciones para cada anticuerpo (ejemplos en la Fig. 3a-c) y evaluamos la relación señal-ruido calculando un índice de tinción similar a las métricas comúnmente utilizadas para la optimización de la citometría de flujo (Fig. 3d) (sección «Métodos»).

Fig. 3
figure3

El hashtag de células permite una optimización experimental eficiente y la identificación de células de baja calidad. a-c Realizamos una serie de titulación para evaluar las concentraciones de tinción óptimas para un panel de anticuerpos de inmunofenotipado CITE-seq. Se representan los recuentos normalizados de ADT para CD8 (a), CD45RA (b) y CD4 (c) para las diferentes concentraciones utilizadas por ensayo. d Curva de titulación que representa el índice de tinción (SI; sección «Métodos») para estos tres anticuerpos a través de la serie de titulación. La relación señal/ruido para estos anticuerpos comienza a saturarse a niveles similares a las concentraciones de tinción recomendadas por el fabricante, típicas para los anticuerpos de citometría de flujo. e Las células con recuentos bajos de UMI pueden distinguirse del ARN ambiental utilizando clasificaciones HTO. Los singletes clasificados se agrupan en poblaciones hematopoyéticas canónicas. f Los códigos de barras clasificados como «negativos» no se agrupan en racimos y probablemente representen gotas «vacías» que sólo contienen ARN ambiental

Todos los anticuerpos mostraron sólo señal de fondo en las condiciones de control negativo y una señal-ruido muy débil a 0,06 μg/prueba. Observamos que la relación señal-ruido para la mayoría de los anticuerpos comenzó a saturarse dentro del rango de concentración de 0,5 a 1 μg/prueba, comparable a las concentraciones recomendadas para la citometría de flujo (Fig. 3d). Este experimento fue concebido como una prueba de concepto; un experimento de valoración ideal utilizaría células del mismo donante para todas las condiciones y un mayor rango de concentraciones, pero demuestra claramente cómo el Cell Hashing puede utilizarse para optimizar rápida y eficientemente los flujos de trabajo experimentales.

Los hashtags de células permiten discriminar las células de baja calidad del ARN ambiental

Nuestros hashtags de células pueden discriminar las células individuales de los dobletes basándose en la clara expresión de un único HTO, y a continuación nos preguntamos si esta característica también podría distinguir las células de baja calidad del ARN ambiental. De ser así, esto nos permitiría reducir nuestro «límite» de UMI (previamente fijado en 200) y permitiría la posibilidad de que ciertos códigos de barras que representan el ARN ambiental puedan expresar más UMI que algunas células individuales verdaderas. La mayoría de los flujos de trabajo establecen límites estrictos de UMI para excluir todo el ARN ambiental, sesgando los resultados de scRNA-seq contra las células con bajo contenido de ARN y probablemente sesgando las estimaciones proporcionales del tipo de célula.

De hecho, al considerar 4344 códigos de barras que contienen 50-200 UMI, recuperamos 1110 singlets adicionales basados en las clasificaciones HTO, con 3108 códigos de barras caracterizados como negativos. Clasificamos cada código de barras como una de nuestras 7 poblaciones hematopoyéticas previamente determinadas (sección «Métodos»; Fig. 1F) y visualizamos los resultados en una incrustación transcriptómica tSNE, calculada independientemente para los grupos de «singletes» y «negativos». En el caso de los singletes predichos, los códigos de barras se proyectaron a las poblaciones B, NK, T y mieloide, que se separaron de forma consistente en el tSNE, lo que sugiere que estos códigos de barras representan verdaderas células individuales (Fig. 3e). Por el contrario, los códigos de barras «negativos» no se separaron en base a su clasificación forzada, lo que es consistente con que estos códigos de barras reflejan mezclas de ARN ambientales que pueden mezclar múltiples subpoblaciones. Por lo tanto, concluimos que al proporcionar una lectura de la identidad de la muestra que es independiente del transcriptoma, el Cell Hashing puede ayudar a recuperar células de baja calidad y/o células con muy bajo contenido de ARN que de otra manera pueden ser difíciles de distinguir del ARN ambiental (Fig. 3f).

Hacia un reactivo universal de anticuerpos Cell Hashing

Para nuestros experimentos de prueba de principio, utilizamos un grupo de anticuerpos dirigidos contra marcadores de superficie inmune altamente expresados (CD45, CD98, CD44 y CD11a). Para permitir el multiplexado de cualquier tipo de célula y muestra, decidimos rediseñar nuestro panel para dirigirnos a marcadores de superficie más ubicuos. El complejo MHC de clase I (beta-2-microglobulina) y la subunidad ATPasa de sodio-potasio (CD298) se encuentran entre las proteínas de superficie más ampliamente expresadas en los tejidos humanos. El uso de un conjunto de anticuerpos dirigidos contra ambas proteínas nos permitiría multiplexar prácticamente cualquier tipo de célula en un solo experimento. Mientras este manuscrito estaba en revisión, Hartmann y sus colegas demostraron que la misma combinación de anticuerpos es un reactivo universal de multiplexación para CyTOF. Los niveles de expresión extremadamente altos de ambos marcadores deberían permitir un demultiplexado HTO robusto, pero en principio podrían etiquetar las células con un número abrumador de oligos de poliA monocatenarios que podrían competir con los ARNm celulares poliadenilados, lo que daría lugar a un menor recuento de genes y/o UMI por célula. Para investigar esta posible competencia, teñimos las células Jurkat con una serie de diluciones de anticuerpos Cell Hashing, ejecutamos un carril de 3′ v2 de células individuales de Chromium 10x junto a un carril con células sin hash, y secuenciamos las bibliotecas transcriptómicas resultantes. Los niveles de complejidad transcriptómica, indicados por la relación entre las lecturas de secuenciación y los recuentos de UMI por célula, fueron indistinguibles de los de las células no lavadas en todas las concentraciones probadas de anticuerpos Cell Hashing, lo que ilustra que no hay desventajas al multiplexar las muestras (archivo adicional 1: figura S5). En conjunto, estos resultados demuestran cómo el Cell Hashing puede aplicarse fácilmente a prácticamente cualquier muestra humana con reactivos comerciales fácilmente disponibles y sin una pérdida de complejidad transcriptómica.

Articles

Deja una respuesta

Tu dirección de correo electrónico no será publicada.