Demultiplexado habilitado por hashtags basado en la expresión ubicua de proteínas de superficie
Intentamos ampliar las estrategias de multiplexado basadas en anticuerpos a scRNA-seq utilizando una modificación de nuestro método CITE-seq . Inicialmente elegimos un conjunto de anticuerpos monoclonales dirigidos contra marcadores de superficie inmunitarios ubicuos y altamente expresados (CD45, CD98, CD44 y CD11a), combinamos estos anticuerpos en ocho grupos idénticos (grupos de la A a la H), y posteriormente conjugamos cada grupo con un oligonucleótido Hashtag distinto (en adelante denominado HTO, Fig. 1a; sección «Métodos»). Los HTOs contienen un código de barras único de 12 pb que puede ser secuenciado junto con el transcriptoma celular, con sólo pequeñas modificaciones en los protocolos estándar de scRNA-seq. Utilizamos una química de conjugación mejorada y simplificada en comparación con nuestro enfoque anterior, mediante el uso de la química de clic iEDDA para unir covalentemente los oligonucleótidos a los anticuerpos (sección «Métodos»).
Diseñamos nuestra estrategia para permitir que CITE-seq y Cell Hashing se realicen simultáneamente, pero para generar bibliotecas de secuenciación separadas. En concreto, los HTOs contienen un asa de amplificación diferente a la de nuestras etiquetas estándar derivadas de anticuerpos (ADT) de CITE-seq (sección «Métodos»). Esto permite que los HTOs, los ADTs y las bibliotecas de scRNA-seq se amplifiquen independientemente y se agrupen en las cantidades deseadas. En particular, hemos observado previamente una recuperación robusta de las señales de anticuerpos de epítopos altamente expresados debido a su número de copias extremadamente alto. Esto contrasta con los amplios niveles de «abandono» observados en los datos de scRNA-seq y sugiere que podemos recuperar fielmente los HTO de cada célula individual, permitiendo la asignación a la muestra de origen con alta fidelidad.
Para evaluar nuestra estrategia y demostrar su utilidad, obtuvimos células mononucleares de sangre periférica (PBMC) de ocho donantes humanos distintos (denominados donantes A a H) y teñimos independientemente cada muestra con uno de nuestros grupos de anticuerpos conjugados con HTO, mientras realizábamos simultáneamente un experimento de valoración con un grupo de siete marcadores inmunofenotípicos (sección «Métodos») para CITE-seq. Posteriormente, agrupamos todas las células en la misma proporción, junto con un número igual de células HEK293T sin teñir (y un 3% de células NIH-3T3 de ratón) como controles negativos, y ejecutamos el pool en un solo carril en el sistema 10x Genomics Chromium Single Cell 3′ v2. Siguiendo el enfoque de Kang et al. , «supercargamos» el instrumento 10x Genomics, cargando las células a una concentración significativamente mayor con un rendimiento esperado de 20.000 células individuales y 5000 multipletes. Basándonos en la estadística de Poisson, 4365 multipletes deberían representar combinaciones de células de distintas muestras y pueden ser potencialmente descartados, lo que lleva a una tasa de multipletes no resueltos del 3,1%. En particular, si se consigue una tasa de multipletes similar sin multiplexación, se obtendrían unos 4.000 singletes. Dado que el coste de los sistemas comerciales basados en gotas es fijo por carrera para la preparación de la muestra, la multiplexación permite por tanto el perfilado de ~ 400% más de células por el mismo coste.
Realizamos la partición y la transcripción inversa de acuerdo con los protocolos estándar, utilizando sólo una estrategia de amplificación descendente ligeramente modificada (sección «Métodos») para generar bibliotecas de transcriptoma, HTO y ADT. Las agrupamos y secuenciamos en una Illumina HiSeq2500 (dos celdas de flujo de ejecución rápida), con el objetivo de lograr una contribución del 90%:5%:5% de las tres bibliotecas en los datos de secuenciación. Además, realizamos la genotipificación de las ocho muestras de PBMC y de las células HEK293T con la matriz Infinium CoreExome de Illumina, lo que nos permitió utilizar tanto los HTO como los genotipos de las muestras (evaluados por demuxlet ) como enfoques de demultiplexación independientes.
Al examinar la expresión por pares de dos recuentos de HTO, observamos relaciones similares a los gráficos de «mezcla de especies» (Fig. 1b), lo que sugiere la exclusividad mutua de la señal de HTO entre singletes. Más allá del análisis por pares, desarrollamos un modelo estadístico para clasificar cada código de barras como «positivo» o «negativo» para cada HTO (sección «Métodos»). Brevemente, modelamos la señal de «fondo» para cada HTO de forma independiente como una distribución binomial negativa, estimando las células de fondo en base a los resultados de una agrupación inicial de k-medoides de todas las lecturas HTO (sección «Métodos»). Los códigos de barras con señales HTO por encima del cuantil del 99% para esta distribución se etiquetaron como «positivos», y los códigos de barras que eran «positivos» para más de un HTO se etiquetaron como multipletes. Clasificamos todos los códigos de barras en los que detectamos al menos 200 UMI de ARN, independientemente de la señal de HTO.
Nuestras clasificaciones (visualizadas como un mapa de calor en la Fig. 1c) sugirieron una clara identificación de 8 poblaciones singulares, así como de grupos de multipletes. También identificamos códigos de barras con una señal de fondo insignificante para cualquiera de los HTO (etiquetados como «negativos»), que consistían principalmente (86,5%) en células HEK293T y de ratón. Eliminamos todas las células HEK293T y de ratón de los análisis posteriores (sección «Métodos»), y los códigos de barras restantes representaron 14.002 singletes y 2.974 multipletes identificables, de acuerdo con las expectativas. Nuestras clasificaciones también fueron totalmente concordantes con una incrustación tSNE, calculada utilizando sólo las 8 señales HTO, lo que permitió visualizar claramente no sólo los 8 grupos de singletes (donantes A a H), sino también los 28 grupos pequeños que representan todas las posibles combinaciones de dobletes (Fig. 1d). Además, observamos un claro cambio positivo en la distribución de UMI de ARN por código de barras para los multipletes, tal y como se esperaba (Fig. 1e), mientras que los restantes códigos de barras negativos expresaban menos UMIs y podrían representar reacciones fallidas o gotas «vacías» que sólo contenían ARN ambiental. Estos resultados sugieren fuertemente que los HTOs asignaron con éxito cada código de barras en su muestra original y permitieron la detección robusta de multipletes de muestras cruzadas. El gran rango dinámico de UMI de ARN por código de barras celular en los multipletes (Fig. 1e) ilustra la dificultad de la asignación inequívoca de multipletes basada en recuentos de UMI más altos. En este sentido, observamos los mismos retos con la señal total de HTO (Archivo adicional 1: Figura S1A). La agrupación transcriptómica de los singletes clasificados permitió detectar claramente siete subpoblaciones hematopoyéticas, que estaban intercaladas en los 8 donantes (Fig. 1f).
La demultiplexación basada en el genotipo valida el Cell Hashing
A continuación comparamos nuestras clasificaciones basadas en HTO con las obtenidas mediante demuxlet . En general, observamos una fuerte concordancia entre las técnicas, incluso cuando se considera la mezcla precisa de muestras en los llamados dobletes (Fig. 2a). Explorando las áreas de desacuerdo, identificamos 871 códigos de barras que fueron clasificados en base a los niveles de HTO como singletes pero que fueron identificados como «ambiguos» por demuxlet. En particular, la fuerza de la clasificación HTO para estos códigos de barras discordantes (representada por el número de lecturas asignadas al HTO más expresado) fue idéntica a la de los códigos de barras que fueron clasificados como singlets por ambos enfoques (Fig. 2b). Sin embargo, los códigos de barras discordantes tenían recuentos reducidos de UMI de ARN (Fig. 2c). Llegamos a la conclusión de que estos códigos de barras probablemente no podrían ser clasificados genéticamente en nuestra profundidad de secuenciación relativamente poco profunda (~ 24.115 lecturas por célula), que está por debajo de la profundidad recomendada para el uso de demuxlet, pero probablemente representan verdaderas células individuales basadas en nuestras clasificaciones HTO.
Además, también observamos 2528 códigos de barras que recibieron clasificaciones discordantes de singlete/doblete entre las dos técnicas (Fig. 2d). Observamos que esto refleja una minoría de códigos de barras (en comparación con 13.421 clasificaciones concordantes) y que en estos casos discordantes, es difícil estar seguro de cuál de estos métodos es el correcto. Sin embargo, cuando examinamos las distribuciones de UMI de cada grupo de clasificación, observamos que sólo los códigos de barras clasificados como dobletes por ambas técnicas mostraban un cambio positivo en la complejidad transcriptómica (Fig. 2d). Esto sugiere que estas llamadas discordantes se componen en gran parte de verdaderos singletes y representan falsos positivos conservadores de ambos métodos, tal vez debido a la señal de ARN ambiental o HTO. En consonancia con esta interpretación, cuando restringimos nuestro análisis a los casos en los que demuxlet llamaba a los códigos de barras como dobletes con > 95% de probabilidad, observamos un descenso del 75% en el número de llamadas discordantes (Fig. 2e). Demuxlet requiere un número suficiente de lecturas y SNPs para clasificar inequívocamente una célula a un donante, y como se esperaba, las células clasificadas de forma discordante tenían un menor número de lecturas de secuenciación y SNPs (archivo adicional 1: Figura S2A-D).
Por último, también observamos un raro número de casos en los que tanto Cell Hashing como demuxlet clasificaron células como singlets pero con clasificaciones de donantes discordantes (216/11.464; 1,9%). Para investigar más a fondo, aprovechamos el hecho de que todos los donantes (A-G), excepto uno (H), también se tiñeron con anticuerpos CITE-seq y, por tanto, las células del donante H no deberían contener lecturas ADT. Sin embargo, en 40 casos en los que demuxlet, pero no Cell Hashing, clasificó las células como donante H, observamos recuentos ADT robustos (> 1000) en 37 casos, lo que sugiere que estas llamadas discordantes son errores de clasificación de demuxlet (archivo adicional 1: Figura S2E), en línea con la tasa de error estimada de demuxlet del 1-2% .
Para asegurar aún más que los niveles de unión de fondo no condujeron a muestras demultiplexadas incorrectamente, realizamos un experimento separado en el que mezclamos cuatro líneas celulares (HEK293T, THP1, K562 y KG1) juntas, cada una etiquetada independientemente con tres oligos Cell Hashing distintos. Tras el demultiplexado, para asignar cada código de barras a una línea celular de origen, agrupamos las células en función de sus niveles de expresión de ARN, obteniendo cuatro clusters transcriptómicos (como era de esperar). Al comparar nuestros clusters transcriptómicos con los resultados del demultiplexado, observamos una concordancia casi perfecta (99,7%), lo que demuestra una baja tasa de asignación errónea para este experimento (Archivo adicional 1: Figura S3A, B).
Por último, intentamos estimar las tasas de falsos negativos para el Cell Hashing, que representan verdaderas células individuales que no reciben suficiente señal de Cell Hashing para ser clasificadas como singletes. Para ello, examinamos todos los códigos de barras «singlete» y «negativo» clasificados por HTO del experimento PBMC y realizamos una agrupación basada en los datos del transcriptoma. Como se esperaba, descubrimos que las células «negativas» formaban predominantemente un grupo distinto de los singletes. Sin embargo, observamos 117 códigos de barras originalmente clasificados como negativos, pero cuyos perfiles transcriptómicos se agrupaban en los subtipos de PBMC singulares. Estos códigos de barras probablemente representan células individuales que fueron clasificadas incorrectamente a partir del Cell Hashing, lo que representa una tasa de falsos negativos del 0,9% (archivo adicional 1: Figura S4), pero tienen efectos insignificantes en las estimaciones de la proporción del tipo de célula. En conjunto, nuestros resultados validan que el Cell Hashing permite una clasificación robusta y precisa de las muestras en diversos sistemas.
El Cell Hashing permite la optimización eficiente de los paneles de anticuerpos de CITE-seq
Nuestra estrategia de multiplexación no sólo permite la agrupación entre donantes, sino también el perfilado simultáneo de múltiples condiciones experimentales. Esto es ampliamente aplicable al perfilado simultáneo de diversas perturbaciones ambientales y genéticas, pero razonamos que también podríamos optimizar eficientemente los flujos de trabajo experimentales, como la titulación de las concentraciones de anticuerpos para los experimentos CITE-seq. En la citometría de flujo, los anticuerpos se suelen utilizar individualmente en una gran serie de diluciones para evaluar la relación señal-ruido e identificar las concentraciones óptimas. Mientras que tales experimentos serían extremadamente prohibitivos si se ejecutan como carriles individuales de 10x Genomics, razonamos que podríamos multiplexar estos experimentos juntos usando Cell Hashing.
Por lo tanto, incubamos las PBMC de diferentes donantes con una serie de dilución de concentraciones de anticuerpos que varían en tres órdenes de magnitud (sección «Métodos»). Las concentraciones de anticuerpos CITE-seq se escalonaron entre las diferentes muestras para mantener la cantidad total de anticuerpos y oligo consistente en cada muestra. Tras el demultiplexado de la muestra, examinamos las distribuciones de TDA en todas las concentraciones para cada anticuerpo (ejemplos en la Fig. 3a-c) y evaluamos la relación señal-ruido calculando un índice de tinción similar a las métricas comúnmente utilizadas para la optimización de la citometría de flujo (Fig. 3d) (sección «Métodos»).
Todos los anticuerpos mostraron sólo señal de fondo en las condiciones de control negativo y una señal-ruido muy débil a 0,06 μg/prueba. Observamos que la relación señal-ruido para la mayoría de los anticuerpos comenzó a saturarse dentro del rango de concentración de 0,5 a 1 μg/prueba, comparable a las concentraciones recomendadas para la citometría de flujo (Fig. 3d). Este experimento fue concebido como una prueba de concepto; un experimento de valoración ideal utilizaría células del mismo donante para todas las condiciones y un mayor rango de concentraciones, pero demuestra claramente cómo el Cell Hashing puede utilizarse para optimizar rápida y eficientemente los flujos de trabajo experimentales.
Los hashtags de células permiten discriminar las células de baja calidad del ARN ambiental
Nuestros hashtags de células pueden discriminar las células individuales de los dobletes basándose en la clara expresión de un único HTO, y a continuación nos preguntamos si esta característica también podría distinguir las células de baja calidad del ARN ambiental. De ser así, esto nos permitiría reducir nuestro «límite» de UMI (previamente fijado en 200) y permitiría la posibilidad de que ciertos códigos de barras que representan el ARN ambiental puedan expresar más UMI que algunas células individuales verdaderas. La mayoría de los flujos de trabajo establecen límites estrictos de UMI para excluir todo el ARN ambiental, sesgando los resultados de scRNA-seq contra las células con bajo contenido de ARN y probablemente sesgando las estimaciones proporcionales del tipo de célula.
De hecho, al considerar 4344 códigos de barras que contienen 50-200 UMI, recuperamos 1110 singlets adicionales basados en las clasificaciones HTO, con 3108 códigos de barras caracterizados como negativos. Clasificamos cada código de barras como una de nuestras 7 poblaciones hematopoyéticas previamente determinadas (sección «Métodos»; Fig. 1F) y visualizamos los resultados en una incrustación transcriptómica tSNE, calculada independientemente para los grupos de «singletes» y «negativos». En el caso de los singletes predichos, los códigos de barras se proyectaron a las poblaciones B, NK, T y mieloide, que se separaron de forma consistente en el tSNE, lo que sugiere que estos códigos de barras representan verdaderas células individuales (Fig. 3e). Por el contrario, los códigos de barras «negativos» no se separaron en base a su clasificación forzada, lo que es consistente con que estos códigos de barras reflejan mezclas de ARN ambientales que pueden mezclar múltiples subpoblaciones. Por lo tanto, concluimos que al proporcionar una lectura de la identidad de la muestra que es independiente del transcriptoma, el Cell Hashing puede ayudar a recuperar células de baja calidad y/o células con muy bajo contenido de ARN que de otra manera pueden ser difíciles de distinguir del ARN ambiental (Fig. 3f).
Hacia un reactivo universal de anticuerpos Cell Hashing
Para nuestros experimentos de prueba de principio, utilizamos un grupo de anticuerpos dirigidos contra marcadores de superficie inmune altamente expresados (CD45, CD98, CD44 y CD11a). Para permitir el multiplexado de cualquier tipo de célula y muestra, decidimos rediseñar nuestro panel para dirigirnos a marcadores de superficie más ubicuos. El complejo MHC de clase I (beta-2-microglobulina) y la subunidad ATPasa de sodio-potasio (CD298) se encuentran entre las proteínas de superficie más ampliamente expresadas en los tejidos humanos. El uso de un conjunto de anticuerpos dirigidos contra ambas proteínas nos permitiría multiplexar prácticamente cualquier tipo de célula en un solo experimento. Mientras este manuscrito estaba en revisión, Hartmann y sus colegas demostraron que la misma combinación de anticuerpos es un reactivo universal de multiplexación para CyTOF. Los niveles de expresión extremadamente altos de ambos marcadores deberían permitir un demultiplexado HTO robusto, pero en principio podrían etiquetar las células con un número abrumador de oligos de poliA monocatenarios que podrían competir con los ARNm celulares poliadenilados, lo que daría lugar a un menor recuento de genes y/o UMI por célula. Para investigar esta posible competencia, teñimos las células Jurkat con una serie de diluciones de anticuerpos Cell Hashing, ejecutamos un carril de 3′ v2 de células individuales de Chromium 10x junto a un carril con células sin hash, y secuenciamos las bibliotecas transcriptómicas resultantes. Los niveles de complejidad transcriptómica, indicados por la relación entre las lecturas de secuenciación y los recuentos de UMI por célula, fueron indistinguibles de los de las células no lavadas en todas las concentraciones probadas de anticuerpos Cell Hashing, lo que ilustra que no hay desventajas al multiplexar las muestras (archivo adicional 1: figura S5). En conjunto, estos resultados demuestran cómo el Cell Hashing puede aplicarse fácilmente a prácticamente cualquier muestra humana con reactivos comerciales fácilmente disponibles y sin una pérdida de complejidad transcriptómica.