Demultiplexação habilitada para Hashtag- baseada na expressão ubíqua da proteína superficial

Procuramos estender estratégias de multiplexação baseadas em anticorpos para scRNA-seq usando uma modificação do nosso método CITE-seq . Inicialmente escolhemos um conjunto de anticorpos monoclonais dirigidos contra marcadores de superfície imune ubíquos e altamente expressos (CD45, CD98, CD44 e CD11a), combinamos estes anticorpos em oito piscinas idênticas (piscina A a H), e posteriormente conjugamos cada piscina a um oligonucleotídeo Hashtag distinto (doravante referido como HTO, Fig. 1a; secção “Métodos”). Os HTOs contêm um código de barras único de 12-bp que pode ser sequenciado ao lado do transcriptoma celular, com apenas pequenas modificações nos protocolos scRNA-seq padrão. Utilizamos uma química de conjugação melhorada e simplificada em comparação com nossa abordagem anterior, usando a química de clique iEDDA para covalentemente anexar oligonucleotídeos a anticorpos (seção “Métodos”).

Fig. 1
figure1

Multiplicação de amostras usando anticorpos codificados com DNA. uma visão esquemática da multiplexação de amostras por Cell Hashing. As células de diferentes amostras são incubadas com anticorpos codificados com ADN que reconhecem proteínas de superfície celular ubíquas. Códigos de barras distintos (referidos como hashtag-oligos, HTO) nos anticorpos permitem a junção de múltiplas amostras num único experimento scRNA-seq. Após o sequenciamento, as células podem ser atribuídas à sua amostra de origem com base nos níveis de HTO (secção “Métodos”). b Gráfico representativo de dispersão mostrando contagens brutas para HTO A e HTO B em todos os códigos de barras das células. Ambos os eixos são recortados a 99,9% quantil para excluir outliers visuais. c Mapa de calor de valores de HTO normalizados (z-scores) com base em nossas classificações. Múltiplos expressam mais de um HTO. Populações negativas contêm células HEK293T e NIH-3T3 do rato que foram introduzidas nos experimentos como controles negativos. d tSNE incorporação do conjunto de dados da HTO. As células são coloridas e etiquetadas com base nas nossas classificações. Oito clusters de singlet e todos os 28 clusters de doublet de amostra cruzada estão claramente presentes. e Distribuição de RNA UMIs por código de barras celular em células que foram caracterizadas como singlets (vermelho), multiplets (violeta) ou negativas (cinza). f Clusterização baseada em transcriptoma de perfis de expressão de célula única revela populações distintas de células imunes intercaladas entre os doadores. Células B, B; células T, T; células NK, células naturais assassinas; mono, monócitos; DC, células dendríticas. As células são coloridas com base em sua classificação HTO (ID do doador), como em d

Desenhamos nossa estratégia para permitir que CITE-seq e Cell Hashing sejam realizados simultaneamente, mas para gerar bibliotecas de sequenciamento separadas. Especificamente, as HTOs contêm um cabo de amplificação diferente das nossas tags CITE-seq padrão derivadas de anticorpos (ADT) (seção “Métodos”). Isto permite que HTOs, ADTs e bibliotecas scRNA-seq sejam amplificadas de forma independente e agrupadas nas quantidades desejadas. Notavelmente, observamos anteriormente uma recuperação robusta dos sinais de anticorpos de epitopos altamente expressos devido ao seu número de cópias extremamente elevado. Isto está em contraste com os extensos níveis de “dropout” observados para os dados scRNA-seq e sugere que podemos recuperar fielmente os HTOs de cada célula, permitindo a atribuição de amostras de origem com alta fidelidade.

Para comparar nossa estratégia e demonstrar sua utilidade, obtivemos células mononucleares do sangue periférico (PBMCs) de oito doadores humanos separados (referidos como doadores A a H) e coramos independentemente cada amostra com um de nossos pools de anticorpos conjugados com HTO, ao mesmo tempo em que realizamos um experimento de titulação com um pool de sete marcadores imunofenotípicos (seção “Métodos”) para CITE-seq. Posteriormente reunimos todas as células em proporção igual, juntamente com um número igual de células HEK293T não manchadas (e 3% de células NIH-3T3 do rato) como controlos negativos, e corremos o pool numa única pista no sistema 10x Genomics Chromium Single Cell 3′ v2. Seguindo a abordagem de Kang et al. , nós “super carregamos” o instrumento 10x Genomics, carregando células em uma concentração significativamente maior com um rendimento esperado de 20.000 células únicas e 5000 multipletes. Com base nas estatísticas de Poisson, 4365 multipletes devem representar combinações de células de amostras distintas e podem potencialmente ser descartados, levando a uma taxa de multipletes não resolvidos de 3,1%. Notavelmente, alcançar uma taxa similar de multipletes sem multiplexação renderia ~ 4000 singlets. Como o custo dos sistemas comerciais baseados em gotas é fixo por execução para o preparo da amostra, a multiplexação, portanto, permite o perfil de ~ 400% mais células pelo mesmo custo.

Realizamos particionamento e transcrição reversa de acordo com os protocolos padrão, utilizando apenas uma estratégia de amplificação ligeiramente modificada a jusante (seção “Métodos”) para gerar bibliotecas de transcriptoma, HTO e ADT. Nós agrupamos e sequenciamos estas em um Illumina HiSeq2500 (duas flowcells de execução rápida), visando uma contribuição de 90%:5%:5% das três bibliotecas nos dados de sequenciamento. Adicionalmente, realizamos a genotipagem de todas as oito amostras PBMC e células HEK293T com a matriz Illumina Infinium CoreExome, permitindo-nos utilizar tanto HTOs quanto os genótipos da amostra (avaliados pelo demuxlet ) como abordagens demultiplexantes independentes.

Ao examinarmos a expressão em pares de duas contagens HTO, observamos relações semelhantes a “mistura de espécies” (Fig. 1b), sugerindo exclusividade mútua do sinal HTO entre singlets. Estendendo-se além da análise em pares, desenvolvemos um modelo estatístico para classificar cada código de barras como “positivo” ou “negativo” para cada HTO (seção “Métodos”). Em resumo, modelamos o sinal “de fundo” para cada HTO independentemente como uma distribuição binomial negativa, estimando células de fundo com base nos resultados de um agrupamento inicial de k-medoids de todas as leituras HTO (seção “Métodos”). Os códigos de barras com sinais HTO acima do quantil 99% para esta distribuição foram rotulados como “positivos”, e os códigos de barras que eram “positivos” para mais de um HTO foram rotulados como multiplets. Classificamos todos os códigos de barras onde detectamos pelo menos 200 RNA UMI, independentemente do sinal HTO.

As nossas classificações (visualizadas como um mapa de calor na Fig. 1c) sugeriram uma clara identificação de 8 populações de um T, bem como de grupos de múltiplos T. Também identificamos códigos de barras com sinal de fundo negligenciável para qualquer um dos HTOs (etiquetados como “negativos”), consistindo principalmente (86,5%) de HEK293T e células de camundongos. Removemos todas as células HEK293T e do rato das análises a jusante (secção “Métodos”), com os restantes códigos de barras representando 14.002 singlets e 2974 multiplets identificáveis, de acordo com as expectativas. Nossas classificações também foram totalmente concordantes com uma incorporação de tSNE, calculada usando apenas os 8 sinais HTO, o que permitiu a visualização clara não só dos 8 grupos de singlets (doadores A a H), mas também dos 28 pequenos grupos representando todas as combinações possíveis de doublet (Fig. 1d). Além disso, observamos uma clara mudança positiva na distribuição do RNA UMI por código de barras para os múltiplos, como esperado (Fig. 1e), enquanto os códigos de barras negativos restantes expressaram menos UMIs e podem representar reações falhadas ou gotas “vazias” contendo apenas RNA ambiente. Estes resultados sugerem fortemente que os HTOs atribuíram com sucesso cada código de barras à sua amostra original e permitiram a detecção robusta de múltiplos de amostra cruzada. A grande faixa dinâmica do RNA UMI por código de barras de células em multipletes (Fig. 1e) ilustra a dificuldade de atribuição inequívoca de multipletes com base em contagens de UMI mais altas. A distância entre os multipletes de RNA e os multipletes de RNA, e observamos os mesmos desafios com o sinal HTO total (arquivo adicional 1: Figura S1A). A realização do agrupamento transcriptômico dos singlets classificados permitiu a detecção clara de sete subpopulações hematopoiéticas, que foram intercaladas entre os 8 doadores (Fig. 1f).

O demultiplexamento baseado em genótipo valida o Hashing celular

A seguir comparamos nossas classificações baseadas na HTO com as obtidas pelo demuxlet . No geral, observamos uma forte concordância entre as técnicas, mesmo quando consideramos a mistura exata da amostra nos chamados doublets (Fig. 2a). Explorando as áreas de discordância, identificamos 871 códigos de barras que foram classificados com base nos níveis de HTO como singlets, mas foram identificados como “ambíguos” pelo demuxlet. Notavelmente, a força da classificação HTO para estes códigos de barras discordantes (representados pelo número de leituras atribuídas à HTO mais expressa) foi idêntica aos códigos de barras que foram classificados como singlets por ambas as abordagens (Fig. 2b). No entanto, os códigos de barras discordantes reduziram a contagem do RNA UMI (Fig. 2c). Concluímos que esses códigos de barras provavelmente não poderiam ser classificados geneticamente na nossa profundidade de seqüenciamento relativamente rasa (~ 24.115 leituras por célula), que está abaixo da profundidade recomendada para o uso do demuxlet, mas provavelmente representam verdadeiras células únicas com base nas nossas classificações HTO.

Fig. 2
figure2

Validação de Hashing Celular usando demuxlet. uma “matriz de confusão” padronizada por linha comparando as classificações demuxlet e HTO. Cada valor na diagonal representa a fração de códigos de barras para uma dada classificação HTO que recebeu uma classificação idêntica do demuxlet. b Distribuição de contagem da HTO mais expressa para grupos de singlets concordantes e discordantes. Ambos os grupos têm força de classificação idêntica baseada em Hashing de células. c Os singlets discordantes têm contagens UMI mais baixas, sugerindo que a falta de profundidade de seqüenciamento contribuiu para chamadas “ambíguas” de demuxlet. d Distribuições UMI de RNA para multiplets discordantes e concordantes. Somente os múltiplos concordantes apresentam maior complexidade molecular, sugerindo que ambos os métodos estão, de forma conservadora, superpondo os múltiplos em casos discordantes. e Em apoio a isto, demuxlet atribui probabilidades posteriores de múltiplos inferiores a chamadas discordantes

Além disso, observamos também 2528 códigos de barras que receberam classificações discordantes simplest/duas entre as duas técnicas (Fig. 2d). Observamos que isso reflete uma minoria de códigos de barras (comparado a 13.421 classificações concordantes) e que, nesses casos discordantes, é difícil ter certeza de qual desses métodos é correto. Entretanto, quando examinamos as distribuições do IMC de cada grupo de classificação, observamos que apenas os códigos de barras classificados como doublets por ambas as técnicas apresentaram uma mudança positiva na complexidade transcriptômica (Fig. 2d). Isto sugere que estas chamadas discordantes são em grande parte constituídas por verdadeiros singlets e representam falsos positivos conservadores de ambos os métodos, talvez devido ao RNA ambiente ou sinal HTO. Consistente com esta interpretação, quando restringimos nossa análise aos casos em que demuxlet chamou códigos de barras como doublets com > 95% de probabilidade, observamos uma queda de 75% no número de chamadas discordantes (Fig. 2e). Demuxlet requer números suficientes de leituras e SNPs para classificar inequivocamente uma célula para um doador, e como esperado, células classificadas discordantemente tinham números menores de leituras seqüenciais e SNPs (arquivo adicional 1: Figura S2A-D).

Finalmente, também observamos um número raro de casos em que tanto Cell Hashing quanto demuxlet classificaram células como singlets mas com classificações discordantes (216/11.464; 1,9%) doador. Para investigar mais, aproveitamos o facto de todos os doadores (A-G) excepto um (H) também terem sido corados com anticorpos CITE-seq, e portanto, as células H do doador não devem conter ADT. No entanto, em 40 casos em que o demuxlet, mas não o Hashing celular, classificou as células como doador H, observamos uma contagem robusta (> 1000) de ADT em 37 casos, sugerindo que estas chamadas discordantes são erros de classificação do demuxlet (arquivo adicional 1: Figura S2E), de acordo com a taxa de erro estimada do demuxlet de 1-2% .

Para assegurar ainda mais que os níveis de ligação de fundo não levaram a amostras demultiplexadas incorretamente, realizamos um experimento separado onde misturamos quatro linhas de células (HEK293T, THP1, K562, e KG1), cada uma delas rotulada independentemente com três oligo-elementos Cell Hashing distintos. Após a desmultiplexação, para atribuir cada código de barras a uma linha celular de origem, nós agrupamos células com base em seus níveis de expressão de RNA, obtendo quatro clusters transcriptômicos (como esperado). Comparando nossos clusters transcriptômicos com os resultados demultiplexantes, observamos concordância quase perfeita (99,7%), demonstrando uma baixa taxa de desalocação para este experimento (arquivo adicional 1: Figura S3A, B).

Finalmente, tentamos estimar as taxas de falso-negativo para Hashing celular, representando as verdadeiras células únicas que não recebem sinal de Hashing celular suficiente para serem classificadas como singlets. Para fazer isso, examinamos todos os códigos de barras “singlet” e “negativo” classificados pelo HTO do experimento PBMC e fizemos o clustering baseado nos dados do transcriptome. Como esperado, descobrimos que células “negativas” predominantemente formavam um cluster distinto dos “singlets”. Entretanto, observamos 117 códigos de barras originalmente classificados como negativos, mas cujos perfis transcriptômicos se agruparam através de subtipos de singlet PBMC. Esses códigos de barras provavelmente representam células únicas que foram classificadas incorretamente a partir de Cell Hashing, representando uma taxa falso-negativa de 0,9% (arquivo adicional 1: Figura S4), mas têm efeitos negligenciáveis sobre as estimativas de proporção do tipo de célula. Em conjunto, nossos resultados validam que o Cell Hashing permite a classificação robusta e precisa da amostra em diversos sistemas.

Cell Hashing permite a otimização eficiente dos painéis de anticorpos CITE-seq

Nossa estratégia de multiplexação não só permite o agrupamento entre doadores, mas também o perfilamento simultâneo de múltiplas condições experimentais. Isso é amplamente aplicável ao perfilamento simultâneo de diversas perturbações ambientais e genéticas, mas raciocinamos que também poderíamos otimizar eficientemente os fluxos de trabalho experimental, como a titulação de concentrações de anticorpos para experimentos CITE-seq. Na citometria de fluxo, os anticorpos são tipicamente executados individualmente sobre uma grande série de diluições para avaliar as relações sinal/ruído e identificar concentrações ótimas. Enquanto tais experimentos seriam extremamente proibitivos em termos de custo se executados como pistas individuais 10x Genomics, nós argumentamos que poderíamos multiplexar esses experimentos juntos usando Cell Hashing.

Por isso incubamos os PBMCs de diferentes doadores com uma série de diluição de concentrações de anticorpos variando em três ordens de magnitude (seção “Métodos”). As concentrações de anticorpos CITE-seq foram escalonadas entre as diferentes amostras para manter a quantidade total de anticorpos e oligo consistente em cada amostra. Após a desmultiplexação da amostra, examinamos as distribuições de ADT em todas as concentrações para cada anticorpo (exemplos na Fig. 3a-c) e avaliamos a relação sinal/ruído calculando um índice de coloração semelhante à métrica comumente usada para otimização da citometria de fluxo (Fig. 3d) (seção “Métodos”).

Fig. 3
figure3

Cell Hashing permite a otimização experimental eficiente e identificação de células de baixa qualidade. a-c Realizamos uma série de titulação para avaliar as concentrações ideais de coloração para um painel de anticorpos imunofenotípicos CITE-seq. Contagens normalizadas de ADT para CD8 (a), CD45RA (b), e CD4 (c) são representadas para as diferentes concentrações utilizadas por teste. d Curva de titulação representando o índice de coloração (SI; secção “Métodos”) para estes três anticorpos ao longo da série de titulação. A relação sinal/ruído para estes anticorpos começa a saturar em níveis semelhantes às concentrações de coloração recomendadas pelo fabricante típicas para anticorpos de citometria de fluxo. e Células com contagens baixas de UMI podem ser distinguidas do RNA ambiente usando classificações de HTO. Os códigos de barras classificados como “negativos” não se agrupam em grupos e provavelmente representam gotas “vazias” contendo apenas RNA ambiente

Todos os anticorpos apresentam apenas sinal de fundo nas condições de controle negativo e muito fraco sinal-ruído a 0,06 μg/teste. Observamos que a relação sinal/ruído para a maioria dos anticorpos começou a saturar dentro da faixa de concentração de 0,5 a 1 μg/teste, comparável às concentrações recomendadas para citometria de fluxo (Fig. 3d). Este experimento foi concebido como uma prova de conceito; um experimento de titulação ideal usaria células do mesmo doador para todas as condições e uma gama maior de concentrações, mas demonstra claramente como o Cell Hashing pode ser usado para otimizar rápida e eficientemente os fluxos de trabalho experimentais.

Cell Hashtags permitem a discriminação de células de baixa qualidade do RNA ambiente

Nossos hashtags de células podem discriminar células simples de duplos com base na clara expressão de um único HTO, e em seguida perguntamos se esta característica também poderia distinguir células de baixa qualidade do RNA ambiente. Se assim for, isso nos permitiria reduzir nosso “corte” UMI (previamente definido em 200) e permitiria a possibilidade de que certos códigos de barras representando RNA ambiente possam expressar mais UMI do que algumas células verdadeiras de um único HTO. A maioria dos fluxos de trabalho estabelece cortes rigorosos do UMI para excluir todos os RNA ambientais, enviesando os resultados do ScRNA-seq contra células com baixo conteúdo de RNA e provavelmente enviesando estimativas proporcionais do tipo de célula.

Indeed, quando consideramos 4344 códigos de barras contendo 50-200 UMI, recuperamos 1110 singlets adicionais baseados em classificações HTO, com 3108 códigos de barras caracterizados como negativos. Classificamos cada código de barras como uma de nossas 7 populações hematopoiéticas previamente determinadas (seção “Métodos”; Fig. 1F) e visualizamos os resultados em uma incorporação transcriptômica de tSNE, calculada independentemente para ambos os grupos “singlet” e “negativo”. Para os singlets previstos, os códigos de barras projetados para as populações B, NK, T e mielóide que foram consistentemente separados no tSNE, sugerindo que esses códigos de barras representam verdadeiras células únicas (Fig. 3e). Em contraste, os códigos de barras “negativos” não se separaram com base em sua classificação forçada, consistente com esses códigos de barras que refletem misturas ambientais de RNA que podem misturar múltiplas subpopulações. Concluímos, portanto, que ao fornecer uma leitura da identidade da amostra que é independente do transcriptoma, Cell Hashing pode ajudar a recuperar células de baixa qualidade e/ou células com muito baixo conteúdo de RNA que de outra forma podem ser difíceis de distinguir do RNA ambiente (Fig. 3f).

Towards a universal Cell Hashing antibody reagent

Para a nossa prova de princípio dos experimentos, usamos um pool de anticorpos direcionados contra marcadores de superfície imune altamente expressos (CD45, CD98, CD44, e CD11a). Para permitir a multiplexação de qualquer tipo de célula e amostra, decidimos redesenhar o nosso painel para visar marcadores de superfície mais ubíquamente expressos. O complexo MHC classe I (beta-2-microglobulina) e a subunidade sódio-potássio ATPase-subunidade (CD298) estão entre as proteínas de superfície mais amplamente expressas nos tecidos humanos. O uso de um pool de anticorpos direcionados contra ambas as proteínas nos permitiria multiplexar praticamente qualquer tipo de célula em um único experimento. Enquanto este manuscrito estava em revisão, a mesma combinação de anticorpos foi demonstrada por Hartmann e colegas como sendo um reagente universal de multiplexação para CyTOF . Os níveis de expressão extremamente elevados de ambos os marcadores deveriam permitir uma demultiplexação HTO robusta, mas em princípio poderia rotular as células com um número avassalador de oligoelementos poliA de cadeia única que poderiam competir com os mRNAs celulares poliadenilados, resultando em menor contagem de genes e/ou UMI por célula. Para investigar esta potencial competição, coramos células de Jurkat com uma série de diluições de anticorpos Cell Hashing, corremos uma pista de 10x Crómio de célula única 3′ v2 ao lado de uma pista com células não-colocadas, e sequenciamos as bibliotecas de transcriptomas resultantes. Os níveis de complexidade transcriptômica, como indicado pela relação entre leituras sequenciais e contagens UMI por célula, foram indistinguíveis de células não sequenciadas sobre todas as concentrações testadas de anticorpos Cell Hashing, não ilustrando nenhuma desvantagem quando amostras multiplexadas (arquivo adicional 1: Figura S5). Em conjunto, estes resultados demonstram como o Cell Hashing pode ser facilmente aplicado a praticamente qualquer amostra humana com reagentes comerciais prontamente disponíveis e sem perda de complexidade transcriptômica.

Articles

Deixe uma resposta

O seu endereço de email não será publicado.