Os critérios para inclusão de uma variável no modelo variam entre problemas e disciplinas. A abordagem comum à construção do modelo estatístico é a minimização das variáveis até encontrar o modelo mais parcimonioso que descreve os dados, o que também resulta em estabilidade numérica e generalizabilidade dos resultados. Alguns metodologistas sugerem a inclusão de todas as variáveis clínicas e outras relevantes no modelo, independentemente do seu significado, a fim de controlar a confusão. Esta abordagem, contudo, pode levar a estimativas numericamente instáveis e a grandes erros-padrão. Este trabalho é baseado na seleção proposital de variáveis em métodos de regressão (com foco específico em regressão logística neste trabalho) como proposto por Hosmer e Lemeshow .
É importante mencionar que com a rápida evolução da computação e da informação houve um crescimento no campo dos métodos e algoritmos de seleção de características. Alguns exemplos incluem a escalada em montanha, algoritmos gananciosos, eliminação recursiva de características, filtragem de associação univariada, e invólucro para trás/para a frente, para citar alguns exemplos. Estes métodos têm sido usados em bioinformática, diagnóstico clínico, e alguns são universais a múltiplas aplicações. Os algoritmos de escalada e gananciosos são técnicas de otimização matemática usadas em inteligência artificial, que funcionam bem em certos problemas, mas não conseguem produzir soluções ótimas para muitos outros. Métodos de filtragem, embrulho e eliminação recursiva de características têm sido usados em áreas como processamento de texto ou análise de matriz de expressão gênica. Embora estes sejam métodos de seleção poderosos que melhoraram o desempenho dos preditores, eles são frequentemente intensivos em termos computacionais. Eles são usados em grandes conjuntos de dados frequentemente com milhares de variáveis, introduzindo o problema da dimensionalidade e, como alguns outros métodos multivariados, têm potencial para sobreajustar os dados .
Métodos de seleção de variáveis transversais estão disponíveis em pacotes de software comerciais. Métodos comumente usados, que são os que estão em foco neste trabalho, são seleção para frente, eliminação para trás e seleção por etapas.
Na seleção para frente, a estatística do qui-quadrado de pontuação é computada para cada efeito não no modelo e examina a maior destas estatísticas. Se for significativo em algum nível de entrada, o efeito correspondente é adicionado ao modelo. Uma vez que um efeito é inserido no modelo, ele nunca é removido do modelo. O processo é repetido até que nenhum dos efeitos restantes atinja o nível de entrada especificado.
Na eliminação regressiva, são examinados os resultados do teste de Wald para parâmetros individuais. O efeito menos significativo que não satisfaça o nível de permanência no modelo é removido. Uma vez que um efeito é removido do modelo, ele permanece excluído. O processo é repetido até que nenhum outro efeito no modelo satisfaça o nível especificado para remoção.
A seleção por etapas é semelhante à seleção para frente, exceto que os efeitos já no modelo não necessariamente permanecem. Os efeitos são inseridos e removidos do modelo de tal forma que cada etapa de seleção para frente pode ser seguida por uma ou mais etapas de eliminação para trás. O processo de seleção por etapas termina se nenhum efeito adicional puder ser adicionado ao modelo ou se o efeito recém-entrado no modelo for o único efeito removido na eliminação posterior
O algoritmo de seleção proposital (PS) segue uma lógica ligeiramente diferente, como proposto por Hosmer e Lemeshow . Este método de seleção de variáveis não foi estudado ou comparado de forma sistemática com outros métodos de seleção estatística, com exceção de alguns exemplos numéricos.
Uma parte importante deste estudo foi o desenvolvimento e validação de uma macro SAS que automatiza o processo de seleção proposital. Detalhes sobre a macro e o link para a própria macro são fornecidos no apêndice. Como a macro foi escrita em SAS, nós comparamos seu desempenho com os procedimentos de seleção de variáveis SAS PROC LOGISTIC, nomeadamente FORWARD (FS), BACKWARD (BS), e STEPWISE (SS) .
Os objetivos deste trabalho são 1) avaliar sistematicamente o algoritmo de seleção proposital em um estudo de simulação, comparando-o com os procedimentos de seleção de variáveis acima mencionados, e 2) mostrar a aplicação do mesmo no conjunto de dados motivadores.
Seleção proposital de covariáveis
O processo de seleção proposital começa por uma análise univariada de cada variável. Qualquer variável que tenha um teste univariado significativo em algum nível arbitrário é selecionada como candidata para a análise multivariada. Baseamos isto no teste de Wald a partir da regressão logística e do ponto de corte do valor p de 0,25. Níveis mais tradicionais, como 0,05, podem falhar na identificação de variáveis conhecidas como importantes. No processo iterativo de seleção de variáveis, os covariáveis são removidos do modelo se não forem significativos e não forem confundidos. A significância é avaliada no nível 0,1 alfa e confundindo como uma mudança em qualquer estimativa de parâmetro restante maior que, digamos, 15% ou 20% em comparação com o modelo completo. Uma mudança na estimativa de um parâmetro acima do nível especificado indica que a variável excluída foi importante no sentido de fornecer um ajuste necessário para uma ou mais variáveis restantes no modelo. No final deste processo iterativo de eliminação, reajuste e verificação, o modelo contém covariantes e confundidores significativos. Neste ponto qualquer variável não selecionada para o modelo multivariado original é adicionada de volta, uma de cada vez, com covariantes e confundidores significativos retidos anteriormente. Este passo pode ser útil na identificação de variáveis que, por si só, não estão significativamente relacionadas com o resultado, mas dão uma contribuição importante na presença de outras variáveis. As que são significativas no nível 0,1 ou 0,15 são colocadas no modelo, e o modelo é reduzido iterativamente como antes, mas apenas para as variáveis que foram adicionadas adicionalmente. Ao final desta etapa final, o analista é deixado com o modelo preliminar de efeitos principais. Para mais detalhes sobre o processo de seleção proposital, consulte Hosmer e Lemeshow .
Simulações
Fizemos dois estudos de simulação para avaliar o desempenho do algoritmo de seleção proposital. Na primeira simulação começamos com a suposição de que temos 6 covariáveis igualmente importantes (X1, …, X6 tal que X j ~U(-6, 6) para j = 1, …, 6), três dos quais eram significativos e três não eram. Definimos β0 = -0.6, β1 = β2 = β3 = 0.122, e β4 = β5 = β6 = 0. Portanto, o verdadeiro logit que amostramos foi
Realizamos 1000 simulações para cada uma das 6 condições em que variamos o tamanho da amostra (n = 60, 120, 240, 360, 480, e 600). A medida sumária do desempenho do algoritmo foi a percentagem de vezes que cada procedimento de selecção de variáveis reteve apenas X1, X2, e X3 no modelo final. (Para a seleção do PS, o confounding foi definido para 20% e a inclusão não-candidata para 0,1, embora o confounding não tenha sido simulado nesta parte do estudo.)
Tabela 1 mostra a porcentagem de vezes que o modelo correto foi obtido para quatro procedimentos de seleção sob vários tamanhos de amostra. A retenção correta aumenta com o tamanho da amostra e é quase idêntica para PS, SS e BS. A seleção dos FS não funciona tão bem quanto as outras três, com exceção dos níveis mais baixos de tamanho de amostra.
Na segunda simulação, começamos com a mesma suposição, que os 6 covariáveis eram igualmente importantes, dois deles significativos, um que era mais confuso, e três que não eram significativos. Assumimos que X1 = Bernoulli (0,5), o confundidor X2~U(-6, 3) se X1 = 1 e X2~U(-3, 6) se X1 = 0, e X3 – X6~U(-6, 6). Criamos o confundidor X2 tornando a distribuição dessa variável dependente de X1. Definimos β0 = -0.6, β1 = 1.2, β2 = 0.1, β3 = 0.122, e β4 = β5 = β6 = 0. Portanto, o verdadeiro logit que amostramos foi
Realizamos 1000 simulações para cada uma das 24 condições em que variamos o tamanho da amostra (n = 60, 120, 240, 360, 480, e 600), confundindo (15% e 20%), e inclusão não-candidata (0,1 e 0,15). Da mesma forma, a medida sumária do desempenho do algoritmo foi a porcentagem de vezes que cada procedimento de seleção de variável reteve apenas X1, X2 e X3 no modelo final.
Tabela 2 mostra a porcentagem de vezes que o modelo correto foi obtido para quatro procedimentos de seleção sob 24 condições simuladas.
Aganhar, a proporção de modelos corretamente retidos aumenta com o tamanho da amostra para todos os métodos de seleção. Nos níveis mais baixos de tamanho de amostra nenhum procedimento tem um desempenho muito bom. O FS faz o melhor com as exceções quando a inclusão não-candidata é definida como 0,15, onde o PS tem melhor desempenho. Com as amostras maiores como 480 e 600, PS, SS e BS convergem para uma proporção próxima da retenção correta do modelo, enquanto FS tem um desempenho notavelmente pior. Com a confusão presente, PS retém uma proporção maior de modelos corretos para todos os seis tamanhos de amostra quando a confusão é definida em 15% ou 20% e a inclusão não-candidata em 0,15, em comparação com os outros três métodos. Nos outros cenários, PS retém uma proporção ligeiramente maior de modelos corretos do que os outros procedimentos de seleção de variáveis, principalmente para amostras na faixa 240-360,
Além das condições de simulação mencionadas, alteramos o coeficiente da variável de confusão X2, tornando-o mais significativo em 0,13, e menos significativo em 0,07. Mostramos os resultados para ambos os cenários com a confusão definida em 15% e inclusão não-candidata em 0,15,
Quando β2 = 0,13, a Tabela 3 mostra que PS, BS, e como o tamanho da amostra fica maior, SS tem um desempenho comparável, mantendo uma proporção similar de modelos corretos. Isto se deve principalmente ao fato de que X2 se torna significativo em uma proporção maior de simulações e é retido por esses procedimentos devido à sua significância e não efeito confundente. FS mais uma vez faz pior do que os três procedimentos de seleção mencionados anteriormente.
Quando β2 = 0,07, a Tabela 3 mostra que PS tem melhor desempenho em todos os tamanhos de amostra do que outros procedimentos de seleção de variáveis; entretanto, a proporção de modelos corretamente retidos é menor para todos os procedimentos. Isto é resultado do fato de que X2 torna-se não significativo em mais simulações e não é retido. A Tabela 3 também mostra como X2 é capturado por PS devido ao seu efeito de confusão que ainda está presente.