Los criterios de inclusión de una variable en el modelo varían según los problemas y las disciplinas. El enfoque común para la construcción de modelos estadísticos es la minimización de las variables hasta encontrar el modelo más parsimonioso que describa los datos, lo que también redunda en la estabilidad numérica y la generalizabilidad de los resultados. Algunos metodólogos sugieren la inclusión de todas las variables clínicas y otras relevantes en el modelo, independientemente de su importancia, para controlar la confusión. Sin embargo, este enfoque puede dar lugar a estimaciones numéricamente inestables y a grandes errores estándar. Este trabajo se basa en la selección intencionada de variables en los métodos de regresión (centrándose específicamente en la regresión logística en este trabajo), tal y como propusieron Hosmer y Lemeshow.
Es importante mencionar que con la rápida evolución de la informática y la información ha habido un crecimiento en el campo de los métodos y algoritmos de selección de características. Algunos ejemplos son el hill-climbing, los algoritmos codiciosos, la eliminación recursiva de rasgos, el filtrado de asociación univariante y el backward/forward wrapping, por nombrar algunos. Estos métodos se han utilizado en bioinformática y diagnóstico clínico, y algunos son universales para múltiples aplicaciones. Los algoritmos Hill-climbing y greedy son técnicas matemáticas de optimización utilizadas en la inteligencia artificial, que funcionan bien en ciertos problemas, pero no producen soluciones óptimas para muchos otros. Los métodos de filtrado, envoltura y eliminación recursiva de características se han utilizado en áreas como el procesamiento de textos o el análisis de matrices de expresión genética. Aunque se trata de potentes métodos de selección que han mejorado el rendimiento de los predictores, suelen ser intensivos en términos computacionales. Se utilizan en grandes conjuntos de datos, a menudo con miles de variables, lo que introduce el problema de la dimensionalidad y, al igual que otros métodos multivariantes, tienen el potencial de sobreajustar los datos.
Hay varios métodos de selección de variables disponibles en paquetes de software comerciales. Los métodos comúnmente utilizados, que son los que se centran en este documento, son la selección hacia delante, la eliminación hacia atrás y la selección por pasos.
En la selección hacia delante, se calcula el estadístico chi-cuadrado de puntuación para cada efecto que no está en el modelo y se examina el mayor de estos estadísticos. Si es significativo en algún nivel de entrada, el efecto correspondiente se añade al modelo. Una vez que un efecto se introduce en el modelo, nunca se elimina del mismo. El proceso se repite hasta que ninguno de los efectos restantes cumpla el nivel de entrada especificado.
En la eliminación hacia atrás, se examinan los resultados de la prueba de Wald para los parámetros individuales. Se elimina el efecto menos significativo que no cumple el nivel para permanecer en el modelo. Una vez que un efecto es eliminado del modelo, permanece excluido. El proceso se repite hasta que ningún otro efecto del modelo cumpla el nivel especificado para su eliminación.
La selección por pasos es similar a la selección hacia delante, salvo que los efectos que ya están en el modelo no permanecen necesariamente. Los efectos se introducen y se eliminan del modelo de forma que cada paso de selección hacia delante puede ir seguido de uno o más pasos de eliminación hacia atrás. El proceso de selección por pasos termina si no se puede añadir ningún otro efecto al modelo o si el efecto que se acaba de introducir en el modelo es el único efecto eliminado en la subsiguiente eliminación hacia atrás
El algoritmo de selección intencionada (PS) sigue una lógica ligeramente diferente, tal y como propusieron Hosmer y Lemeshow . Este método de selección de variables no se ha estudiado ni comparado de forma sistemática con otros métodos de selección estadística, a excepción de unos pocos ejemplos numéricos.
Una parte importante de este estudio fue el desarrollo y la validación de una macro de SAS que automatiza el proceso de selección intencionada. Los detalles sobre la macro y el enlace a la propia macro se proporcionan en el apéndice. Dado que la macro fue escrita en SAS, comparamos su rendimiento con los procedimientos de selección de variables de SAS PROC LOGISTIC, a saber, FORWARD (FS), BACKWARD (BS) y STEPWISE (SS) .
Los objetivos de este trabajo son 1) evaluar el algoritmo de selección intencionada de forma sistemática en un estudio de simulación comparándolo con los procedimientos de selección de variables mencionados anteriormente, y 2) mostrar la aplicación del mismo en el conjunto de datos motivador.
Selección intencionada de covariables
El proceso de selección intencionada comienza por un análisis univariante de cada variable. Cualquier variable que tenga una prueba univariante significativa a un nivel arbitrario se selecciona como candidata para el análisis multivariante. Nos basamos en la prueba de Wald de la regresión logística y el punto de corte del valor p de 0,25. Los niveles más tradicionales, como el 0,05, pueden fallar a la hora de identificar las variables que se sabe que son importantes. En el proceso iterativo de selección de variables, las covariables se eliminan del modelo si no son significativas y no son un factor de confusión. La significación se evalúa en el nivel alfa de 0,1 y la confusión como un cambio en cualquier estimación de parámetro restante mayor que, por ejemplo, el 15% o el 20% en comparación con el modelo completo. Un cambio en la estimación de un parámetro por encima del nivel especificado indica que la variable excluida era importante en el sentido de proporcionar un ajuste necesario para una o más de las variables restantes en el modelo. Al final de este proceso iterativo de eliminación, reajuste y verificación, el modelo contiene covariables y factores de confusión significativos. En este punto, cualquier variable no seleccionada para el modelo multivariante original se vuelve a añadir de una en una, con covariables y factores de confusión significativos retenidos anteriormente. Este paso puede ser útil para identificar las variables que, por sí mismas, no están significativamente relacionadas con el resultado, pero que contribuyen de forma importante en presencia de otras variables. Las que sean significativas al nivel 0,1 o 0,15 se introducen en el modelo, y éste se reduce iterativamente como antes pero sólo para las variables que se añadieron adicionalmente. Al final de este último paso, el analista se queda con el modelo preliminar de efectos principales. Para más detalles sobre el proceso de selección intencionada, consulte Hosmer y Lemeshow.
Simulaciones
Realizamos dos estudios de simulación para evaluar el rendimiento del algoritmo de selección intencionada. En la primera simulación comenzamos con el supuesto de que tenemos 6 covariables igualmente importantes (X1, …, X6 tales que X j ~U(-6, 6) para j = 1, …, 6), tres de las cuales eran significativas y tres que no lo eran. Fijamos β0 = -0,6, β1 = β2 = β3 = 0,122, y β4 = β5 = β6 = 0. Por lo tanto, el logit verdadero del que tomamos muestras fue
Llevamos a cabo 1000 ejecuciones de simulación para cada una de las 6 condiciones en las que variamos el tamaño de la muestra (n = 60, 120, 240, 360, 480 y 600). La medida resumida del rendimiento del algoritmo fue el porcentaje de veces que cada procedimiento de selección de variables retuvo sólo X1, X2 y X3 en el modelo final. (Para la selección de PS, la confusión se fijó en el 20% y la inclusión de no candidatos en el 0,1, aunque la confusión no se simuló en esta parte del estudio.)
La tabla 1 muestra el porcentaje de veces que se obtuvo el modelo correcto para cuatro procedimientos de selección bajo varios tamaños de muestra. La retención correcta aumenta con el tamaño de la muestra, y es casi idéntica para PS, SS y BS. La selección FS no se comporta tan bien como las otras tres, con la excepción de los niveles de tamaño de muestra más bajos.
En la segunda simulación, comenzamos con el mismo supuesto, que las 6 covariables eran igualmente importantes, dos de las cuales eran significativas, una que era un factor de confusión y tres que no eran significativas. Asumimos que X1 = Bernoulli (0,5), el factor de confusión X2~U(-6, 3) si X1 = 1 y X2~U(-3, 6) si X1 = 0, y X3 – X6~U(-6, 6). Creamos el factor de confusión X2 haciendo que la distribución de esa variable dependa de X1. Fijamos β0 = -0,6, β1 = 1,2, β2 = 0,1, β3 = 0,122, y β4 = β5 = β6 = 0. Por lo tanto, el verdadero logit del que tomamos muestras fue
Realizamos 1.000 ejecuciones de simulación para cada una de las 24 condiciones en las que variamos el tamaño de la muestra (n = 60, 120, 240, 360, 480 y 600), la confusión (15% y 20%) y la inclusión de no candidatos (0,1 y 0,15). Del mismo modo, la medida resumida del rendimiento del algoritmo fue el porcentaje de veces que cada procedimiento de selección de variables retuvo sólo X1, X2 y X3 en el modelo final.
La tabla 2 muestra el porcentaje de veces que se obtuvo el modelo correcto para cuatro procedimientos de selección bajo 24 condiciones simuladas.
De nuevo, la proporción de modelos retenidos correctamente aumenta con el tamaño de la muestra para todos los métodos de selección. En los niveles de tamaño de muestra más bajos, ningún procedimiento funciona muy bien. FS es el que mejor funciona, con la excepción de cuando la inclusión de no candidatos se fija en 0,15, donde PS funciona mejor. Con las muestras más grandes, como 480 y 600, PS, SS y BS convergen hacia una proporción cercana de retención de modelos correctos, mientras que FS lo hace notablemente peor. Con la presencia de factores de confusión, el PS retiene una mayor proporción de modelos correctos para los seis tamaños de muestra cuando los factores de confusión se fijan en el 15% o el 20% y la inclusión de no candidatos en el 0,15, en comparación con los otros tres métodos. En los demás escenarios, PS retiene una proporción ligeramente mayor de modelos correctos que los otros procedimientos de selección de variables, principalmente para las muestras en el rango 240-360.
Además de las condiciones de simulación mencionadas, manipulamos el coeficiente de la variable de confusión X2, haciéndolo más significativo a 0,13, y menos significativo a 0,07. Mostramos los resultados para ambos escenarios con la confusión fijada en el 15% y la inclusión de no candidatos en 0,15.
Cuando β2 = 0,13, la Tabla 3 muestra que PS, BS y, a medida que aumenta el tamaño de la muestra, SS se comportan de forma comparable, conservando una proporción similar de modelos correctos. Esto se debe principalmente al hecho de que X2 se vuelve significativo en una mayor proporción de simulaciones y es retenido por esos procedimientos debido a su importancia y no al efecto de confusión. De nuevo, FS lo hace peor que los tres procedimientos de selección mencionados anteriormente.
Cuando β2 = 0,07, la Tabla 3 muestra que PS se comporta mejor en todos los tamaños de muestra que otros procedimientos de selección de variables; sin embargo, la proporción de modelos retenidos correctamente es menor para todos los procedimientos. Esto es el resultado del hecho de que X2 se vuelve no significativo en más simulaciones y no se retiene. La Tabla 3 también muestra cómo X2 es recogida por PS debido a su efecto de confusión, que sigue estando presente.