Les critères d’inclusion d’une variable dans le modèle varient selon les problèmes et les disciplines. L’approche commune de la construction de modèles statistiques est la minimisation des variables jusqu’à ce que le modèle le plus parcimonieux qui décrit les données soit trouvé, ce qui entraîne également une stabilité numérique et une généralisation des résultats. Certains méthodologistes suggèrent d’inclure toutes les variables cliniques et autres variables pertinentes dans le modèle, quelle que soit leur importance, afin de contrôler les facteurs de confusion. Cette approche peut toutefois conduire à des estimations numériquement instables et à des erreurs standard importantes. Cet article est basé sur la sélection délibérée des variables dans les méthodes de régression (avec un accent particulier sur la régression logistique dans cet article) comme proposé par Hosmer et Lemeshow .
Il est important de mentionner qu’avec l’évolution rapide de l’informatique et de l’information, il y a eu une croissance dans le domaine des méthodes et des algorithmes de sélection des caractéristiques. Parmi les exemples, on peut citer l’escalade de collines, les algorithmes gloutons, l’élimination récursive des caractéristiques, le filtrage d’association univarié et l’enveloppement avant/arrière, pour n’en citer que quelques-uns. Ces méthodes ont été utilisées en bioinformatique, en diagnostic clinique, et certaines sont universelles à de multiples applications. Les algorithmes d’escalade et les algorithmes avides sont des techniques d’optimisation mathématique utilisées en intelligence artificielle, qui fonctionnent bien sur certains problèmes, mais ne produisent pas de solutions optimales pour de nombreux autres. Les méthodes de filtrage, d’enveloppement et d’élimination récursive des caractéristiques ont été utilisées dans des domaines tels que le traitement des textes ou l’analyse des réseaux d’expression génétique. Bien qu’il s’agisse de méthodes de sélection puissantes qui ont amélioré les performances des prédicteurs, elles sont souvent gourmandes en ressources informatiques. Elles sont utilisées sur de grands ensembles de données comportant souvent des milliers de variables, ce qui introduit le problème de la dimensionnalité et, comme certaines autres méthodes multivariées, ont le potentiel de surajuster les données .
Plusieurs méthodes de sélection de variables sont disponibles dans les progiciels commerciaux. Les méthodes couramment utilisées, qui sont celles sur lesquelles nous nous concentrons dans cet article, sont la sélection avant, l’élimination arrière et la sélection par étapes.
Dans la sélection avant, la statistique du chi carré de score est calculée pour chaque effet qui n’est pas dans le modèle et examine la plus grande de ces statistiques. Si elle est significative à un certain niveau d’entrée, l’effet correspondant est ajouté au modèle. Une fois qu’un effet est entré dans le modèle, il n’est jamais retiré du modèle. Le processus est répété jusqu’à ce qu’aucun des effets restants ne réponde au niveau d’entrée spécifié.
Dans l’élimination à rebours, les résultats du test de Wald pour les paramètres individuels sont examinés. L’effet le moins significatif qui ne satisfait pas au niveau pour rester dans le modèle est éliminé. Une fois qu’un effet est retiré du modèle, il reste exclu. Le processus est répété jusqu’à ce qu’aucun autre effet du modèle ne réponde au niveau spécifié pour le retrait.
La sélection par étapes est similaire à la sélection avant, sauf que les effets déjà dans le modèle ne restent pas nécessairement. Les effets sont introduits et retirés du modèle de telle sorte que chaque étape de sélection avant peut être suivie d’une ou plusieurs étapes d’élimination arrière. Le processus de sélection par étapes se termine si aucun autre effet ne peut être ajouté au modèle ou si l’effet qui vient d’être introduit dans le modèle est le seul effet supprimé lors de l’élimination arrière suivante
L’algorithme de sélection intentionnelle (PS) suit une logique légèrement différente, proposée par Hosmer et Lemeshow . Cette méthode de sélection des variables n’a pas été étudiée ou comparée de manière systématique à d’autres méthodes de sélection statistique, à l’exception de quelques exemples numériques.
Une partie importante de cette étude a été le développement et la validation d’une macro SAS qui automatise le processus de sélection intentionnelle. Des détails sur la macro et le lien vers la macro elle-même sont fournis en annexe. Comme la macro a été écrite en SAS, nous comparons sa performance avec les procédures de sélection de variables de SAS PROC LOGISTIC, à savoir FORWARD (FS), BACKWARD (BS) et STEPWISE (SS) .
Les objectifs de cet article sont 1) d’évaluer systématiquement l’algorithme de sélection intentionnelle dans une étude de simulation en le comparant aux procédures de sélection de variables mentionnées ci-dessus, et 2) de montrer son application sur l’ensemble de données de motivation.
Sélection intentionnelle des covariables
Le processus de sélection intentionnelle commence par une analyse univariée de chaque variable. Toute variable ayant un test univarié significatif à un certain niveau arbitraire est sélectionnée comme candidate pour l’analyse multivariée. Nous nous basons sur le test de Wald de la régression logistique et sur le seuil de la valeur p de 0,25. Des niveaux plus traditionnels tels que 0,05 peuvent échouer dans l’identification des variables connues pour être importantes . Dans le processus itératif de sélection des variables, les covariables sont retirées du modèle si elles sont non significatives et ne constituent pas un facteur de confusion. La significativité est évaluée au niveau alpha de 0,1 et la confusion comme un changement dans toute estimation de paramètre restante supérieure à, disons, 15 % ou 20 % par rapport au modèle complet. Un changement dans l’estimation d’un paramètre au-dessus du niveau spécifié indique que la variable exclue était importante dans le sens où elle fournissait un ajustement nécessaire pour une ou plusieurs des variables restantes dans le modèle. À la fin de ce processus itératif de suppression, de réajustement et de vérification, le modèle contient des covariables et des facteurs de confusion significatifs. À ce stade, toute variable non sélectionnée pour le modèle multivarié initial est réintroduite une par une, avec les covariables et les facteurs de confusion significatifs retenus précédemment. Cette étape peut être utile pour identifier les variables qui, par elles-mêmes, ne sont pas significativement liées au résultat mais qui apportent une contribution importante en présence d’autres variables. Toutes celles qui sont significatives au niveau 0,1 ou 0,15 sont intégrées au modèle, et le modèle est réduit de manière itérative comme précédemment, mais uniquement pour les variables qui ont été ajoutées. À la fin de cette dernière étape, l’analyste se retrouve avec le modèle préliminaire des effets principaux. Pour plus de détails sur le processus de sélection intentionnelle, reportez-vous à Hosmer et Lemeshow .
Simulations
Nous avons mené deux études de simulation pour évaluer les performances de l’algorithme de sélection intentionnelle. Dans la première simulation, nous avons commencé par supposer que nous avions 6 covariables d’importance égale (X1, …, X6 telles que X j ~U(-6, 6) pour j = 1, …, 6), dont trois étaient significatives et trois autres non. Nous avons fixé β0 = -0,6, β1 = β2 = β3 = 0,122, et β4 = β5 = β6 = 0. Par conséquent, le logit réel à partir duquel nous avons échantillonné était
Nous avons effectué 1000 simulations pour chacune des 6 conditions dans lesquelles nous avons fait varier la taille de l’échantillon (n = 60, 120, 240, 360, 480 et 600). La mesure sommaire de la performance de l’algorithme était le pourcentage de fois où chaque procédure de sélection de variables ne retenait que X1, X2 et X3 dans le modèle final. (Pour la sélection PS, la confusion a été fixée à 20% et l’inclusion des non-candidats à 0,1, même si la confusion n’a pas été simulée dans cette partie de l’étude.)
Le tableau 1 montre le pourcentage de fois où le modèle correct a été obtenu pour quatre procédures de sélection sous différentes tailles d’échantillon. La rétention correcte augmente avec la taille de l’échantillon, et elle est presque identique pour PS, SS, et BS. La sélection FS n’est pas aussi performante que les trois autres, à l’exception des niveaux de taille d’échantillon inférieurs.
Dans la deuxième simulation, nous avons commencé avec la même hypothèse, à savoir que les 6 covariables étaient d’importance égale, dont deux étaient significatives, une qui était un facteur de confusion et trois qui n’étaient pas significatives. Nous avons supposé que X1 = Bernoulli (0,5), le facteur de confusion X2~U(-6, 3) si X1 = 1 et X2~U(-3, 6) si X1 = 0, et X3 – X6~U(-6, 6). Nous avons créé le facteur de confusion X2 en rendant la distribution de cette variable dépendante de X1. Nous avons fixé β0 = -0,6, β1 = 1,2, β2 = 0,1, β3 = 0,122, et β4 = β5 = β6 = 0. Par conséquent, le logit réel à partir duquel nous avons échantillonné était
Nous avons effectué 1000 simulations pour chacune des 24 conditions dans lesquelles nous avons fait varier la taille de l’échantillon (n = 60, 120, 240, 360, 480 et 600), la confusion (15 % et 20 %) et l’inclusion des non-candidats (0,1 et 0,15). De même, la mesure sommaire de la performance de l’algorithme était le pourcentage de fois où chaque procédure de sélection de variables a retenu uniquement X1, X2 et X3 dans le modèle final.
Le tableau 2 montre le pourcentage de fois où le modèle correct a été obtenu pour quatre procédures de sélection dans 24 conditions simulées.
De nouveau, la proportion de modèles correctement retenus augmente avec la taille de l’échantillon pour toutes les méthodes de sélection. Aux niveaux inférieurs de la taille de l’échantillon, aucune procédure n’est très performante. FS fait le mieux, avec les exceptions lorsque l’inclusion des non-candidats est fixée à 0,15, où PS est plus performant. Avec des échantillons plus grands comme 480 et 600, PS, SS et BS convergent vers une proportion proche de rétention de modèles corrects, tandis que FS fait nettement moins bien. En présence de confusion, PS retient une plus grande proportion de modèles corrects pour les six tailles d’échantillon lorsque la confusion est fixée à 15 ou 20 % et l’inclusion de non-candidats à 0,15, par rapport aux trois autres méthodes. Dans les autres scénarios, PS conserve une proportion légèrement plus importante de modèles corrects que les autres procédures de sélection de variables, principalement pour les échantillons compris entre 240 et 360.
En plus des conditions de simulation mentionnées, nous avons altéré le coefficient de la variable de confusion X2, en le rendant plus significatif à 0,13, et moins significatif à 0,07. Nous montrons les résultats pour les deux scénarios avec la confusion fixée à 15% et l’inclusion des non-candidats à 0,15.
Lorsque β2 = 0,13, le tableau 3 montre que PS, BS et, à mesure que la taille de l’échantillon augmente, SS ont des performances comparables, conservant une proportion similaire de modèles corrects. Ceci est principalement dû au fait que X2 devient significatif dans une plus grande proportion de simulations et est retenu par ces procédures en raison de sa signification et non de son effet de confusion. FS à nouveau fait surtout moins bien que les trois procédures de sélection mentionnées précédemment.
Lorsque β2 = 0,07, le tableau 3 montre que PS fait mieux pour toutes les tailles d’échantillon que les autres procédures de sélection de variables ; cependant, la proportion de modèles correctement retenus est plus faible pour toutes les procédures. Ceci est le résultat du fait que X2 devient non significatif dans un plus grand nombre de simulations et n’est pas retenu. Le tableau 3 montre également comment X2 est capté par PS en raison de son effet confondant qui est toujours présent.