Die Kriterien für die Aufnahme einer Variable in das Modell variieren je nach Problemstellung und Disziplin. Der übliche Ansatz zur statistischen Modellbildung ist die Minimierung der Variablen, bis das einfachste Modell, das die Daten beschreibt, gefunden ist, was auch zur numerischen Stabilität und Verallgemeinerbarkeit der Ergebnisse führt. Einige Methodiker schlagen vor, alle klinischen und anderen relevanten Variablen unabhängig von ihrer Bedeutung in das Modell einzubeziehen, um Verwechslungen auszuschließen. Dieser Ansatz kann jedoch zu numerisch instabilen Schätzungen und großen Standardfehlern führen. Diese Arbeit basiert auf der gezielten Auswahl von Variablen in Regressionsmethoden (mit besonderem Schwerpunkt auf der logistischen Regression in dieser Arbeit), wie sie von Hosmer und Lemeshow vorgeschlagen wurde.
Es ist wichtig zu erwähnen, dass mit der rasanten Entwicklung der Computer- und Informationstechnologie das Feld der Methoden und Algorithmen zur Merkmalsauswahl gewachsen ist. Einige Beispiele sind Hill-Climbing, Greedy-Algorithmen, rekursive Merkmalseliminierung, univariate Assoziationsfilterung und Backward/Forward-Wrapping, um nur einige zu nennen. Diese Methoden wurden in der Bioinformatik und in der klinischen Diagnostik eingesetzt, und einige sind universell für mehrere Anwendungen geeignet. Hill-Climbing- und Greedy-Algorithmen sind mathematische Optimierungstechniken, die in der künstlichen Intelligenz eingesetzt werden und bei bestimmten Problemen gut funktionieren, bei vielen anderen aber keine optimalen Lösungen liefern. Filter-, Wrapping- und rekursive Methoden zur Eliminierung von Merkmalen wurden in Bereichen wie der Textverarbeitung oder der Analyse von Genexpressionsarrays eingesetzt. Dies sind zwar leistungsstarke Auswahlmethoden, die die Leistung von Prädiktoren verbessert haben, aber sie sind oft rechenintensiv. Sie werden bei großen Datensätzen mit oft Tausenden von Variablen eingesetzt, was das Problem der Dimensionalität mit sich bringt, und wie bei einigen anderen multivariaten Methoden besteht die Gefahr, dass die Daten übermäßig angepasst werden.
In kommerziellen Softwarepaketen sind verschiedene Methoden zur Variablenauswahl verfügbar. Häufig verwendete Methoden, die in dieser Arbeit im Mittelpunkt stehen, sind die Vorwärtsselektion, die Rückwärtselimination und die schrittweise Selektion.
Bei der Vorwärtsselektion wird die Chi-Quadrat-Statistik für jeden Effekt, der nicht im Modell enthalten ist, berechnet und die größte dieser Statistiken untersucht. Wenn sie auf einer bestimmten Einstiegsebene signifikant ist, wird der entsprechende Effekt dem Modell hinzugefügt. Sobald ein Effekt in das Modell aufgenommen wurde, wird er nie wieder aus dem Modell entfernt. Der Vorgang wird so lange wiederholt, bis keiner der verbleibenden Effekte das angegebene Einstiegsniveau erfüllt.
Bei der Rückwärtselimination werden die Ergebnisse des Wald-Tests für einzelne Parameter untersucht. Der am wenigsten signifikante Effekt, der das Niveau für den Verbleib im Modell nicht erfüllt, wird entfernt. Sobald ein Effekt aus dem Modell entfernt wurde, bleibt er ausgeschlossen. Der Prozess wird so lange wiederholt, bis kein anderer Effekt im Modell das angegebene Niveau für die Entfernung erfüllt.
Die schrittweise Auswahl ähnelt der Vorwärtsauswahl, mit dem Unterschied, dass Effekte, die bereits im Modell sind, nicht notwendigerweise verbleiben. Effekte werden so in das Modell aufgenommen und aus ihm entfernt, dass auf jeden Vorwärtsselektionsschritt ein oder mehrere Rückwärtseliminationsschritte folgen können. Der schrittweise Selektionsprozess endet, wenn kein weiterer Effekt in das Modell aufgenommen werden kann oder wenn der gerade in das Modell aufgenommene Effekt der einzige ist, der bei der anschließenden rückwärtigen Eliminierung entfernt wird
Der Algorithmus der gezielten Auswahl (PS) folgt einer etwas anderen Logik, wie sie von Hosmer und Lemeshow vorgeschlagen wurde. Diese Methode der Variablenauswahl wurde nicht systematisch untersucht oder mit anderen statistischen Auswahlmethoden verglichen, mit Ausnahme einiger weniger numerischer Beispiele.
Ein wichtiger Teil dieser Studie war die Entwicklung und Validierung eines SAS-Makros, das den Prozess der gezielten Auswahl automatisiert. Einzelheiten zu diesem Makro und der Link zum Makro selbst sind im Anhang zu finden. Da das Makro in SAS geschrieben wurde, vergleichen wir seine Leistung mit SAS PROC LOGISTIC-Variablenauswahlverfahren, nämlich FORWARD (FS), BACKWARD (BS) und STEPWISE (SS) .
Die Ziele dieser Arbeit sind 1) die systematische Evaluierung des zielgerichteten Auswahlalgorithmus in einer Simulationsstudie durch den Vergleich mit den oben genannten Variablenauswahlverfahren und 2) die Darstellung der Anwendung auf den motivierenden Datensatz.
Zielgerichtete Auswahl von Kovariaten
Der zielgerichtete Auswahlprozess beginnt mit einer univariaten Analyse jeder Variable. Jede Variable, die einen signifikanten univariaten Test auf einem beliebigen Niveau aufweist, wird als Kandidat für die multivariate Analyse ausgewählt. Wir stützen uns dabei auf den Wald-Test aus der logistischen Regression und einen p-Wert-Grenzwert von 0,25. Traditionellere Werte wie 0,05 können bei der Identifizierung von Variablen, die als wichtig bekannt sind, versagen. In dem iterativen Prozess der Variablenauswahl werden Kovariaten aus dem Modell entfernt, wenn sie nicht signifikant sind und keine Störfaktoren darstellen. Die Signifikanz wird auf dem Alpha-Niveau von 0,1 bewertet, und als Störfaktor gilt eine Veränderung der verbleibenden Parameterschätzung von mehr als 15 % oder 20 % im Vergleich zum vollständigen Modell. Eine Änderung einer Parameterschätzung oberhalb des angegebenen Niveaus zeigt an, dass die ausgeschlossene Variable in dem Sinne wichtig war, dass sie eine notwendige Anpassung für eine oder mehrere der im Modell verbleibenden Variablen darstellt. Am Ende dieses iterativen Prozesses des Löschens, Neuanpassens und Überprüfens enthält das Modell signifikante Kovariaten und Störfaktoren. Zu diesem Zeitpunkt wird jede Variable, die nicht für das ursprüngliche multivariate Modell ausgewählt wurde, einzeln wieder hinzugefügt, wobei signifikante Kovariaten und Störfaktoren beibehalten werden. Dieser Schritt kann bei der Identifizierung von Variablen hilfreich sein, die für sich genommen nicht signifikant mit dem Ergebnis verbunden sind, aber in Verbindung mit anderen Variablen einen wichtigen Beitrag leisten. Alle Variablen, die auf dem 0,1- oder 0,15-Niveau signifikant sind, werden in das Modell aufgenommen, und das Modell wird wie zuvor iterativ reduziert, jedoch nur für die zusätzlich hinzugefügten Variablen. Am Ende dieses letzten Schrittes bleibt dem Analysten das vorläufige Haupteffektmodell. Weitere Einzelheiten zum Prozess der gezielten Auswahl finden Sie bei Hosmer und Lemeshow.
Simulationen
Wir haben zwei Simulationsstudien durchgeführt, um die Leistung des Algorithmus für die gezielte Auswahl zu bewerten. In der ersten Simulation begannen wir mit der Annahme, dass wir 6 gleich wichtige Kovariaten haben (X1, …, X6, so dass X j ~U(-6, 6) für j = 1, …, 6), von denen drei signifikant und drei nicht signifikant waren. Wir setzten β0 = -0,6, β1 = β2 = β3 = 0,122 und β4 = β5 = β6 = 0. Der wahre Logit, aus dem wir eine Stichprobe zogen, war also
Wir führten 1000 Simulationsläufe für jede der 6 Bedingungen durch, in denen wir den Stichprobenumfang variierten (n = 60, 120, 240, 360, 480 und 600). Das zusammenfassende Maß für die Leistung des Algorithmus war der Prozentsatz der Fälle, in denen jedes Variablenauswahlverfahren nur X1, X2 und X3 im endgültigen Modell beibehielt. (Für die PS-Auswahl wurde die Verwechslungsgefahr auf 20 % und der Einschluss von Nicht-Kandidaten auf 0,1 gesetzt, obwohl die Verwechslungsgefahr in diesem Teil der Studie nicht simuliert wurde.)
Tabelle 1 zeigt den Prozentsatz der Fälle, in denen das richtige Modell für vier Auswahlverfahren bei verschiedenen Stichprobengrößen erhalten wurde. Die korrekte Beibehaltung nimmt mit dem Stichprobenumfang zu und ist für PS, SS und BS fast identisch. Die FS-Auswahl schneidet nicht so gut ab wie die anderen drei, mit Ausnahme von niedrigeren Stichprobengrößen.
In der zweiten Simulation begannen wir mit der gleichen Annahme, dass die 6 Kovariaten gleich wichtig waren, von denen zwei signifikant waren, eine ein Confounder war und drei nicht signifikant waren. Wir nahmen an, dass X1 = Bernoulli (0,5), der Verursacher X2~U(-6, 3), wenn X1 = 1 und X2~U(-3, 6), wenn X1 = 0, und X3 – X6~U(-6, 6). Wir haben den Verursacher X2 geschaffen, indem wir die Verteilung dieser Variable von X1 abhängig gemacht haben. Wir setzen β0 = -0.6, β1 = 1.2, β2 = 0.1, β3 = 0.122, und β4 = β5 = β6 = 0. Daher war der wahre Logit, aus dem wir eine Stichprobe zogen,
Wir führten 1000 Simulationsläufe für jede der 24 Bedingungen durch, in denen wir den Stichprobenumfang (n = 60, 120, 240, 360, 480 und 600), das Confounding (15 % und 20 %) und die Einbeziehung von Nicht-Kandidaten (0,1 und 0,15) variierten. In ähnlicher Weise war das zusammenfassende Maß für die Leistung des Algorithmus der Prozentsatz der Fälle, in denen jedes Variablenauswahlverfahren nur X1, X2 und X3 im endgültigen Modell beibehielt.
Tabelle 2 zeigt den Prozentsatz der Fälle, in denen das richtige Modell für vier Auswahlverfahren unter 24 simulierten Bedingungen erhalten wurde.
Auch hier steigt der Anteil der korrekt beibehaltenen Modelle mit dem Stichprobenumfang für alle Auswahlverfahren. Bei den niedrigeren Stichprobenumfängen schneidet kein Verfahren sehr gut ab. FS schneidet am besten ab, mit der Ausnahme, dass PS besser abschneidet, wenn der Einschluss von Nicht-Kandidaten auf 0,15 gesetzt wird. Bei größeren Stichproben wie 480 und 600 konvergieren PS, SS und BS zu einem annähernd gleichen Anteil an korrekter Modellbeibehaltung, während FS deutlich schlechter abschneidet. Bei vorhandenem Confounding behält PS bei allen sechs Stichprobengrößen einen größeren Anteil korrekter Modelle bei, wenn Confounding auf 15 % oder 20 % und Non-Candidate Inclusion auf 0,15 gesetzt wird, als die anderen drei Methoden. In den anderen Szenarien behält PS einen etwas größeren Anteil an korrekten Modellen als die anderen Variablenauswahlverfahren, hauptsächlich für Stichproben im Bereich 240-360.
Zusätzlich zu den genannten Simulationsbedingungen haben wir den Koeffizienten der Störvariable X2 manipuliert, indem wir ihn mit 0,13 signifikanter und mit 0,07 weniger signifikant gemacht haben. Wir zeigen die Ergebnisse für beide Szenarien, wobei die Störvariable auf 15 % und der Einschluss von Nicht-Kandidaten auf 0,15 gesetzt wurde.
Wenn β2 = 0,13 ist, zeigt Tabelle 3, dass PS, BS und, mit zunehmender Stichprobengröße, SS vergleichbare Leistungen erbringen und einen ähnlichen Anteil an korrekten Modellen beibehalten. Dies ist in erster Linie auf die Tatsache zurückzuführen, dass X2 in einem größeren Anteil der Simulationen signifikant wird und von diesen Verfahren aufgrund seiner Signifikanz und nicht wegen seines Störungseffekts beibehalten wird. FS schneidet wiederum meist schlechter ab als die drei zuvor genannten Auswahlverfahren.
Wenn β2 = 0,07 ist, zeigt Tabelle 3, dass PS über alle Stichprobengrößen hinweg besser abschneidet als die anderen Variablenauswahlverfahren; allerdings ist der Anteil der korrekt beibehaltenen Modelle bei allen Verfahren geringer. Dies ist auf die Tatsache zurückzuführen, dass X2 in mehr Simulationen nicht signifikant wird und nicht beibehalten wird. Tabelle 3 zeigt auch, wie X2 von PS aufgrund seines immer noch vorhandenen Störungseffekts aufgefangen wird.