De criteria voor het opnemen van een variabele in het model verschillen per probleem en per discipline. De gangbare benadering van het bouwen van statistische modellen is het minimaliseren van variabelen totdat het meest parsimonieuze model is gevonden dat de gegevens beschrijft, hetgeen ook resulteert in numerieke stabiliteit en generaliseerbaarheid van de resultaten. Sommige methodologen stellen voor alle klinische en andere relevante variabelen in het model op te nemen, ongeacht hun significantie, om te controleren op verwarring. Deze aanpak kan echter leiden tot numeriek onstabiele schattingen en grote standaardfouten. Dit artikel is gebaseerd op de doelgerichte selectie van variabelen in regressiemethoden (met specifieke aandacht voor logistische regressie in dit artikel) zoals voorgesteld door Hosmer en Lemeshow.
Het is belangrijk te vermelden dat met de snelle evolutie op het gebied van informatica en informatie er een groei is geweest op het gebied van methoden en algoritmen voor selectie van kenmerken. Enkele voorbeelden zijn hill-climbing, greedy algoritmen, recursieve feature elimination, univariate associatie filtering, en backward/forward wrapping, om er maar een paar te noemen. Deze methoden zijn gebruikt in de bio-informatica en de klinische diagnostiek, en sommige zijn universeel voor meerdere toepassingen. Hill-climbing en greedy algoritmen zijn wiskundige optimalisatietechnieken die in de kunstmatige intelligentie worden gebruikt en die voor bepaalde problemen goed werken, maar voor vele andere geen optimale oplossingen opleveren. Filtering, wrapping en recursieve feature elimination methoden zijn gebruikt op gebieden als tekstverwerking of genexpressie array-analyse. Hoewel dit krachtige selectiemethoden zijn die de prestaties van voorspellers hebben verbeterd, zijn zij vaak rekenintensief. Zij worden gebruikt op grote datasets, vaak met duizenden variabelen, waardoor het dimensionaliteitsprobleem wordt geïntroduceerd, en net als sommige andere multivariate methoden hebben zij het potentieel om de gegevens te over-fitten. Veelgebruikte methoden, waarop in dit artikel de nadruk wordt gelegd, zijn voorwaartse selectie, achterwaartse eliminatie en stapsgewijze selectie.
Bij voorwaartse selectie wordt de score chi-kwadraat statistiek berekend voor elk effect dat niet in het model voorkomt en wordt de grootste van deze statistiek onderzocht. Als deze significant is op een bepaald ingangsniveau, wordt het overeenkomstige effect aan het model toegevoegd. Zodra een effect in het model is opgenomen, wordt het nooit meer uit het model verwijderd. Dit proces wordt herhaald totdat geen van de overblijvende effecten meer aan het gespecificeerde ingangsniveau voldoet.
Bij achterwaartse eliminatie worden de resultaten van de Wald-toets voor afzonderlijke parameters onderzocht. Het minst significante effect dat niet voldoet aan het niveau om in het model te blijven, wordt verwijderd. Zodra een effect uit het model is verwijderd, blijft het uitgesloten. Dit proces wordt herhaald totdat geen enkel ander effect in het model voldoet aan het gespecificeerde niveau voor verwijdering.
De stapsgewijze selectie is vergelijkbaar met de voorwaartse selectie, behalve dat effecten die al in het model zitten, niet noodzakelijkerwijs blijven. Effecten worden ingevoerd in en verwijderd uit het model op zodanige wijze dat elke voorwaartse selectiestap kan worden gevolgd door een of meer achterwaartse eliminatiestappen. Het stapsgewijze selectieproces eindigt als geen effect meer aan het model kan worden toegevoegd of als het zojuist in het model ingevoerde effect het enige effect is dat bij de daaropvolgende achterwaartse eliminatie wordt verwijderd
Het doelgerichte selectiealgoritme (PS) volgt een enigszins andere logica, zoals voorgesteld door Hosmer en Lemeshow . Deze methode van variabelenselectie is niet systematisch bestudeerd of vergeleken met andere statistische selectiemethoden, met uitzondering van een paar numerieke voorbeelden.
Een belangrijk onderdeel van deze studie was de ontwikkeling en validatie van een SAS-macro die het doelgerichte selectieproces automatiseert. Details over de macro en de link naar de macro zelf zijn te vinden in de bijlage. Aangezien de macro in SAS is geschreven, vergelijken we de prestaties ervan met SAS PROC LOGISTIC-variabele-selectieprocedures, namelijk FORWARD (FS), BACKWARD (BS), en STEPWISE (SS) .
De doelstellingen van dit artikel zijn 1) het algoritme voor doelgerichte selectie systematisch te evalueren in een simulatiestudie door het te vergelijken met de bovengenoemde procedures voor variabelenselectie, en 2) de toepassing ervan te laten zien op de motiverende dataset.
Doelgerichte selectie van covariaten
Het doelgerichte selectieproces begint met een univariate analyse van elke variabele. Elke variabele met een significante univariate test op een willekeurig niveau wordt geselecteerd als een kandidaat voor de multivariate analyse. Wij baseren ons hierbij op de Wald test van logistische regressie en een p-waarde afkappunt van 0,25. Meer traditionele niveaus zoals 0,05 kunnen falen bij het identificeren van variabelen waarvan bekend is dat zij belangrijk zijn. In het iteratieve proces van variabelenselectie worden covariaten uit het model verwijderd indien zij niet-significant zijn en geen confounder zijn. Significantie wordt geëvalueerd op het alfa-niveau van 0,1 en confounding als een verandering in een overblijvende parameterschatting van meer dan, zeg, 15% of 20% ten opzichte van het volledige model. Een verandering in een parameterschatting boven het gespecificeerde niveau geeft aan dat de uitgesloten variabele belangrijk was in de zin dat zij een noodzakelijke correctie aanbracht voor één of meer van de variabelen die in het model overbleven. Aan het eind van dit iteratieve proces van schrappen, opnieuw aanpassen en verifiëren bevat het model significante covariaten en confounders. Op dat moment worden alle variabelen die niet voor het oorspronkelijke multivariate model werden geselecteerd, één voor één opnieuw toegevoegd, met de significante covariaten en confounders die eerder werden behouden. Deze stap kan nuttig zijn om variabelen te identificeren die op zichzelf geen significant verband met de uitkomst hebben, maar die in aanwezigheid van andere variabelen een belangrijke bijdrage leveren. Alle variabelen die significant zijn op 0,1- of 0,15-niveau worden in het model opgenomen, en het model wordt iteratief verkleind zoals voorheen, maar alleen voor de variabelen die extra werden toegevoegd. Aan het eind van deze laatste stap beschikt de analist over het voorlopige hoofdeffectenmodel. Voor meer details over het doelgerichte selectieproces wordt verwezen naar Hosmer en Lemeshow.
Simulaties
Wij hebben twee simulatiestudies uitgevoerd om de prestaties van het doelgerichte selectiealgoritme te evalueren. In de eerste simulatie gingen we uit van de veronderstelling dat we 6 even belangrijke covariaten hebben (X1, …, X6 zodanig dat X j ~U(-6, 6) voor j = 1, …, 6), waarvan er drie significant waren en drie niet. We stelden β0 = -0,6, β1 = β2 = β3 = 0,122, en β4 = β5 = β6 = 0. De ware logit waaruit we stalen was dus
We voerden 1000 simulatieruns uit voor elk van de 6 condities waarin we de steekproefgrootte varieerden (n = 60, 120, 240, 360, 480, en 600). De samenvattende maat voor de algoritmeprestatie was het percentage keren dat elke variabelenselectieprocedure alleen X1, X2 en X3 in het uiteindelijke model behield. (Voor PS-selectie werd confounding ingesteld op 20% en non-candidate inclusion op 0,1, hoewel confounding in dit deel van de studie niet werd gesimuleerd.)
Tabel 1 toont het percentage keren dat het juiste model werd verkregen voor vier selectieprocedures bij verschillende steekproefgroottes. De correcte retentie neemt toe met de steekproefgrootte, en is bijna identiek voor PS, SS en BS. FS-selectie presteert niet zo goed als de andere drie, behalve bij lagere steekproefgroottes.
In de tweede simulatie gingen we uit van dezelfde veronderstelling, namelijk dat de 6 covariaten even belangrijk waren, waarvan er twee significant waren, één een confounder was, en drie niet significant waren. We namen aan dat X1 = Bernoulli (0.5), de confounder X2~U(-6, 3) als X1 = 1 en X2~U(-3, 6) als X1 = 0, en X3 – X6~U(-6, 6). We creëerden de confounder X2 door de verdeling van die variabele afhankelijk te maken van X1. We stellen β0 = -0,6, β1 = 1,2, β2 = 0,1, β3 = 0,122, en β4 = β5 = β6 = 0. Daarom was de ware logit waaruit we hebben gekozen
We hebben 1000 simulatieruns uitgevoerd voor elk van de 24 condities waarin we de steekproefgrootte (n = 60, 120, 240, 360, 480 en 600), de confounding (15% en 20%) en de inclusie van niet-kandidaten (0,1 en 0,15) hebben gevarieerd. Op dezelfde manier was de samenvattende maatstaf voor de algoritmeprestaties het percentage keren dat elke variabelenselectieprocedure alleen X1, X2 en X3 in het uiteindelijke model behield.
Tabel 2 toont het percentage keren dat het juiste model werd verkregen voor vier selectieprocedures onder 24 gesimuleerde omstandigheden.
Opnieuw neemt het percentage correct behouden modellen toe met de steekproefgrootte voor alle selectiemethoden. Bij de lagere steekproefgroottes presteert geen enkele procedure erg goed. FS doet het het beste, behalve wanneer de inclusie van niet-kandidaten op 0,15 wordt gesteld, waar PS beter presteert. Bij grotere steekproeven, zoals 480 en 600, convergeren PS, SS en BS naar een dicht bij elkaar liggend aandeel correcte modellen, terwijl FS het aanzienlijk slechter doet. Als er verwarring optreedt, behoudt PS een groter aandeel correcte modellen voor alle zes steekproefgroottes wanneer de verwarring op 15% of 20% wordt gesteld en de opname van niet-kandidaten op 0,15, vergeleken met de andere drie methoden. In de andere scenario’s behoudt PS een iets groter aandeel correcte modellen dan de andere procedures voor variabelenselectie, voornamelijk voor steekproeven in het bereik 240-360.
Naast de genoemde simulatievoorwaarden hebben we geknoeid met de coëfficiënt van de verwarrende variabele X2, door deze significanter te maken op 0,13, en minder significant op 0,07. We tonen de resultaten voor beide scenario’s met een verwarring van 15% en een niet-kandidaat-inclusie van 0,15.
Wanneer β2 = 0,13, toont Tabel 3 dat PS, BS, en naarmate de steekproefgrootte groter wordt, SS vergelijkbaar presteren, met een vergelijkbaar aandeel correcte modellen. Dit is hoofdzakelijk te wijten aan het feit dat X2 significant wordt in een groter deel van de simulaties en door die procedures wordt behouden wegens zijn significantie en niet wegens zijn verwarrend effect. FS doet het opnieuw meestal slechter dan de drie eerder genoemde selectieprocedures.
Wanneer β2 = 0,07, blijkt uit tabel 3 dat PS bij alle steekproefgroottes beter presteert dan de andere procedures voor variabelenselectie; het percentage correct weerhouden modellen is echter lager voor alle procedures. Dit is een gevolg van het feit dat X2 in meer simulaties niet-significant wordt en niet wordt weerhouden. Tabel 3 laat ook zien hoe X2 door PS wordt opgepikt vanwege het confounding effect dat nog steeds aanwezig is.