Kriterierna för att inkludera en variabel i modellen varierar mellan olika problem och discipliner. Det vanliga tillvägagångssättet för att bygga statistiska modeller är minimering av variabler tills den mest sparsmakade modellen som beskriver data hittas, vilket också resulterar i numerisk stabilitet och generaliserbarhet av resultaten. Vissa metodologer föreslår att alla kliniska och andra relevanta variabler inkluderas i modellen oberoende av deras betydelse för att kontrollera förväxlingsfaktorer. Detta tillvägagångssätt kan dock leda till numeriskt instabila skattningar och stora standardfel. Denna uppsats bygger på det målmedvetna urvalet av variabler i regressionsmetoder (med särskilt fokus på logistisk regression i denna uppsats) enligt Hosmer och Lemeshow .
Det är viktigt att nämna att i och med den snabba dator- och informationsutvecklingen har det skett en tillväxt inom området för metoder och algoritmer för funktionsurval. Några exempel är hill-climbing, greedy-algoritmer, rekursiv eliminering av funktioner, univariat associationsfiltrering och backward/forward wrapping, för att nämna några. Dessa metoder har använts inom bioinformatik och klinisk diagnostik, och vissa är universella för flera tillämpningar. Hill-climbing- och greedy-algoritmer är matematiska optimeringstekniker som används inom artificiell intelligens och som fungerar bra för vissa problem, men som inte ger optimala lösningar för många andra . Metoder för filtrering, omslag och rekursiv eliminering av funktioner har använts inom områden som textbearbetning eller analys av genuttrycksarrayer. Även om detta är kraftfulla urvalsmetoder som har förbättrat förutsägarnas prestanda är de ofta beräkningsintensiva. De används på stora datamängder, ofta med tusentals variabler, vilket introducerar problemet med dimensionalitet och liksom vissa andra multivariata metoder har potential att överanpassa data.
Flera metoder för val av variabler finns tillgängliga i kommersiella programvarupaket. Vanligt förekommande metoder, som är de som fokuseras i denna artikel, är framåtriktad selektion, bakåtriktad eliminering och stegvis selektion.
I framåtriktad selektion beräknas score chi-square-statistiken för varje effekt som inte finns med i modellen och undersöker den största av dessa statistiska värden. Om den är signifikant på någon ingångsnivå läggs motsvarande effekt till i modellen. När en effekt väl har lagts in i modellen tas den aldrig bort från modellen. Processen upprepas tills ingen av de återstående effekterna uppfyller den angivna nivån för inträde.
I backward elimination undersöks resultaten av Wald-testet för enskilda parametrar. Den minst signifikanta effekten som inte uppfyller nivån för att stanna kvar i modellen tas bort. När en effekt väl har tagits bort från modellen förblir den utesluten. Processen upprepas tills ingen annan effekt i modellen uppfyller den angivna nivån för avlägsnande.
Det stegvisa urvalet liknar det framåtriktade urvalet förutom att effekter som redan finns i modellen inte nödvändigtvis kvarstår. Effekter förs in i och tas bort från modellen på ett sådant sätt att varje steg i det framåtriktade urvalet kan följas av ett eller flera steg i det bakåtriktade elimineringen. Det stegvisa urvalet avslutas om ingen ytterligare effekt kan läggas till i modellen eller om den effekt som just införts i modellen är den enda effekt som tas bort i den efterföljande bakåtriktade elimineringen
Algoritmen för målinriktat urval (PS) följer en något annorlunda logik som föreslås av Hosmer och Lemeshow . Denna metod för val av variabler har inte studerats eller jämförts på ett systematiskt sätt med andra statistiska urvalsmetoder, med undantag för några få numeriska exempel.
En viktig del av den här studien var utvecklingen och valideringen av ett SAS-makro som automatiserar den ändamålsenliga urvalsprocessen. Detaljer om makrot och länken till själva makrot finns i bilagan. Eftersom makrot skrevs i SAS jämför vi dess prestanda med SAS PROC LOGISTIC förfaranden för val av variabler, nämligen FORWARD (FS), BACKWARD (BS) och STEPWISE (SS) .
Målen med denna artikel är 1) att systematiskt utvärdera algoritmen för målinriktat urval i en simuleringsstudie genom att jämföra den med de ovan nämnda förfarandena för val av variabler, och 2) att visa hur den tillämpas på den motiverande datamängden.
Syfteinriktat urval av kovariater
Det målinriktade urvalet inleds med en univariatanalys av varje variabel. Varje variabel som har ett signifikant univariat test på någon godtycklig nivå väljs ut som en kandidat för den multivariata analysen. Vi baserar detta på Wald-testet från logistisk regression och p-värdesgränsen 0,25. Mer traditionella nivåer som 0,05 kan misslyckas med att identifiera variabler som är kända för att vara viktiga . I den iterativa processen för val av variabler avlägsnas kovariater från modellen om de är icke-signifikanta och inte är en störande faktor. Signifikans bedöms på alfa-nivån 0,1 och förväxling som en förändring av en återstående parameteruppskattning som är större än t.ex. 15 % eller 20 % jämfört med den fullständiga modellen. En förändring av en parameteruppskattning över den angivna nivån indikerar att den uteslutna variabeln var viktig i den bemärkelsen att den gav en nödvändig justering för en eller flera av de variabler som återstår i modellen. I slutet av denna iterativa process med borttagning, omanpassning och kontroll innehåller modellen viktiga kovariater och confounders. Vid denna tidpunkt läggs alla variabler som inte valts ut i den ursprungliga multivariata modellen till igen, en i taget, med de betydande kovariater och confounders som behållits tidigare. Detta steg kan vara till hjälp för att identifiera variabler som i sig själva inte är signifikant relaterade till utfallet, men som ger ett viktigt bidrag i närvaro av andra variabler. Alla som är signifikanta på 0,1 eller 0,15-nivån tas med i modellen, och modellen reduceras iterativt på samma sätt som tidigare, men endast för de variabler som lagts till ytterligare. I slutet av detta sista steg har analytikern kvar den preliminära modellen med huvudeffekter. För mer information om processen för målinriktat urval hänvisas till Hosmer och Lemeshow .
Simuleringar
Vi genomförde två simuleringsstudier för att utvärdera prestandan hos algoritmen för målinriktat urval. I den första simuleringen började vi med antagandet att vi har 6 lika viktiga kovariater (X1, …, X6 så att X j ~U(-6, 6) för j = 1, …, 6), varav tre var signifikanta och tre inte. Vi ställde in β0 = -0,6, β1 = β2 = β3 = 0,122 och β4 = β5 = β6 = 0. Därför var den sanna logit vi samplade från
Vi genomförde 1 000 simuleringskörningar för vart och ett av de 6 förhållanden där vi varierade samplestorleken (n = 60, 120, 240, 360, 480 och 600). Det sammanfattande måttet på algoritmens prestanda var den procentuella andelen gånger varje förfarande för val av variabler behöll endast X1, X2 och X3 i den slutliga modellen. (För PS-urvalet sattes förväxling till 20 % och inkludering av icke-kandidater till 0,1, även om förväxling inte simulerades i denna del av studien.)
Tabell 1 visar den procentuella andelen gånger som den korrekta modellen erhölls för fyra urvalsförfaranden under olika urvalsstorlekar. Den korrekta behållningen ökar med provstorleken och är nästan identisk för PS, SS och BS. FS urval presterar inte lika bra som de andra tre med undantag för lägre provstorleksnivåer.
I den andra simuleringen startade vi med samma antagande, att de 6 kovariablerna var lika viktiga, varav två var signifikanta, en som var en störande faktor och tre som inte var signifikanta. Vi antog att X1 = Bernoulli (0,5), confounders X2~U(-6, 3) om X1 = 1 och X2~U(-3, 6) om X1 = 0, och X3 – X6~U(-6, 6). Vi skapade confounder X2 genom att göra fördelningen av denna variabel beroende av X1. Vi fastställde β0 = -0,6, β1 = 1,2, β2 = 0,1, β3 = 0,122 och β4 = β5 = β6 = 0. Därför var den sanna logit vi samplade från
Vi genomförde 1 000 simuleringskörningar för vart och ett av de 24 villkoren där vi varierade urvalsstorleken (n = 60, 120, 240, 360, 480 och 600), confounding (15 % och 20 %) och inkludering av icke-kandidater (0,1 och 0,15). På samma sätt var det sammanfattande måttet på algoritmens prestanda den procentuella andelen gånger som varje förfarande för urval av variabler endast behöll X1, X2 och X3 i den slutliga modellen.
Tabell 2 visar den procentuella andelen gånger som den korrekta modellen erhölls för fyra urvalsförfaranden under 24 simulerade förhållanden.
Även här ökar andelen korrekt behållna modeller med urvalsstorleken för alla urvalsmetoder. Vid de lägre urvalsstorlekarna presterar inget förfarande särskilt bra. FS klarar sig bäst med undantagen när inkluderingen av icke-kandidater sätts till 0,15, där PS presterar bättre. Vid större stickprov som 480 och 600 konvergerar PS, SS och BS mot en nära andel korrekta modeller, medan FS presterar betydligt sämre. Vid förväxling behåller PS en större andel korrekta modeller för alla sex urvalsstorlekar när förväxlingen sätts till antingen 15 % eller 20 % och inklusion av icke-kandidater till 0,15 jämfört med de andra tre metoderna. I de andra scenarierna behåller PS en något större andel korrekta modeller än de andra förfarandena för val av variabler, främst för urval i intervallet 240-360.
Inom de nämnda simuleringsvillkoren manipulerade vi koefficienten för den förväxlande variabeln X2 genom att göra den mer signifikant vid 0,13 och mindre signifikant vid 0,07. Vi visar resultaten för båda scenarierna med confounding satt till 15 % och inkludering av icke-kandidater till 0,15.
När β2 = 0,13 visar tabell 3 att PS, BS, och när urvalsstorleken blir större, SS presterar jämförbart och behåller en liknande andel korrekta modeller. Detta beror främst på att X2 blir signifikant i en större andel av simuleringarna och behålls av dessa förfaranden på grund av dess signifikans och inte förväxlingseffekt. FS klarar sig återigen oftast sämre än de tre tidigare nämnda urvalsförfarandena.
När β2 = 0,07 visar tabell 3 att PS klarar sig bättre över alla stickprovsstorlekar än de andra förfarandena för urval av variabler; andelen korrekt behållna modeller är dock lägre för alla förfaranden. Detta beror på att X2 blir icke-signifikant i fler simuleringar och inte behålls. Tabell 3 visar också hur X2 plockas upp av PS på grund av dess förväxlingseffekt som fortfarande är närvarande.