Kriterierne for medtagelse af en variabel i modellen varierer fra problem til problem og fra disciplin til disciplin. Den almindelige tilgang til statistisk modelopbygning er minimering af variabler, indtil den mest sparsomme model, der beskriver dataene, er fundet, hvilket også resulterer i numerisk stabilitet og generaliserbarhed af resultaterne. Nogle metodologer foreslår, at man medtager alle kliniske og andre relevante variabler i modellen uanset deres betydning for at kontrollere for forvirrende faktorer. Denne fremgangsmåde kan imidlertid føre til numerisk ustabile estimater og store standardfejl. Denne artikel er baseret på den målrettede udvælgelse af variabler i regressionsmetoder (med særlig fokus på logistisk regression i denne artikel) som foreslået af Hosmer og Lemeshow .

Det er vigtigt at nævne, at der med den hurtige computer- og informationsudvikling har været en vækst på området for metoder og algoritmer til udvælgelse af funktioner. Nogle eksempler herpå er hill-climbing, greedy-algoritmer, rekursiv feature elimination, univariat associationsfiltrering og backward/forward wrapping, for blot at nævne nogle få. Disse metoder er blevet anvendt inden for bioinformatik og klinisk diagnostik, og nogle af dem er universelle til flere forskellige anvendelser. Hill-climbing- og greedy-algoritmer er matematiske optimeringsteknikker, der anvendes inden for kunstig intelligens, og som fungerer godt på visse problemer, men som ikke kan give optimale løsninger på mange andre . Filtrerings-, indpaknings- og rekursive metoder til eliminering af funktioner er blevet anvendt inden for områder som tekstbehandling eller analyse af genekspressionsarrays. Selv om disse metoder er effektive udvælgelsesmetoder, der har forbedret prædiktorernes ydeevne, er de ofte beregningskrævende. De anvendes på store datasæt, ofte med tusindvis af variabler, hvilket medfører et dimensionalitetsproblem, og ligesom nogle andre multivariate metoder har de potentiale til at overpasse dataene .

Der findes flere metoder til udvælgelse af variabler i kommercielle softwarepakker. Almindeligt anvendte metoder, som er dem, der er i fokus i denne artikel, er fremadrettet udvælgelse, bagudrettet eliminering og trinvis udvælgelse.

I fremadrettet udvælgelse beregnes score-chi-square-statistikken for hver effekt, der ikke er med i modellen, og undersøger den største af disse statistikker. Hvis den er signifikant på et vist indgangsniveau, tilføjes den tilsvarende effekt til modellen. Når en effekt først er kommet ind i modellen, fjernes den aldrig fra modellen. Processen gentages, indtil ingen af de resterende effekter opfylder det angivne niveau for indtræden.

I backward elimination undersøges resultaterne af Wald-testen for de enkelte parametre. Den mindst signifikante effekt, som ikke opfylder niveauet for at forblive i modellen, fjernes. Når en effekt først er fjernet fra modellen, forbliver den udelukket. Processen gentages, indtil ingen anden effekt i modellen opfylder det angivne niveau for fjernelse.

Den trinvise udvælgelse svarer til den fremadrettede udvælgelse, bortset fra at effekter, der allerede er i modellen, ikke nødvendigvis forbliver. Effekter indføres i og fjernes fra modellen på en sådan måde, at hvert fremadrettet udvælgelsestrin kan efterfølges af et eller flere bagudrettede elimineringstrin. Den trinvise udvælgelsesproces afsluttes, hvis der ikke kan tilføjes yderligere effekter til modellen, eller hvis den effekt, der netop er indført i modellen, er den eneste effekt, der fjernes i den efterfølgende bagudrettede eliminering

Algoritmen for målrettet udvælgelse (PS) følger en lidt anden logik, som foreslået af Hosmer og Lemeshow . Denne metode til udvælgelse af variabler er ikke blevet undersøgt eller sammenlignet systematisk med andre statistiske udvælgelsesmetoder med undtagelse af nogle få numeriske eksempler.

En vigtig del af denne undersøgelse var udviklingen og valideringen af en SAS-makro, der automatiserer den målrettede udvælgelsesproces. Detaljer om makroen og linket til selve makroen findes i appendiks. Da makroen er skrevet i SAS, sammenligner vi dens ydeevne med SAS PROC LOGISTIC-variabeludvælgelsesprocedurer, nemlig FORWARD (FS), BACKWARD (BS) og STEPWISE (SS) .

Målene med denne artikel er 1) at evaluere algoritmen til målrettet udvælgelse systematisk i en simuleringsundersøgelse ved at sammenligne den med de ovennævnte procedurer til udvælgelse af variabler, og 2) at vise anvendelsen af den på det motiverende datasæt.

Målrettet udvælgelse af kovariater

Den målrettede udvælgelsesproces begynder med en univariat analyse af hver variabel. Enhver variabel, der har en signifikant univariat test på et vilkårligt niveau, udvælges som kandidat til den multivariate analyse. Vi baserer dette på Wald-testen fra logistisk regression og p-værdi cut-off point på 0,25. Mere traditionelle niveauer som f.eks. 0,05 kan ikke være tilstrækkelige til at identificere variabler, der er kendt for at være vigtige . I den iterative proces med udvælgelse af variabler fjernes kovariater fra modellen, hvis de er ikke-signifikante og ikke er en forstyrrende faktor. Signifikans vurderes på alfa-niveauet 0,1 og forvirring som en ændring i ethvert resterende parameterestimat, der er større end f.eks. 15 % eller 20 % i forhold til den fulde model. En ændring i et parameterestimat over det angivne niveau indikerer, at den udeladte variabel var vigtig i den forstand, at den gav en nødvendig justering for en eller flere af de resterende variabler i modellen. Ved afslutningen af denne iterative proces med at slette, tilpasse og verificere indeholder modellen væsentlige kovariater og confoundere. På dette tidspunkt tilføjes alle variabler, der ikke er udvalgt til den oprindelige multivariate model, igen én ad gangen med de væsentlige kovariater og confoundere, der tidligere er blevet bibeholdt. Dette trin kan være nyttigt til at identificere variabler, der i sig selv ikke er signifikant relateret til resultatet, men som yder et vigtigt bidrag i tilstedeværelsen af andre variabler. Alle variabler, der er signifikante på 0,1 eller 0,15-niveauet, indsættes i modellen, og modellen reduceres iterativt som tidligere, men kun for de variabler, der blev tilføjet yderligere. Ved afslutningen af dette sidste trin står analytikeren tilbage med den foreløbige hovedvirkningsmodel. For flere detaljer om den målrettede udvælgelsesproces henvises til Hosmer og Lemeshow .

Simuleringer

Vi gennemførte to simuleringsundersøgelser for at evaluere den målrettede udvælgelsesalgoritmes ydeevne. I den første simulering startede vi med den antagelse, at vi har 6 lige vigtige kovariater (X1, …, X6 således, at X j ~U(-6, 6) for j = 1, …, 6), hvoraf tre var signifikante og tre ikke var det. Vi indstillede β0 = -0,6, β1 = β2 = β3 = 0,122 og β4 = β5 = β6 = 0. Derfor var den sande logit, som vi udtog stikprøver fra,

Vi udførte 1000 simulationskørsler for hver af de 6 betingelser, hvor vi varierede stikprøvestørrelsen (n = 60, 120, 240, 360, 480 og 600). Det sammenfattende mål for algoritmens ydeevne var den procentdel af gange, hvor hver variabel udvælgelsesprocedure kun beholdt X1, X2 og X3 i den endelige model. (For PS-udvælgelse blev confounding sat til 20 % og inklusion af ikke-kandidater til 0,1, selv om confounding ikke blev simuleret i denne del af undersøgelsen.)

Tabel 1 viser den procentvise andel af gange, hvor den korrekte model blev opnået for fire udvælgelsesprocedurer under forskellige stikprøvestørrelser. Den korrekte tilbageholdelse stiger med stikprøvestørrelsen, og den er næsten identisk for PS, SS og BS. FS-selektion klarer sig ikke så godt som de tre andre med undtagelse af lavere stikprøvestørrelser.

Tabel 1 Simuleringsresultater.

I den anden simulering startede vi med den samme antagelse, nemlig at de 6 kovariater var lige vigtige, hvoraf to var signifikante, en var en confounder, og tre var ikke signifikante. Vi antog, at X1 = Bernoulli (0,5), confounderen X2~U(-6, 3), hvis X1 = 1, og X2~U(-3, 6), hvis X1 = 0, og X3 – X6~U(-6, 6). Vi skabte confounderen X2 ved at gøre fordelingen af denne variabel afhængig af X1. Vi indstillede β0 = -0,6, β1 = 1,2, β2 = 0,1, β3 = 0,122, og β4 = β5 = β6 = 0. Derfor var den sande logit, som vi udtog prøver fra,

Vi udførte 1000 simulationskørsler for hver af de 24 betingelser, hvor vi varierede stikprøvestørrelsen (n = 60, 120, 240, 360, 480 og 600), forvirring (15 % og 20 %) og inklusion af ikke-kandidater (0,1 og 0,15). Tilsvarende var det sammenfattende mål for algoritmens ydeevne den procentdel af gange, hvor hver variabel udvælgelsesprocedure kun beholdt X1, X2 og X3 i den endelige model.

Tabel 2 viser den procentdel af gange, hvor den korrekte model blev opnået for fire udvælgelsesprocedurer under 24 simulerede betingelser.

Tabel 2 Simuleringsresultater

Agennem alle udvælgelsesmetoder stiger andelen af korrekt bevarede modeller med stikprøvestørrelsen. På de lavere niveauer af stikprøvestørrelse klarer ingen procedure sig særlig godt. FS klarer sig bedst med de undtagelser, hvor inklusionen af ikke-kandidater er sat til 0,15, hvor PS klarer sig bedre. Ved større stikprøver som 480 og 600 konvergerer PS, SS og BS mod en tæt andel af korrekt fastholdelse af modeller, mens FS klarer sig betydeligt dårligere. Ved forvirring bevarer PS en større andel af korrekte modeller for alle seks stikprøvestørrelser, når forvirringen er sat til enten 15 % eller 20 % og inddragelsen af ikke-kandidater til 0,15 sammenlignet med de tre andre metoder. Under de andre scenarier bevarer PS en lidt større andel af korrekte modeller end de andre procedurer til udvælgelse af variabler, hovedsagelig for stikprøver i intervallet 240-360.

Ud over de nævnte simuleringsbetingelser manipulerede vi med koefficienten for den forstyrrende variabel X2 ved at gøre den mere signifikant ved 0,13 og mindre signifikant ved 0,07. Vi viser resultaterne for begge scenarier med confounding sat til 15 % og inklusion af ikke-kandidater til 0,15.

Når β2 = 0,13, viser tabel 3, at PS, BS og, efterhånden som stikprøvestørrelsen bliver større, SS klarer sig sammenligneligt og bevarer en lignende andel af korrekte modeller. Dette skyldes primært, at X2 bliver signifikant i en større andel af simuleringerne og bibeholdes af disse procedurer på grund af dets signifikans og ikke forstyrrende virkning. FS klarer sig igen for det meste dårligere end de tre tidligere nævnte udvælgelsesprocedurer.

Tabel 3 Simuleringsresultater.

Når β2 = 0,07 viser tabel 3, at PS klarer sig bedre på tværs af alle stikprøvestørrelser end de andre procedurer til udvælgelse af variabler; andelen af korrekte bevarede modeller er dog lavere for alle procedurer. Dette skyldes, at X2 bliver ikke-signifikant i flere simuleringer og ikke bibeholdes. Tabel 3 viser også, hvordan X2 opfanges af PS på grund af dens forstyrrende virkning, som stadig er til stede.

Articles

Skriv et svar

Din e-mailadresse vil ikke blive publiceret.