A változók modellbe való felvételének kritériumai problémánként és tudományáganként eltérőek. A statisztikai modellépítés általános megközelítése a változók minimalizálása mindaddig, amíg meg nem találjuk az adatokat legegyszerűbben leíró modellt, ami egyben az eredmények numerikus stabilitását és általánosíthatóságát is eredményezi. Egyes módszertanosok az összes klinikai és egyéb releváns változónak a modellbe való bevonását javasolják, függetlenül azok szignifikanciájától, a zavaró tényezők ellenőrzése érdekében. Ez a megközelítés azonban numerikusan instabil becslésekhez és nagy standard hibákhoz vezethet. Ez a dolgozat a változók célzott kiválasztásán alapul a regressziós módszerekben (ebben a dolgozatban különös tekintettel a logisztikus regresszióra), ahogyan azt Hosmer és Lemeshow javasolta .
Fontos megemlíteni, hogy a gyors számítástechnikai és információs fejlődéssel együtt a jellemzőválasztási módszerek és algoritmusok területén is növekedés tapasztalható. Néhány példa erre a hill-climbing, a mohó algoritmusok, a rekurzív feature elimináció, az egyváltozós asszociációs szűrés és a backward/forward wrapping, hogy csak néhányat említsünk. Ezeket a módszereket a bioinformatika, a klinikai diagnosztika területén alkalmazták, és néhányuk több alkalmazásban is alkalmazható. A Hill-climbing és a mohó algoritmusok a mesterséges intelligenciában használt matematikai optimalizálási technikák, amelyek bizonyos problémákra jól működnek, de sok más problémára nem adnak optimális megoldást. A szűrési, burkolási és rekurzív jellemző-eliminációs módszereket olyan területeken alkalmazták, mint a szövegfeldolgozás vagy a génexpressziós tömbelemzés. Bár ezek hatékony szelekciós módszerek, amelyek javították a prediktorok teljesítményét, gyakran számításigényesek. Ezeket nagy, gyakran több ezer változót tartalmazó adathalmazokon használják, ami a dimenzionalitás problémáját veti fel, és néhány más többváltozós módszerhez hasonlóan az adatok túlillesztése is lehetséges.
A kereskedelmi szoftvercsomagokban számos változóválasztási módszer áll rendelkezésre. A leggyakrabban használt módszerek, amelyekre ebben a tanulmányban a hangsúlyt fektetjük, az előre szelekció, a visszafelé történő elimináció és a lépésenkénti szelekció.
A előre szelekcióban a score chi-négyzet statisztikát minden egyes, a modellben nem szereplő hatásra kiszámítjuk, és e statisztikák közül a legnagyobbat vizsgáljuk. Ha ez valamilyen belépési szinten szignifikáns, akkor a megfelelő hatást hozzáadjuk a modellhez. Ha egy hatás egyszer bekerült a modellbe, azt soha nem távolítjuk el a modellből. A folyamatot addig ismételjük, amíg a fennmaradó hatások egyike sem felel meg a megadott belépési szintnek.
A visszafelé történő elimináció során az egyes paraméterekre vonatkozó Wald-teszt eredményeit vizsgáljuk. A legkevésbé szignifikáns hatást, amely nem felel meg a modellben maradáshoz szükséges szintnek, eltávolítjuk. Ha egy hatás egyszer kikerült a modellből, akkor az kizárva marad. A folyamatot addig ismételjük, amíg a modellben egyetlen más hatás sem felel meg az eltávolításhoz megadott szintnek.
A lépcsőzetes szelekció hasonló az előre szelekcióhoz, azzal a különbséggel, hogy a modellben már szereplő hatások nem feltétlenül maradnak meg. A hatások úgy kerülnek be a modellbe és kerülnek ki a modellből, hogy minden egyes előremenő szelekciós lépést egy vagy több visszamenőleges eliminációs lépés követhet. A lépésenkénti szelekciós folyamat akkor ér véget, ha a modellhez nem lehet további hatást hozzáadni, vagy ha az éppen a modellbe bevitt hatás az egyetlen hatás, amelyet az ezt követő visszafelé történő elimináció során eltávolítanak
A célzott szelekciós algoritmus (PS) egy kissé eltérő logikát követ, amelyet Hosmer és Lemeshow javasolt. Ezt a változóválasztási módszert – néhány numerikus példát leszámítva – még nem vizsgálták vagy hasonlították össze szisztematikusan más statisztikai kiválasztási módszerekkel.
A tanulmány fontos része volt egy SAS makró kifejlesztése és validálása, amely automatizálja a célzott kiválasztási folyamatot. A makró részleteit és magának a makrónak a linkjét a függelékben találjuk. Mivel a makró SAS-ban íródott, teljesítményét a SAS PROC LOGISTIC változóválasztási eljárásokkal hasonlítjuk össze, nevezetesen a FORWARD (FS), BACKWARD (BS) és STEPWISE (SS) .
A dolgozat céljai a következők: 1) a célzott kiválasztási algoritmus szisztematikus értékelése egy szimulációs vizsgálatban, összehasonlítva azt a fent említett változóválasztási eljárásokkal, és 2) a motiváló adathalmazon való alkalmazásának bemutatása.
Kovariánsok célzott kiválasztása
A célzott kiválasztási folyamat az egyes változók egyváltozós elemzésével kezdődik. Minden olyan változót, amelynek szignifikáns egyváltozós tesztje valamilyen tetszőleges szinten szignifikáns, kiválasztunk a többváltozós elemzés jelöltjeként. Ezt a logisztikus regresszióból származó Wald-tesztre és a 0,25-ös p-érték határértékre alapozzuk. A hagyományosabb szintek, mint például a 0,05, kudarcot vallhatnak a fontosnak ismert változók azonosításában. A változóválasztás iteratív folyamatában a kovariánsokat eltávolítjuk a modellből, ha nem szignifikánsak és nem zavaró tényezők. A szignifikanciát a 0,1-es alfa-szinten értékelik, a zavaró tényezőt pedig úgy, mint a maradék paraméterbecslésben bekövetkező, mondjuk 15%-nál vagy 20%-nál nagyobb változást a teljes modellhez képest. A paraméterbecslésnek a megadott szint feletti változása azt jelzi, hogy a kizárt változó fontos volt abban az értelemben, hogy a modellben maradó egy vagy több változóhoz szükséges kiigazítást biztosított. A törlés, újraillesztés és ellenőrzés iteratív folyamatának végén a modell szignifikáns kovariánsokat és zavaró tényezőket tartalmaz. Ekkor minden, az eredeti többváltozós modellbe ki nem választott változót egyesével adunk vissza, a korábban megtartott jelentős kovariánsokkal és zavaró tényezőkkel. Ez a lépés hasznos lehet olyan változók azonosításában, amelyek önmagukban nem állnak szignifikáns kapcsolatban a kimenettel, de más változók jelenlétében fontos hozzájárulást jelentenek. A 0,1-es vagy 0,15-ös szinten szignifikáns változókat beillesztjük a modellbe, és a modellt iteratív módon szűkítjük, mint korábban, de csak a járulékosan hozzáadott változókra vonatkozóan. Ennek az utolsó lépésnek a végén az elemzőnek az előzetes főhatás-modell marad. A célzott szelekciós folyamat további részleteit lásd: Hosmer és Lemeshow .
Szimulációk
A célzott szelekciós algoritmus teljesítményének értékelésére két szimulációs vizsgálatot végeztünk. Az első szimulációban abból a feltételezésből indultunk ki, hogy 6 egyformán fontos kovariánsunk van (X1, …, X6 úgy, hogy X j ~U(-6, 6) j = 1, …, 6 esetén), amelyek közül három szignifikáns, három pedig nem. Beállítottuk, hogy β0 = -0,6, β1 = β2 = β3 = 0,122 és β4 = β5 = β6 = 0. Ezért a valódi logit, amelyből mintát vettünk,
Mind a 6 feltételhez 1000 szimulációs futtatást végeztünk, amelyekben a minta méretét változtattuk (n = 60, 120, 240, 360, 480 és 600). Az algoritmus teljesítményének összefoglaló mérőszáma az volt, hogy az egyes változóválasztási eljárások hány százalékban csak X1, X2 és X3 maradt meg a végső modellben. (A PS-szelekció esetében a zavaró tényezőt 20%-ra, a nem jelöltek felvételét pedig 0,1-re állítottuk be, bár a vizsgálatnak ebben a részében nem szimuláltuk a zavaró tényezőt.)
Az 1. táblázat azt mutatja, hogy a négy szelekciós eljárás esetében különböző mintanagyságok mellett hány százalékban kaptuk meg a helyes modellt. A helyes visszatartás a mintamérettel együtt nő, és a PS, SS és BS esetében majdnem azonos. Az FS szelekció nem teljesít olyan jól, mint a másik három, kivéve az alacsonyabb mintaméret szinteket.
A második szimulációban ugyanazzal a feltételezéssel indultunk, hogy a 6 kovariáns egyformán fontos, amelyek közül kettő szignifikáns, egy zavaró tényező, három pedig nem szignifikáns. Feltételeztük, hogy X1 = Bernoulli (0,5), a zavaró tényező X2~U(-6, 3), ha X1 = 1 és X2~U(-3, 6), ha X1 = 0, és X3 – X6~U(-6, 6). Az X2 zavaró tényezőt úgy hoztuk létre, hogy ennek a változónak az eloszlását az X1-től tettük függővé. Beállítottuk β0 = -0,6, β1 = 1,2, β2 = 0,1, β3 = 0,122 és β4 = β5 = β6 = 0. Ezért a valódi logit, amelyből mintát vettünk,
A 24 feltétel mindegyikére 1000 szimulációs futtatást végeztünk, amelyekben változtattuk a minta méretét (n = 60, 120, 240, 240, 360, 480 és 600), a zavaró tényezőt (15% és 20%) és a nem jelöltek bevonását (0,1 és 0,15). Hasonlóképpen, az algoritmus teljesítményének összefoglaló mérőszáma az volt, hogy az egyes változóválasztási eljárások hány százalékban csak X1, X2 és X3 maradt meg a végső modellben.
A 2. táblázat azt mutatja, hogy 24 szimulált körülmények között hány százalékban kaptuk meg a helyes modellt a négy kiválasztási eljárás esetében.
Mint látható, a helyesen megtartott modellek aránya minden kiválasztási eljárás esetében nő a minta méretével. Az alacsonyabb mintaméreteknél egyik eljárás sem teljesít nagyon jól. Az FS teljesít a legjobban, kivéve, ha a nem jelöltek bevonása 0,15-re van beállítva, ahol a PS jobban teljesít. A nagyobb mintáknál, mint például 480 és 600, a PS, SS és BS közelít a helyes modell megtartásának arányához, míg az FS jelentősen rosszabbul teljesít. A zavaró tényezők jelenléte esetén a PS mind a hat mintaméret esetében nagyobb arányban tartja meg a helyes modelleket, ha a zavaró tényezőt 15%-ra vagy 20%-ra, a nem jelöltek bevonását pedig 0,15-re állítjuk be, mint a másik három módszer esetében. A többi forgatókönyv esetén a PS valamivel nagyobb arányban tartja meg a helyes modelleket, mint a többi változóválasztási eljárás, főként a 240-360-as mintaszámtartományban.
Az említett szimulációs feltételek mellett az X2 zavaró változó együtthatóját úgy manipuláltuk, hogy 0,13-nál szignifikánsabbá, 0,07-nél pedig kevésbé szignifikánssá tettük. Mindkét forgatókönyv eredményeit megmutatjuk, amikor a zavaró tényezőt 15%-ra állítottuk, és a nem jelöltek bevonását 0,15-re állítottuk be.
Ha β2 = 0,13, a 3. táblázat azt mutatja, hogy a PS, a BS, és a minta méretének növekedésével az SS összehasonlíthatóan teljesít, hasonló arányban megtartva a helyes modelleket. Ez elsősorban annak köszönhető, hogy az X2 a szimulációk nagyobb hányadában válik szignifikánssá, és ezek az eljárások a szignifikanciája és nem zavaró hatása miatt tartják meg. Az FS ismét többnyire rosszabbul teljesít, mint a korábban említett három szelekciós eljárás.
Ha β2 = 0,07, a 3. táblázat azt mutatja, hogy a PS minden mintanagyságban jobban teljesít, mint a többi változószelekciós eljárás; a helyesen megtartott modellek aránya azonban minden eljárás esetében alacsonyabb. Ez annak a ténynek az eredménye, hogy az X2 több szimulációban nem szignifikánssá válik, és nem marad meg. A 3. táblázat azt is mutatja, hogy az X2-t a PS a még mindig jelen lévő zavaró hatása miatt választja ki.