Muuttujan malliin sisällyttämisen kriteerit vaihtelevat ongelmien ja tieteenalojen välillä. Yleinen lähestymistapa tilastollisen mallin rakentamiseen on muuttujien minimointi, kunnes löydetään kaikkein pelkistetyin aineistoa kuvaava malli, jolla saavutetaan myös numeerinen vakaus ja tulosten yleistettävyys. Jotkut metodologit ehdottavat, että kaikki kliiniset ja muut merkitykselliset muuttujat sisällytetään malliin niiden merkitsevyydestä riippumatta, jotta sekoittavia tekijöitä voidaan kontrolloida. Tämä lähestymistapa voi kuitenkin johtaa numeerisesti epävakaisiin estimaatteihin ja suuriin keskivirheisiin. Tämä työ perustuu Hosmerin ja Lemeshow’n ehdottamaan muuttujien tarkoituksenmukaiseen valintaan regressiomenetelmissä (tässä työssä keskitytään erityisesti logistiseen regressioon).

On tärkeää mainita, että tietojenkäsittelyn ja informaation nopean kehittymisen myötä ominaisuuksien valintamenetelmät ja algoritmit ovat lisääntyneet. Esimerkkeinä mainittakoon kukkulakiipeily, ahneet algoritmit, rekursiivinen ominaisuuksien eliminointi, yksimuuttujainen assosiointisuodatus ja taaksepäin/eteenpäin kääriminen muutamia mainitakseni. Näitä menetelmiä on käytetty bioinformatiikassa ja kliinisessä diagnostiikassa, ja jotkin niistä ovat yleisiä useissa sovelluksissa. Hill-climbing- ja ahneet algoritmit ovat tekoälyssä käytettyjä matemaattisia optimointitekniikoita, jotka toimivat hyvin tietyissä ongelmissa, mutta eivät tuota optimaalisia ratkaisuja monissa muissa ongelmissa. Suodatus-, käärintä- ja rekursiivisia ominaisuuksien eliminointimenetelmiä on käytetty esimerkiksi tekstinkäsittelyssä tai geeniekspressiomassojen analysoinnissa. Vaikka nämä ovat tehokkaita valintamenetelmiä, jotka ovat parantaneet ennustimien suorituskykyä, ne ovat usein laskentaintensiivisiä. Niitä käytetään suurissa tietokokonaisuuksissa, joissa on usein tuhansia muuttujia, mikä tuo mukanaan ulottuvuusongelman, ja kuten joillakin muillakin monimuuttujamenetelmillä, niillä on potentiaalia ylisovittaa dataa .

Kaupallisissa ohjelmistopaketeissa on saatavilla useita muuttujien valintamenetelmiä. Yleisesti käytettyjä menetelmiä, joihin tässä artikkelissa keskitytään, ovat eteenpäin valinta, taaksepäin eliminointi ja vaiheittainen valinta.

Eteenpäin valinnassa lasketaan jokaiselle vaikutukselle, joka ei ole mallissa, pisteet khiin neliö -tilasto ja tarkastellaan näistä tilastoista suurinta. Jos se on merkitsevä jollakin lähtötasolla, vastaava vaikutus lisätään malliin. Kun vaikutus on kerran lisätty malliin, sitä ei koskaan poisteta mallista. Prosessi toistetaan, kunnes yksikään jäljelle jäävistä vaikutuksista ei täytä määriteltyä sisääntulotasoa.

Takaisin eliminoinnissa tarkastellaan yksittäisten parametrien Wald-testin tuloksia. Vähiten merkitsevä vaikutus, joka ei täytä mallissa pysymisen edellyttämää tasoa, poistetaan. Kun vaikutus on poistettu mallista, se jää pois. Prosessi toistetaan, kunnes yksikään muu vaikutus mallissa ei täytä poistamiselle määriteltyä tasoa.

Vaiheittainen karsinta on samanlainen kuin eteenpäin karsinta sillä erotuksella, että jo mallissa olevat vaikutukset eivät välttämättä jää. Vaikutukset syötetään malliin ja poistetaan siitä siten, että kutakin eteenpäin valinnan vaihetta voi seurata yksi tai useampi taaksepäin poistamisen vaihe. Vaiheittainen valintaprosessi päättyy, jos malliin ei voida lisätä enää yhtään vaikutusta tai jos juuri malliin lisätty vaikutus on ainoa vaikutus, joka poistetaan seuraavassa takaperin eliminointivaiheessa

Tarkoituksenmukaisen valinnan algoritmi (PS) noudattaa hieman erilaista logiikkaa, jota Hosmer ja Lemeshow ehdottivat. Tätä muuttujien valintamenetelmää ei ole tutkittu tai vertailtu systemaattisesti muihin tilastollisiin valintamenetelmiin muutamia numeerisia esimerkkejä lukuun ottamatta.

Tärkeä osa tätä tutkimusta oli tarkoituksenmukaisen valintaprosessin automatisoivan SAS-makron kehittäminen ja validointi. Yksityiskohdat makrosta ja linkki itse makroon on esitetty liitteessä. Koska makro on kirjoitettu SAS-kielellä, vertaamme sen suorituskykyä SAS PROC LOGISTIC -muuttujien valintamenettelyihin eli FORWARD (FS), BACKWARD (BS) ja STEPWISE (SS) .

Tämän artikkelin tavoitteet ovat 1) arvioida tarkoituksenmukaisen valinnan algoritmia systemaattisesti simulaatiotutkimuksessa vertaamalla sitä edellä mainittuihin muuttujien valintaproseduureihin ja 2) osoittaa sen soveltaminen motivoivaan aineistoon.

Kovariaattien tarkoituksenmukainen valinta

Tarkoituksenmukainen valintaprosessi alkaa kunkin muuttujan yksimuuttuja-analyysillä. Mikä tahansa muuttuja, jonka yksimuuttujainen testi on merkitsevä jollakin mielivaltaisella tasolla, valitaan ehdokkaaksi monimuuttuja-analyysiin. Perustamme tämän logistisen regression Wald-testiin ja p-arvon raja-arvoon 0,25. Perinteisemmät tasot, kuten 0,05, voivat epäonnistua tärkeiksi tiedettyjen muuttujien tunnistamisessa. Muuttujien valinnan iteratiivisessa prosessissa muuttujat poistetaan mallista, jos ne eivät ole merkitseviä eivätkä häiritseviä. Merkitsevyys arvioidaan 0,1:n alfa-tasolla ja sekoittava tekijä katsotaan muutokseksi kaikissa jäljellä olevissa parametriestimaateissa, jotka ovat suuremmat kuin esimerkiksi 15 tai 20 prosenttia verrattuna täydelliseen malliin. Määritellyn tason ylittävä muutos parametriestimaatissa osoittaa, että poissuljettu muuttuja oli tärkeä siinä mielessä, että se tarjosi tarvittavan mukautuksen yhdelle tai useammalle malliin jäävälle muuttujalle. Tämän iteratiivisen poistamisen, uudelleen sovittamisen ja tarkistamisen prosessin päätteeksi malli sisältää merkittäviä kovariaatteja ja sekoittavia tekijöitä. Tässä vaiheessa kaikki muuttujat, joita ei ole valittu alkuperäiseen monimuuttujamalliin, lisätään takaisin yksi kerrallaan, ja merkittävät kovariaatit ja sekoittavat tekijät säilytetään aiemmin. Tämä vaihe voi olla hyödyllinen sellaisten muuttujien tunnistamisessa, jotka eivät itsessään ole merkittävästi yhteydessä lopputulokseen, mutta joilla on merkittävä vaikutus muiden muuttujien läsnä ollessa. Kaikki 0,1- tai 0,15-tasolla merkitsevät muuttujat sisällytetään malliin, ja mallia supistetaan iteratiivisesti kuten aiemmin, mutta vain lisättyjen muuttujien osalta. Tämän viimeisen vaiheen päätteeksi analyytikko saa käyttöönsä alustavan päävaikutusmallin. Tarkoituksenmukaisen valinnan prosessista on lisätietoja Hosmerin ja Lemeshow’n teoksessa.

Simulaatiot

Toteutimme kaksi simulaatiotutkimusta arvioidaksemme tarkoituksenmukaisen valintaalgoritmin suorituskykyä. Ensimmäisessä simulaatiossa lähdimme liikkeelle olettamuksesta, että meillä on kuusi yhtä tärkeää kovariaattia (X1, …, X6 siten, että X j ~U(-6, 6) for j = 1, …, 6), joista kolme oli merkitseviä ja kolme ei. Asetimme β0 = -0,6, β1 = β2 = β3 = 0,122 ja β4 = β5 = β6 = 0. Näin ollen todellinen logit, josta otimme näytteen, oli

Suoritimme 1000 simulaatioajoa jokaiselle kuudesta olosuhteesta, joissa vaihdeltiin otoskokoa (n = 60, 120, 240, 360, 480 ja 600). Algoritmin suorituskyvyn yhteenvetomittari oli niiden kertojen prosenttiosuus, jolloin kukin muuttujien valintamenettely säilytti lopullisessa mallissa vain X1:n, X2:n ja X3:n. (PS-valintaa varten sekoittuneisuus asetettiin 20 prosenttiin ja ei-kandidaattien sisällyttäminen 0,1:een, vaikka sekoittuneisuutta ei simuloitu tutkimuksen tässä osassa.)

Taulukossa 1 esitetään, kuinka monta kertaa oikea malli saatiin prosentteina neljällä valintamenettelyllä eri otoskokoja käytettäessä. Oikea pysyvyys kasvaa otoskoon kasvaessa, ja se on lähes sama PS:n, SS:n ja BS:n osalta. FS-valinta ei suoriudu yhtä hyvin kuin kolme muuta lukuun ottamatta pienempiä otoskokoja.

Taulukko 1 Simuloinnin tulokset.

Toisessa simuloinnissa lähdettiin liikkeelle samasta olettamuksesta, eli siitä, että kuusi kovariaattia oli yhtä tärkeitä, joista kaksi oli merkitseviä, yksi oli sekoittaja ja kolme ei ollut merkitseviä. Oletimme, että X1 = Bernoulli (0.5), sekoittaja X2~U(-6, 3), jos X1 = 1 ja X2~U(-3, 6), jos X1 = 0, ja X3 – X6~U(-6, 6). Loimme sekoittajan X2 tekemällä kyseisen muuttujan jakauman riippuvaiseksi X1:stä. Asetimme β0 = -0,6, β1 = 1,2, β2 = 0,1, β3 = 0,122 ja β4 = β5 = β6 = 0. Näin ollen todellinen logit, josta otimme näytteen, oli

Suoritimme 1000 simulaatioajoa kullekin 24 olosuhteelle, joissa varioimme otoskokoa (n = 60, 120, 240, 360, 480 ja 600), sekoittavaa vaikutusta (15 % ja 20 %) ja ei-kandidaattien sisällyttämistä (0,1 ja 0,15). Vastaavasti algoritmin suorituskyvyn yhteenvetomittarina käytettiin sitä, kuinka monta kertaa kukin muuttujien valintamenettely säilytti lopullisessa mallissa vain X1:n, X2:n ja X3:n.

Taulukossa 2 on esitetty, kuinka monta kertaa oikea malli saatiin neljällä valintamenettelyllä 24 simuloidussa olosuhteessa.

Taulukko 2 Simulointitulokset

Jälleen kerran oikein säilytettävien mallien osuus lisääntyy näytteen koon kasvaessa kaikkien valintamenetelmien osalta. Pienemmillä otoskokotasoilla mikään menettely ei suoriudu kovin hyvin. FS suoriutuu parhaiten lukuun ottamatta tilannetta, jossa ei-ehdokkaiden sisällyttäminen on asetettu arvoon 0,15, jolloin PS suoriutuu paremmin. Suuremmilla otoksilla, kuten 480 ja 600 otoksella, PS, SS ja BS lähestyvät oikean mallin säilyttämisen osuutta, kun taas FS menestyy huomattavasti huonommin. Kun häiriötekijät ovat läsnä, PS säilyttää suuremman osuuden oikeista malleista kaikilla kuudella otoskoolla, kun häiriötekijät asetetaan joko 15 tai 20 prosenttiin ja ei-ehdokkaiden sisällyttäminen 0,15:een verrattuna kolmeen muuhun menetelmään. Muissa skenaarioissa PS säilyttää hieman suuremman osuuden oikeista malleista kuin muut muuttujien valintamenetelmät, lähinnä otosten ollessa välillä 240-360.

Mainittujen simulointiolosuhteiden lisäksi peukaloimme sekoittavan muuttujan X2 kerrointa muuttamalla sen merkitsevämmäksi 0,13:lla ja vähemmän merkitseväksi 0,07:llä. Näytämme tulokset molemmille skenaarioille, kun sekoittava muuttuja on asetettu 15 prosenttiin ja ei-ehdokkaiden sisällyttäminen 0,15:een.

Kun β2 = 0,13, taulukosta 3 nähdään, että PS, BS ja otoskoon kasvaessa SS suoriutuvat vertailukelpoisella tavalla ja säilyttävät samanlaisen osuuden oikeista malleista. Tämä johtuu pääasiassa siitä, että X2:sta tulee merkitsevä suuremmassa osassa simulaatioita ja että nämä menettelyt säilyttävät sen merkitsevyyden eikä sekoittavan vaikutuksen vuoksi. FS taasen pärjää useimmiten huonommin kuin kolme aiemmin mainittua valintamenettelyä.

Taulukko 3 Simulointitulokset.

Kun β2 = 0,07, taulukosta 3 nähdään, että PS suoriutuu kaikista otoskokoluokista paremmin kuin muut muuttujien valintamenetelmät; oikein säilytettävien mallien osuus on kuitenkin alhaisempi kaikilla menettelyillä. Tämä johtuu siitä, että X2:sta tulee merkityksetön useammassa simulaatiossa eikä sitä säilytetä. Taulukosta 3 käy myös ilmi, miten PS poimii X2:n sen edelleen olemassa olevan sekoittavan vaikutuksen vuoksi.

Articles

Vastaa

Sähköpostiosoitettasi ei julkaista.