Criteriile de includere a unei variabile în model variază în funcție de probleme și discipline. Abordarea comună a construirii modelelor statistice este minimizarea variabilelor până când se găsește cel mai parcimonios model care descrie datele, ceea ce duce, de asemenea, la stabilitate numerică și generalizabilitate a rezultatelor. Unii metodiști sugerează includerea în model a tuturor variabilelor clinice și a altor variabile relevante, indiferent de semnificația acestora, pentru a controla confuziile. Cu toate acestea, această abordare poate duce la estimări instabile din punct de vedere numeric și la erori standard mari. Această lucrare se bazează pe selecția intenționată a variabilelor în metodele de regresie (cu accent specific pe regresia logistică în această lucrare), așa cum au propus Hosmer și Lemeshow .

Este important de menționat că, odată cu evoluția rapidă a calculatoarelor și a informațiilor, a existat o creștere în domeniul metodelor și algoritmilor de selecție a caracteristicilor. Printre exemple se numără hill-climbing, algoritmii greedy, eliminarea recursivă a caracteristicilor, filtrarea asocierii univariate și împachetarea înainte/înapoi, pentru a numi doar câteva. Aceste metode au fost utilizate în bioinformatică, în diagnosticarea clinică, iar unele sunt universale pentru mai multe aplicații. Algoritmii Hill-climbing și greedy sunt tehnici de optimizare matematică utilizate în inteligența artificială, care funcționează bine în cazul anumitor probleme, dar nu reușesc să producă soluții optime pentru multe altele . Metodele de filtrare, de împachetare și de eliminare recursivă a caracteristicilor au fost utilizate în domenii precum prelucrarea textelor sau analiza matricei de expresie genetică. Deși acestea sunt metode de selecție puternice care au îmbunătățit performanța predictorilor, ele sunt deseori intensive din punct de vedere computațional. Ele sunt utilizate pe seturi mari de date, adesea cu mii de variabile, introducând problema dimensionalității și, ca și alte metode multivariate, au potențialul de a se suprapune datelor .

Câteva metode de selecție a variabilelor sunt disponibile în pachetele software comerciale. Metodele utilizate în mod obișnuit, care sunt cele asupra cărora se concentrează în această lucrare, sunt selecția înainte, eliminarea înapoi și selecția în trepte.

În selecția înainte, se calculează statistica chi-pătrat de scor pentru fiecare efect care nu se află în model și se examinează cea mai mare dintre aceste statistici. Dacă aceasta este semnificativă la un anumit nivel de intrare, efectul corespunzător este adăugat la model. Odată ce un efect este introdus în model, acesta nu este niciodată eliminat din model. Procesul se repetă până când niciunul dintre efectele rămase nu îndeplinește nivelul specificat pentru intrare.

În eliminarea inversă, se examinează rezultatele testului Wald pentru parametrii individuali. Cel mai puțin semnificativ efect care nu îndeplinește nivelul pentru rămânerea în model este eliminat. Odată ce un efect este eliminat din model, acesta rămâne exclus. Procesul se repetă până când nici un alt efect din model nu mai îndeplinește nivelul specificat pentru eliminare.

Selecția pas cu pas este similară cu selecția înainte, cu excepția faptului că efectele care se află deja în model nu rămân neapărat. Efectele sunt introduse și eliminate din model în așa fel încât fiecare etapă de selecție înainte poate fi urmată de una sau mai multe etape de eliminare înapoi. Procesul de selecție în trepte se termină dacă niciun alt efect nu mai poate fi adăugat în model sau dacă efectul care tocmai a fost introdus în model este singurul efect eliminat în eliminarea inversă ulterioară

Algoritmul de selecție intenționată (PS) urmează o logică ușor diferită, așa cum a fost propus de Hosmer și Lemeshow . Această metodă de selecție a variabilelor nu a fost studiată sau comparată în mod sistematic cu alte metode de selecție statistică, cu excepția câtorva exemple numerice.

O parte importantă a acestui studiu a fost dezvoltarea și validarea unei macro SAS care automatizează procesul de selecție intenționată. Detaliile privind macroul și legătura cu macroul în sine sunt furnizate în anexă. Deoarece macroul a fost scris în SAS, comparăm performanța sa cu procedurile de selecție a variabilelor SAS PROC LOGISTIC, și anume FORWARD (FS), BACKWARD (BS) și STEPWISE (SS) .

Obiectivele acestei lucrări sunt: 1) evaluarea sistematică a algoritmului de selecție intenționată într-un studiu de simulare, comparându-l cu procedurile de selecție a variabilelor menționate mai sus, și 2) prezentarea aplicării acestuia pe setul de date motivant.

Selecția intenționată a covariatelor

Procesul de selecție intenționată începe cu o analiză univariată a fiecărei variabile. Orice variabilă care are un test univariat semnificativ la un anumit nivel arbitrar este selectată ca un candidat pentru analiza multivariată. Ne bazăm pe testul Wald din regresia logistică și pe punctul de tăiere al valorii p de 0,25. Nivelurile mai tradiționale, cum ar fi 0,05, pot eșua în identificarea variabilelor cunoscute ca fiind importante . În procesul iterativ de selecție a variabilelor, covariatele sunt eliminate din model dacă sunt nesemnificative și nu reprezintă un factor de confuzie. Semnificația este evaluată la un nivel alfa de 0,1, iar confuzie ca o schimbare în orice estimare a parametrilor rămași mai mare de, să zicem, 15% sau 20% în comparație cu modelul complet. O modificare a estimării unui parametru peste nivelul specificat indică faptul că variabila exclusă a fost importantă în sensul că a furnizat o ajustare necesară pentru una sau mai multe dintre variabilele rămase în model. La finalul acestui proces iterativ de eliminare, refacere și verificare, modelul conține covariate și factori de confuzie semnificativi. În acest moment, orice variabilă care nu a fost selectată pentru modelul multivariat inițial este adăugată din nou, una câte una, cu covariatele și factorii de confuzie semnificativi reținuți anterior. Această etapă poate fi utilă pentru a identifica variabilele care, prin ele însele, nu sunt legate în mod semnificativ de rezultat, dar care au o contribuție importantă în prezența altor variabile. Toate cele care sunt semnificative la nivelul 0,1 sau 0,15 sunt introduse în model, iar modelul este redus iterativ ca și înainte, dar numai pentru variabilele care au fost adăugate suplimentar. La sfârșitul acestei etape finale, analistul rămâne cu modelul preliminar al efectelor principale. Pentru mai multe detalii despre procesul de selecție intenționată, consultați Hosmer și Lemeshow .

Simulări

Am efectuat două studii de simulare pentru a evalua performanța algoritmului de selecție intenționată. În prima simulare am pornit de la ipoteza că avem 6 covariate la fel de importante (X1, …, X6 astfel încât X j ~U(-6, 6) pentru j = 1, …, 6), dintre care trei erau semnificative și trei care nu erau. Am stabilit β0 = -0,6, β1 = β2 = β3 = 0,122 și β4 = β5 = β6 = 0. Prin urmare, adevăratul logit din care am eșantionat a fost

Am efectuat 1000 de simulări pentru fiecare dintre cele 6 condiții în care am variat dimensiunea eșantionului (n = 60, 120, 240, 360, 360, 480 și 600). Măsura sumară a performanței algoritmului a fost procentul de ori în care fiecare procedură de selecție a variabilelor a păstrat doar X1, X2 și X3 în modelul final. (Pentru selecția PS, confuzia a fost setată la 20% și includerea necandidaților la 0,1, chiar dacă confuzia nu a fost simulată în această parte a studiului.)

Tabelul 1 arată procentul de ori în care a fost obținut modelul corect pentru patru proceduri de selecție în funcție de diferite dimensiuni ale eșantionului. Reținerea corectă crește odată cu mărimea eșantionului și este aproape identică pentru PS, SS și BS. Selecția FS nu se comportă la fel de bine ca celelalte trei, cu excepția nivelurilor mai mici ale mărimii eșantionului.

Tabelul 1 Rezultatele simulării.

În cea de-a doua simulare, am pornit de la aceeași ipoteză, că cele 6 covariate erau la fel de importante, dintre care două erau semnificative, una care era un factor de confuzie și trei care nu erau semnificative. Am presupus că X1 = Bernoulli (0,5), confunderul X2~U(-6, 3) dacă X1 = 1 și X2~U(-3, 6) dacă X1 = 0, și X3 – X6~U(-6, 6). Am creat confunderul X2 făcând ca distribuția acestei variabile să depindă de X1. Am stabilit β0 = -0,6, β1 = 1,2, β2 = 0,1, β3 = 0,122 și β4 = β5 = β6 = 0. Prin urmare, adevăratul logit din care am eșantionat a fost

Am efectuat 1000 de simulări pentru fiecare dintre cele 24 de condiții în care am variat dimensiunea eșantionului (n = 60, 120, 240, 360, 480 și 600), confuzia (15 % și 20 %) și includerea necandidaților (0,1 și 0,15). În mod similar, măsura sumară a performanței algoritmului a fost procentul de ori de câte ori fiecare procedură de selecție a variabilelor a reținut doar X1, X2 și X3 în modelul final.

Tabelul 2 arată procentul de ori în care s-a obținut modelul corect pentru patru proceduri de selecție în 24 de condiții simulate.

Tabelul 2 Rezultatele simulării

Încă o dată, proporția de modele reținute corect crește odată cu mărimea eșantionului pentru toate metodele de selecție. La nivelurile mai mici ale mărimii eșantionului, nicio procedură nu are performanțe foarte bune. FS se descurcă cel mai bine, cu excepția cazului în care incluziunea necandidaților este stabilită la 0,15, unde PS se descurcă mai bine. În cazul eșantioanelor mai mari, cum ar fi 480 și 600, PS, SS și BS converg către o proporție apropiată de păstrare corectă a modelelor, în timp ce FS se descurcă mult mai prost. În cazul prezenței confuziei, PS păstrează o proporție mai mare de modele corecte pentru toate cele șase dimensiuni ale eșantioanelor atunci când confuzia este setată fie la 15%, fie la 20%, iar includerea necandidaților la 0,15, în comparație cu celelalte trei metode. În celelalte scenarii, PS păstrează o proporție ușor mai mare de modele corecte decât celelalte proceduri de selecție a variabilelor, în principal pentru eșantioanele din intervalul 240-360.

În plus față de condițiile de simulare menționate, am modificat coeficientul variabilei de confuzie X2, făcându-l mai semnificativ la 0,13 și mai puțin semnificativ la 0,07. Prezentăm rezultatele pentru ambele scenarii cu confuzie setată la 15 % și cu includerea necandidaților la 0,15.

Când β2 = 0,13, tabelul 3 arată că PS, BS și, pe măsură ce dimensiunea eșantionului devine mai mare, SS au performanțe comparabile, păstrând o proporție similară de modele corecte. Acest lucru se datorează în primul rând faptului că X2 devine semnificativ într-o proporție mai mare de simulări și este reținut de aceste proceduri din cauza semnificației sale și nu a efectului de confuzie. Din nou, FS se descurcă în cea mai mare parte mai prost decât cele trei proceduri de selecție menționate anterior.

Tabelul 3 Rezultatele simulărilor.

Când β2 = 0,07, tabelul 3 arată că PS se descurcă mai bine pentru toate dimensiunile eșantioanelor decât alte proceduri de selecție a variabilelor; cu toate acestea, proporția de modele reținute corect este mai mică pentru toate procedurile. Acest lucru este rezultatul faptului că X2 devine nesemnificativ în mai multe simulări și nu este reținut. Tabelul 3 arată, de asemenea, modul în care X2 este reținută de PS din cauza efectului său de confuzie care este încă prezent.

.

Articles

Lasă un răspuns

Adresa ta de email nu va fi publicată.