I criteri per l’inclusione di una variabile nel modello variano tra problemi e discipline. L’approccio comune alla costruzione di modelli statistici è la minimizzazione delle variabili fino a trovare il modello più parsimonioso che descriva i dati, il che si traduce anche in stabilità numerica e generalizzabilità dei risultati. Alcuni metodologi suggeriscono l’inclusione di tutte le variabili cliniche e di altre variabili rilevanti nel modello, indipendentemente dalla loro significatività, al fine di controllare il confondimento. Questo approccio, tuttavia, può portare a stime numericamente instabili e a grandi errori standard. Questo articolo si basa sulla selezione mirata delle variabili nei metodi di regressione (con particolare attenzione alla regressione logistica in questo articolo) come proposto da Hosmer e Lemeshow.

È importante menzionare che con la rapida evoluzione dell’informatica e delle informazioni c’è stata una crescita nel campo dei metodi e degli algoritmi di selezione delle caratteristiche. Alcuni esempi includono hill-climbing, algoritmi greedy, eliminazione ricorsiva delle caratteristiche, filtraggio delle associazioni univariate e backward/forward wrapping, per nominarne alcuni. Questi metodi sono stati utilizzati in bioinformatica, diagnostica clinica, e alcuni sono universali per più applicazioni. Gli algoritmi Hill-climbing e greedy sono tecniche di ottimizzazione matematica utilizzate nell’intelligenza artificiale, che funzionano bene su alcuni problemi, ma non riescono a produrre soluzioni ottimali per molti altri. I metodi di filtraggio, avvolgimento ed eliminazione ricorsiva delle caratteristiche sono stati utilizzati in aree come l’elaborazione del testo o l’analisi delle matrici di espressione genica. Mentre questi sono potenti metodi di selezione che hanno migliorato le prestazioni dei predittori, sono spesso computazionalmente intensivi. Sono usati su grandi insiemi di dati, spesso con migliaia di variabili, introducendo il problema della dimensionalità e come alcuni altri metodi multivariati hanno il potenziale di sovradimensionare i dati. I metodi comunemente usati, che sono quelli su cui ci si concentra in questo articolo, sono la selezione in avanti, l’eliminazione all’indietro e la selezione graduale.

Nella selezione in avanti, la statistica chi-quadro del punteggio viene calcolata per ogni effetto non presente nel modello ed esamina la più grande di queste statistiche. Se è significativa ad un certo livello di ingresso, l’effetto corrispondente viene aggiunto al modello. Una volta che un effetto è inserito nel modello, non viene mai rimosso dal modello. Il processo viene ripetuto fino a quando nessuno degli effetti rimanenti soddisfa il livello specificato per l’ingresso.

Nell’eliminazione a ritroso, vengono esaminati i risultati del test di Wald per i singoli parametri. L’effetto meno significativo che non soddisfa il livello per rimanere nel modello viene rimosso. Una volta che un effetto viene rimosso dal modello, rimane escluso. Il processo viene ripetuto fino a quando nessun altro effetto nel modello soddisfa il livello specificato per la rimozione.

La selezione graduale è simile alla selezione in avanti, tranne che gli effetti già presenti nel modello non rimangono necessariamente. Gli effetti sono inseriti e rimossi dal modello in modo tale che ogni passo di selezione in avanti può essere seguito da uno o più passi di eliminazione all’indietro. Il processo di selezione graduale termina se nessun ulteriore effetto può essere aggiunto al modello o se l’effetto appena inserito nel modello è l’unico effetto rimosso nella successiva eliminazione a ritroso

L’algoritmo di selezione intenzionale (PS) segue una logica leggermente diversa come proposto da Hosmer e Lemeshow . Questo metodo di selezione delle variabili non è stato studiato o confrontato in modo sistematico con altri metodi di selezione statistica, con l’eccezione di alcuni esempi numerici.

Una parte importante di questo studio è stato lo sviluppo e la validazione di una macro SAS che automatizza il processo di selezione mirata. I dettagli sulla macro e il link alla macro stessa sono forniti nell’appendice. Poiché la macro è stata scritta in SAS, confrontiamo le sue prestazioni con le procedure di selezione delle variabili SAS PROC LOGISTIC, ovvero FORWARD (FS), BACKWARD (BS) e STEPWISE (SS).

Gli obiettivi di questo articolo sono 1) valutare sistematicamente l’algoritmo di selezione mirata in uno studio di simulazione confrontandolo con le procedure di selezione delle variabili sopra menzionate, e 2) mostrare la sua applicazione sul set di dati motivante.

Selezione mirata delle covariate

Il processo di selezione mirata inizia con un’analisi univariata di ogni variabile. Ogni variabile che ha un test univariato significativo ad un livello arbitrario è selezionata come candidato per l’analisi multivariata. Ci basiamo sul test di Wald della regressione logistica e sul punto di cut-off del p-value di 0,25. Livelli più tradizionali come 0,05 possono fallire nell’identificare le variabili note per essere importanti. Nel processo iterativo di selezione delle variabili, le covariate vengono rimosse dal modello se non sono significative e non sono un confondente. La significatività è valutata al livello alfa 0,1 e il confondimento come un cambiamento in qualsiasi stima del parametro rimanente maggiore di, diciamo, 15% o 20% rispetto al modello completo. Un cambiamento nella stima di un parametro al di sopra del livello specificato indica che la variabile esclusa era importante nel senso di fornire un aggiustamento necessario per una o più delle variabili rimaste nel modello. Alla fine di questo processo iterativo di eliminazione, riadattamento e verifica, il modello contiene covariate e confondenti significative. A questo punto ogni variabile non selezionata per il modello multivariato originale viene aggiunta di nuovo una alla volta, con le covariate e i confondenti significativi mantenuti in precedenza. Questo passo può essere utile per identificare le variabili che, da sole, non sono significativamente correlate all’esito ma danno un contributo importante in presenza di altre variabili. Tutte quelle che sono significative al livello 0,1 o 0,15 vengono inserite nel modello, e il modello viene ridotto iterativamente come prima ma solo per le variabili che sono state aggiunte. Alla fine di questa fase finale, l’analista si ritrova con il modello preliminare degli effetti principali. Per maggiori dettagli sul processo di selezione mirata, fare riferimento a Hosmer e Lemeshow.

Simulazioni

Abbiamo condotto due studi di simulazione per valutare le prestazioni dell’algoritmo di selezione mirata. Nella prima simulazione siamo partiti dal presupposto di avere 6 covariate ugualmente importanti (X1, …, X6 tali che X j ~U(-6, 6) per j = 1, …, 6), tre delle quali erano significative e tre no. Abbiamo impostato β0 = -0,6, β1 = β2 = β3 = 0,122, e β4 = β5 = β6 = 0. Pertanto, il vero logit che abbiamo campionato era

Abbiamo condotto 1000 simulazioni per ciascuna delle 6 condizioni in cui abbiamo variato la dimensione del campione (n = 60, 120, 240, 360, 480, e 600). La misura riassuntiva delle prestazioni dell’algoritmo è stata la percentuale di volte che ogni procedura di selezione delle variabili ha mantenuto solo X1, X2 e X3 nel modello finale. (Per la selezione PS, il confondimento è stato impostato al 20% e l’inclusione dei non candidati a 0,1, anche se il confondimento non è stato simulato in questa parte dello studio.)

La tabella 1 mostra la percentuale di volte che il modello corretto è stato ottenuto per quattro procedure di selezione sotto varie dimensioni del campione. La ritenzione corretta aumenta con la dimensione del campione, ed è quasi identica per PS, SS e BS. La selezione FS non si comporta bene come le altre tre, ad eccezione dei livelli di dimensione del campione più bassi.

Tabella 1 Risultati della simulazione.

Nella seconda simulazione, abbiamo iniziato con lo stesso presupposto, che le 6 covariate fossero ugualmente importanti, due delle quali erano significative, una che era un confondente, e tre che non erano significative. Abbiamo assunto che X1 = Bernoulli (0,5), il confonditore X2~U(-6, 3) se X1 = 1 e X2~U(-3, 6) se X1 = 0, e X3 – X6~U(-6, 6). Abbiamo creato il confonditore X2 rendendo la distribuzione di questa variabile dipendente da X1. Abbiamo impostato β0 = -0,6, β1 = 1,2, β2 = 0,1, β3 = 0,122, e β4 = β5 = β6 = 0. Pertanto, il vero logit da cui abbiamo campionato era

Abbiamo condotto 1000 simulazioni per ciascuna delle 24 condizioni in cui abbiamo variato la dimensione del campione (n = 60, 120, 240, 360, 480 e 600), il confondimento (15% e 20%) e l’inclusione dei non candidati (0,1 e 0,15). Allo stesso modo, la misura riassuntiva delle prestazioni dell’algoritmo è stata la percentuale di volte che ogni procedura di selezione delle variabili ha mantenuto solo X1, X2 e X3 nel modello finale.

La tabella 2 mostra la percentuale di volte che il modello corretto è stato ottenuto per quattro procedure di selezione in 24 condizioni simulate.

Tabella 2 Risultati della simulazione

Ancora una volta, la percentuale di modelli mantenuti correttamente aumenta con la dimensione del campione per tutti i metodi di selezione. Ai livelli più bassi di dimensione del campione nessuna procedura si comporta molto bene. FS dà il meglio con le eccezioni quando l’inclusione dei non-candidati è impostata a 0,15, dove PS ha prestazioni migliori. Con i campioni più grandi come 480 e 600, PS, SS e BS convergono verso una proporzione vicina di mantenimento del modello corretto, mentre FS fa notevolmente peggio. Con il confondimento presente, PS mantiene una proporzione maggiore di modelli corretti per tutte e sei le dimensioni del campione quando il confondimento è impostato al 15% o al 20% e l’inclusione dei non-candidati a 0,15 rispetto agli altri tre metodi. Negli altri scenari, PS mantiene una proporzione leggermente maggiore di modelli corretti rispetto alle altre procedure di selezione delle variabili, soprattutto per i campioni nell’intervallo 240-360.

Oltre alle condizioni di simulazione menzionate, abbiamo manomesso il coefficiente della variabile di confondimento X2, rendendolo più significativo a 0,13, e meno significativo a 0,07. Mostriamo i risultati per entrambi gli scenari con il confondimento impostato al 15% e l’inclusione dei non candidati a 0,15.

Quando β2 = 0,13, la tabella 3 mostra che PS, BS, e con l’aumentare della dimensione del campione, SS hanno prestazioni comparabili, mantenendo una percentuale simile di modelli corretti. Questo è dovuto principalmente al fatto che X2 diventa significativo in una percentuale maggiore di simulazioni e viene mantenuto da queste procedure a causa della sua significatività e non dell’effetto di confondimento. FS fa di nuovo peggio delle tre procedure di selezione precedentemente menzionate.

Tabella 3 Risultati delle simulazioni.

Quando β2 = 0,07, la tabella 3 mostra che PS si comporta meglio in tutte le dimensioni del campione rispetto alle altre procedure di selezione delle variabili; tuttavia, la percentuale di modelli correttamente mantenuti è inferiore per tutte le procedure. Questo è il risultato del fatto che X2 diventa non significativo in più simulazioni e non viene mantenuto. La tabella 3 mostra anche come X2 sia stato preso da PS a causa del suo effetto di confondimento che è ancora presente.

Articles

Lascia un commento

Il tuo indirizzo email non sarà pubblicato.