Kritéria pro zařazení proměnné do modelu se mezi jednotlivými problémy a obory liší. Běžným přístupem k sestavování statistických modelů je minimalizace proměnných, dokud není nalezen nejparsimoničtější model, který popisuje data, což vede také k numerické stabilitě a zobecnitelnosti výsledků. Někteří metodologové doporučují zahrnout do modelu všechny klinické a další relevantní proměnné bez ohledu na jejich významnost, aby bylo možné kontrolovat zmatení. Tento přístup však může vést k numericky nestabilním odhadům a velkým standardním chybám. Tento článek vychází z účelného výběru proměnných v regresních metodách (se specifickým zaměřením na logistickou regresi v tomto článku), jak jej navrhli Hosmer a Lemeshow .

Je důležité zmínit, že s rychlým rozvojem výpočetní techniky a informací došlo k nárůstu v oblasti metod a algoritmů výběru příznaků. Mezi příklady patří například hill-climbing, greedy algoritmy, rekurzivní eliminace příznaků, jednorozměrné asociační filtrování a zpětné/přední obalování. Tyto metody se používají v bioinformatice, klinické diagnostice a některé jsou univerzální pro více aplikací. Hill-climbing a greedy algoritmy jsou matematické optimalizační techniky používané v umělé inteligenci, které dobře fungují u určitých problémů, ale u mnoha jiných nedokážou poskytnout optimální řešení . Metody filtrování, obalování a rekurzivní eliminace příznaků se používají v oblastech, jako je zpracování textu nebo analýza genových expresních polí. Jedná se sice o výkonné výběrové metody, které zlepšily výkonnost prediktorů, ale často jsou výpočetně náročné. Používají se na velkých souborech dat, často s tisíci proměnnými, což zavádí problém dimenzionality a stejně jako některé jiné vícerozměrné metody mají potenciál k nadměrnému přizpůsobení dat .

V komerčních softwarových balících je k dispozici několik metod výběru proměnných. Běžně používané metody, na které se zaměřuje tento článek, jsou přímý výběr, zpětná eliminace a postupný výběr.

Při přímém výběru se pro každý účinek, který není v modelu, vypočítá statistika chí-kvadrát skóre a zkoumá se největší z těchto statistik. Pokud je na určité vstupní úrovni významná, přidá se příslušný účinek do modelu. Jakmile je účinek jednou do modelu vložen, není z modelu nikdy odstraněn. Tento proces se opakuje, dokud žádný ze zbývajících účinků nesplňuje stanovenou vstupní úroveň.

Při zpětné eliminaci se zkoumají výsledky Waldova testu pro jednotlivé parametry. Odstraní se nejméně významný účinek, který nesplňuje hladinu pro setrvání v modelu. Jakmile je účinek z modelu odstraněn, zůstává vyloučen. Proces se opakuje, dokud žádný další účinek v modelu nesplňuje stanovenou úroveň pro odstranění.

Postupná selekce je podobná dopředné selekci s tím rozdílem, že účinky, které již v modelu jsou, nemusí nutně zůstat. Účinky jsou do modelu vkládány a z modelu odstraňovány tak, že po každém kroku dopředné selekce může následovat jeden nebo více kroků zpětné eliminace. Proces postupného výběru končí, pokud do modelu nelze přidat žádný další účinek nebo pokud je účinek právě vložený do modelu jediným účinkem odstraněným v následné zpětné eliminaci

Algoritmus účelového výběru (PS) se řídí poněkud odlišnou logikou, jak ji navrhli Hosmer a Lemeshow . Tato metoda výběru proměnných nebyla systematicky studována ani porovnávána s jinými metodami statistického výběru, s výjimkou několika numerických příkladů.

Důležitou součástí této studie byl vývoj a ověření makra SAS, které automatizuje proces účelového výběru. Podrobnosti o makru a odkaz na samotné makro jsou uvedeny v příloze. Vzhledem k tomu, že makro bylo napsáno v systému SAS, porovnáváme jeho výkonnost s procedurami výběru proměnných SAS PROC LOGISTIC, konkrétně FORWARD (FS), BACKWARD (BS) a STEPWISE (SS) .

Cíle tohoto článku jsou 1) systematicky vyhodnotit algoritmus účelového výběru v simulační studii porovnáním s výše uvedenými postupy výběru proměnných a 2) ukázat jeho použití na motivačním souboru dat.

Účelový výběr kovariát

Postup účelového výběru začíná jednorozměrnou analýzou každé proměnné. Každá proměnná, která má významný univariační test na určité libovolné úrovni, je vybrána jako kandidát pro vícerozměrnou analýzu. Vycházíme přitom z Waldova testu z logistické regrese a hraniční hodnoty p 0,25. Tradičnější úrovně, jako je 0,05, mohou selhat při identifikaci proměnných, o nichž je známo, že jsou důležité . V iteračním procesu výběru proměnných jsou kovariáty z modelu odstraněny, pokud jsou nevýznamné a nejsou matoucí. Významnost se hodnotí na hladině alfa 0,1 a zmatení jako změna jakéhokoli odhadu zbývajícího parametru větší než například 15 % nebo 20 % ve srovnání s úplným modelem. Změna odhadu parametru nad uvedenou hladinu znamená, že vyloučená proměnná byla důležitá ve smyslu poskytnutí potřebné úpravy pro jednu nebo více proměnných, které v modelu zůstaly. Na konci tohoto iteračního procesu vyřazování, opětovného přizpůsobování a ověřování model obsahuje významné kovariáty a matoucí proměnné. V tomto okamžiku jsou všechny proměnné, které nebyly vybrány do původního vícerozměrného modelu, přidány zpět jedna po druhé, přičemž významné kovariáty a confoundery byly zachovány dříve. Tento krok může být užitečný při identifikaci proměnných, které samy o sobě nemají významný vztah k výsledku, ale významně přispívají v přítomnosti jiných proměnných. Všechny, které jsou významné na hladině 0,1 nebo 0,15, jsou zařazeny do modelu a model je iterativně redukován jako dříve, ale pouze pro proměnné, které byly dodatečně přidány. Na konci tohoto posledního kroku zůstane analytikovi předběžný model hlavních efektů. Podrobnější informace o procesu účelového výběru naleznete v publikaci Hosmer a Lemeshow .

Simulace

Provedli jsme dvě simulační studie k vyhodnocení výkonnosti algoritmu účelového výběru. V první simulaci jsme vycházeli z předpokladu, že máme 6 stejně důležitých kovariát (X1, …, X6 takových, že X j ~U(-6, 6) pro j = 1, …, 6), z nichž tři byly významné a tři nikoli. Nastavili jsme β0 = -0,6, β1 = β2 = β3 = 0,122 a β4 = β5 = β6 = 0. Skutečný logit, ze kterého jsme vybírali, byl tedy

Provedli jsme 1000 simulačních běhů pro každou ze 6 podmínek, ve kterých jsme měnili velikost vzorku (n = 60, 120, 240, 360, 480 a 600). Souhrnným měřítkem výkonnosti algoritmu bylo procento případů, kdy každý postup výběru proměnné zachoval v konečném modelu pouze X1, X2 a X3. (Pro výběr PS bylo nastaveno zmatení na 20 % a zahrnutí nekandidátů na 0,1, i když v této části studie nebylo zmatení simulováno)

Tabulka 1 ukazuje procento případů, kdy byl získán správný model pro čtyři výběrové postupy při různých velikostech vzorku. Správné zachycení se zvyšuje s velikostí vzorku a je téměř shodné pro PS, SS a BS. Výběr FS nefunguje tak dobře jako ostatní tři s výjimkou nižších úrovní velikosti vzorku.

Tabulka 1 Výsledky simulace.

Ve druhé simulaci jsme začali se stejným předpokladem, že 6 kovariát je stejně důležitých, z nichž dvě jsou významné, jedna je matoucí a tři nejsou významné. Předpokládali jsme, že X1 = Bernoulli (0,5), confounder X2~U(-6, 3), pokud X1 = 1, a X2~U(-3, 6), pokud X1 = 0, a X3 – X6~U(-6, 6). Konfounder X2 jsme vytvořili tak, že jsme rozdělení této proměnné učinili závislým na X1. Nastavili jsme β0 = -0,6, β1 = 1,2, β2 = 0,1, β3 = 0,122 a β4 = β5 = β6 = 0. Skutečný logit, ze kterého jsme vybírali, byl tedy

Provedli jsme 1000 simulací pro každou z 24 podmínek, ve kterých jsme měnili velikost vzorku (n = 60, 120, 240, 360, 480 a 600), zmatení (15 % a 20 %) a zahrnutí nekandidátů (0,1 a 0,15). Podobně bylo souhrnným měřítkem výkonnosti algoritmu procento případů, kdy každý postup výběru proměnných zachoval v konečném modelu pouze X1, X2 a X3.

Tabulka 2 ukazuje procento případů, kdy byl získán správný model pro čtyři výběrové postupy za 24 simulovaných podmínek.

Tabulka 2 Výsledky simulace

Podíl správně zachovaných modelů opět roste s velikostí vzorku u všech výběrových metod. Na nižších úrovních velikosti vzorku si žádný postup nevede příliš dobře. Nejlépe si vede FS s výjimkami, kdy je zařazení nekandidátů nastaveno na hodnotu 0,15, kde si lépe vede PS. Při větších vzorcích, jako je 480 a 600, PS, SS a BS konvergují k blízkému podílu správně zachovaných modelů, zatímco FS si vede výrazně hůře. Při přítomnosti zmatení zachovává PS větší podíl správných modelů pro všech šest velikostí vzorků, pokud je zmatení nastaveno na 15 % nebo 20 % a zahrnutí nekandidátů na 0,15 ve srovnání s ostatními třemi metodami. V ostatních scénářích zachovává PS o něco větší podíl správných modelů než ostatní postupy výběru proměnných, a to hlavně pro vzorky v rozmezí 240-360.

Kromě zmíněných simulačních podmínek jsme manipulovali s koeficientem konfidenční proměnné X2 tak, že jsme jej učinili významnějším při hodnotě 0,13 a méně významným při hodnotě 0,07. V případě, že jsme se rozhodli pro výběr proměnných v rozmezí 240-360, zachovává PS o něco větší podíl správných modelů než ostatní postupy výběru proměnných. Uvádíme výsledky pro oba scénáře s konfidencí nastavenou na 15 % a se zahrnutím nekandidátů na 0,15.

Pokud je β2 = 0,13, tabulka 3 ukazuje, že PS, BS a s rostoucí velikostí vzorku i SS mají srovnatelný výkon a zachovávají podobný podíl správných modelů. To je způsobeno především tím, že X2 se stává významným ve větším podílu simulací a je těmito postupy zachován z důvodu své významnosti, nikoliv matoucího vlivu. FS si opět většinou vede hůře než tři dříve uvedené výběrové postupy.

Tabulka 3 Výsledky simulací.

Pokud β2 = 0,07, tabulka 3 ukazuje, že PS si vede lépe při všech velikostech vzorků než ostatní výběrové postupy proměnných; podíl správně zachovaných modelů je však u všech postupů nižší. Je to důsledek toho, že X2 se ve více simulacích stává nevýznamnou a není zachována. Tabulka 3 také ukazuje, jak je X2 vybírána pomocí PS kvůli svému matoucímu vlivu, který je stále přítomen.

.

Articles

Napsat komentář

Vaše e-mailová adresa nebude zveřejněna.