Kryteria włączenia zmiennej do modelu różnią się w zależności od problemu i dyscypliny. Powszechnym podejściem do budowania modeli statystycznych jest minimalizacja zmiennych aż do znalezienia najbardziej parsymonicznego modelu opisującego dane, co skutkuje również stabilnością numeryczną i uogólnialnością wyników. Niektórzy metodolodzy sugerują włączenie do modelu wszystkich zmiennych klinicznych i innych istotnych zmiennych, niezależnie od ich istotności, w celu kontroli czynników zakłócających. Takie podejście może jednak prowadzić do niestabilnych numerycznie oszacowań i dużych błędów standardowych. Niniejszy artykuł opiera się na celowej selekcji zmiennych w metodach regresji (ze szczególnym uwzględnieniem regresji logistycznej w tym artykule) zaproponowanej przez Hosmera i Lemeshow .

Należy wspomnieć, że wraz z szybkim rozwojem informatyki i informacji nastąpił wzrost w dziedzinie metod i algorytmów selekcji cech. Niektóre przykłady obejmują hill-climbing, algorytmy zachłanne, rekursywną eliminację cech, jednoczynnikowe filtrowanie asocjacyjne i zawijanie wstecz/do przodu, aby wymienić tylko kilka. Metody te zostały wykorzystane w bioinformatyce, diagnostyce klinicznej, a niektóre z nich są uniwersalne dla wielu zastosowań. Algorytmy hill-climbing i greedy są matematycznymi technikami optymalizacji stosowanymi w sztucznej inteligencji, które dobrze sprawdzają się w przypadku pewnych problemów, ale nie dają optymalnych rozwiązań dla wielu innych. Metody filtrowania, zawijania i rekursywnej eliminacji cech są stosowane w takich dziedzinach jak przetwarzanie tekstu lub analiza macierzy ekspresji genów. Podczas gdy są to potężne metody selekcji, które poprawiły wydajność predyktorów, są one często intensywne obliczeniowo. Są one stosowane na dużych zbiorach danych, często z tysiącami zmiennych, wprowadzając problem wymiarowości i podobnie jak niektóre inne metody wielowymiarowe mają potencjał do nadmiernego dopasowania danych .

Several variable selection methods are available in commercial software packages. Powszechnie stosowane metody, które są tymi, na których skupiono się w tym artykule, to selekcja w przód, eliminacja wsteczna i selekcja krokowa.

W selekcji w przód, wynik chi kwadrat statystyka jest obliczana dla każdego efektu nie w modelu i bada największą z tych statystyk. Jeśli jest ona znacząca na pewnym poziomie wejściowym, odpowiedni efekt jest dodawany do modelu. Gdy efekt zostanie wprowadzony do modelu, nigdy nie jest z niego usuwany. Proces ten jest powtarzany do momentu, gdy żaden z pozostałych efektów nie spełnia określonego poziomu wejścia.

W eliminacji wstecznej badane są wyniki testu Walda dla poszczególnych parametrów. Usuwany jest najmniej istotny efekt, który nie spełnia poziomu dla pozostania w modelu. Po usunięciu efektu z modelu pozostaje on wykluczony. Proces ten jest powtarzany do momentu, gdy żaden inny efekt w modelu nie spełnia określonego poziomu do usunięcia.

Selekcja krokowa jest podobna do selekcji w przód, z tą różnicą, że efekty już znajdujące się w modelu nie muszą pozostać. Efekty są wprowadzane do modelu i usuwane z niego w taki sposób, że po każdym kroku selekcji w przód może następować jeden lub więcej kroków eliminacji wstecznej. Proces selekcji krokowej kończy się, jeśli żaden kolejny efekt nie może być dodany do modelu lub jeśli efekt właśnie wprowadzony do modelu jest jedynym efektem usuniętym w kolejnej eliminacji wstecznej

Algorytm selekcji celowej (PS) podąża za nieco inną logiką zaproponowaną przez Hosmera i Lemeshowa . Ta metoda selekcji zmiennych nie była badana ani porównywana w sposób systematyczny z innymi metodami selekcji statystycznej, z wyjątkiem kilku przykładów liczbowych.

Ważną częścią tego badania było opracowanie i walidacja makra SAS, które automatyzuje proces celowej selekcji. Szczegóły dotyczące tego makra oraz link do samego makra znajdują się w załączniku. Ponieważ makro zostało napisane w SAS, porównujemy jego działanie z procedurami wyboru zmiennych SAS PROC LOGISTIC, a mianowicie FORWARD (FS), BACKWARD (BS) i STEPWISE (SS) .

Celem niniejszej pracy jest 1) systematyczna ocena algorytmu celowej selekcji w badaniu symulacyjnym poprzez porównanie go z wyżej wymienionymi procedurami selekcji zmiennych oraz 2) pokazanie jego zastosowania na motywującym zbiorze danych.

Celowa selekcja kowariantów

Proces celowej selekcji rozpoczyna się od analizy jednoczynnikowej każdej zmiennej. Każda zmienna posiadająca znaczący test jednoczynnikowy na pewnym arbitralnym poziomie jest wybierana jako kandydat do analizy wieloczynnikowej. Bazujemy na teście Walda z regresji logistycznej i punkcie odcięcia p-value równym 0,25. Bardziej tradycyjne poziomy, takie jak 0,05, mogą zawodzić w identyfikacji zmiennych, o których wiadomo, że są istotne. W iteracyjnym procesie selekcji zmiennych, kowarianty są usuwane z modelu, jeśli są nieistotne i nie są czynnikiem zakłócającym. Istotność jest oceniana na poziomie 0,1 alfa, a konfundowanie jako zmiana w każdej pozostałej estymacie parametru większa niż, powiedzmy, 15% lub 20% w porównaniu z pełnym modelem. Zmiana w oszacowaniu parametru powyżej określonego poziomu wskazuje, że wyłączona zmienna była istotna w sensie dostarczenia potrzebnej korekty dla jednej lub więcej zmiennych pozostających w modelu. Na koniec tego iteracyjnego procesu usuwania, ponownego dopasowywania i weryfikacji, model zawiera istotne kowarianty i czynniki zakłócające. W tym momencie każda zmienna, która nie została wybrana do oryginalnego modelu wieloczynnikowego, jest dodawana z powrotem jedna po drugiej, z zachowaniem istotnych zmiennych współzmiennych i czynników zakłócających. Ten krok może być pomocny w identyfikacji zmiennych, które, same w sobie, nie są znacząco związane z wynikiem, ale wnoszą istotny wkład w obecności innych zmiennych. Wszystkie, które są istotne na poziomie 0,1 lub 0,15 są umieszczane w modelu, a model jest iteracyjnie redukowany jak poprzednio, ale tylko dla zmiennych, które zostały dodatkowo dodane. Na koniec tego ostatniego kroku, analitykowi pozostaje wstępny model efektów głównych. Więcej szczegółów na temat procesu celowej selekcji można znaleźć w pracy Hosmer i Lemeshow .

Symulacje

W celu oceny działania algorytmu celowej selekcji przeprowadziliśmy dwa badania symulacyjne. W pierwszej symulacji zaczęliśmy od założenia, że mamy 6 równie ważnych kowariantów (X1, …, X6 takich, że X j ~U(-6, 6) dla j = 1, …, 6), z których trzy były istotne, a trzy nie. Ustawiliśmy β0 = -0.6, β1 = β2 = β3 = 0.122, oraz β4 = β5 = β6 = 0. Zatem prawdziwy logit, z którego pobieraliśmy próbki wynosił

Przeprowadziliśmy 1000 symulacji dla każdego z 6 warunków, w których zmienialiśmy wielkość próby (n = 60, 120, 240, 360, 480, oraz 600). Podsumowującą miarą wydajności algorytmu był procent przypadków, w których każda procedura selekcji zmiennych zachowała tylko X1, X2 i X3 w ostatecznym modelu. (Dla selekcji PS, konfundację ustawiono na 20%, a włączenie niekandydata na 0,1, chociaż konfundacja nie była symulowana w tej części badania.)

Tabela 1 pokazuje procent przypadków, w których poprawny model został uzyskany dla czterech procedur selekcji przy różnych wielkościach próby. Poprawna retencja wzrasta wraz z wielkością próbki i jest prawie identyczna dla PS, SS i BS. Selekcja FS nie działa tak dobrze jak pozostałe trzy, z wyjątkiem niższych poziomów wielkości próby.

Tabela 1 Wyniki symulacji.

W drugiej symulacji, zaczęliśmy od tego samego założenia, że 6 zmiennych było równie ważnych, z których dwa były znaczące, jeden był confounderem, a trzy nie były znaczące. Założyliśmy, że X1 = Bernoulli (0.5), konfounder X2~U(-6, 3) jeśli X1 = 1 i X2~U(-3, 6) jeśli X1 = 0, oraz X3 – X6~U(-6, 6). Stworzyliśmy konfundator X2 uzależniając rozkład tej zmiennej od X1. Ustaliliśmy β0 = -0.6, β1 = 1.2, β2 = 0.1, β3 = 0.122, oraz β4 = β5 = β6 = 0. Zatem prawdziwy logit, z którego pobieraliśmy próbki, to

Przeprowadziliśmy 1000 symulacji dla każdego z 24 warunków, w których zmienialiśmy wielkość próby (n = 60, 120, 240, 360, 480 i 600), konfundację (15% i 20%) oraz włączenie niekandydata (0,1 i 0,15). Podobnie, podsumowującą miarą wydajności algorytmu był procent przypadków, w których każda procedura selekcji zmiennych zachowała tylko X1, X2 i X3 w modelu końcowym.

Tabela 2 pokazuje procent przypadków, w których uzyskano poprawny model dla czterech procedur selekcji w 24 symulowanych warunkach.

Tabela 2 Wyniki symulacji

Ponownie, odsetek poprawnie zachowanych modeli wzrasta wraz z wielkością próby dla wszystkich metod selekcji. Na niższych poziomach liczebności próby żadna procedura nie działa bardzo dobrze. FS radzi sobie najlepiej z wyjątkami, gdy inkluzja niekandydata jest ustawiona na 0.15, gdzie PS radzi sobie lepiej. Przy większych próbach, takich jak 480 i 600, PS, SS i BS zbiegają się w kierunku zbliżonej proporcji poprawnego zachowania modelu, podczas gdy FS radzi sobie znacznie gorzej. W przypadku obecności konfundacji, PS zachowuje większy odsetek poprawnych modeli dla wszystkich sześciu wielkości prób, gdy konfundacja jest ustawiona na 15% lub 20%, a włączenie niekandydata na 0,15 w porównaniu z pozostałymi trzema metodami. W pozostałych scenariuszach, PS zachowuje nieco większy odsetek poprawnych modeli niż pozostałe procedury doboru zmiennych, głównie dla prób z zakresu 240-360.

Oprócz wspomnianych warunków symulacji, manipulowaliśmy współczynnikiem zmiennej konfundującej X2, czyniąc go bardziej znaczącym na poziomie 0.13 i mniej znaczącym na poziomie 0.07. Pokazujemy wyniki dla obu scenariuszy z konfundacją ustawioną na 15% i inkluzją niekandydata na poziomie 0.15.

Gdy β2 = 0.13, Tabela 3 pokazuje, że PS, BS i wraz ze wzrostem wielkości próby, SS radzą sobie porównywalnie, zachowując podobny odsetek poprawnych modeli. Wynika to przede wszystkim z faktu, że X2 staje się istotny w większej części symulacji i jest zatrzymywany przez te procedury ze względu na swoją istotność, a nie efekt konfundujący. FS ponownie w większości przypadków wypada gorzej niż trzy poprzednio wymienione procedury selekcji.

Tabela 3 Wyniki symulacji.

Gdy β2 = 0,07, Tabela 3 pokazuje, że PS wypada lepiej dla wszystkich wielkości prób niż inne procedury selekcji zmiennych; jednakże odsetek poprawnie zatrzymanych modeli jest niższy dla wszystkich procedur. Wynika to z faktu, że X2 staje się nieistotny w większej liczbie symulacji i nie jest zachowywany. Tabela 3 pokazuje również, w jaki sposób X2 jest wyłapywany przez PS ze względu na jego efekt konfundujący, który jest nadal obecny.

Articles

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany.