ロジスティック回帰における目的別変数の選択｜生物学・医学のソースコード

モデルに変数を含める基準は、問題や分野によって異なります。統計的モデル構築の一般的なアプローチは、データを記述する最も簡略化されたモデルが見つかるまで変数を最小化することであり、これは結果の数値的安定性と一般化可能性をももたらすものである。方法論者の中には、交絡をコントロールするために、有意性に関係なく、すべての臨床変数や他の関連する変数をモデルに含めることを提案する人もいる。しかし、この方法は、数値的に不安定な推定値と大きな標準誤差をもたらす可能性がある。この論文は、Hosmer と Lemeshow によって提案された回帰法（この論文ではロジスティック回帰に特に焦点を当てる）における変数の目的別選択に基づいている。

コンピュータと情報の急速な進化に伴い、特徴選択法とアルゴリズムの分野で成長していることを言及することは重要である。例えば、ヒルクライミング、貪欲アルゴリズム、再帰的特徴除去、一変量アソシエーションフィルタリング、バックワード・フォワードラッピングなどである。これらの手法は、バイオインフォマティクスや臨床診断に利用されており、中には複数のアプリケーションに共通するものもある。ヒルクライミングや貪欲アルゴリズムは、人工知能に用いられる数学的最適化手法であり、特定の問題ではうまく機能するが、他の多くの問題では最適解を得ることができない。フィルタリング、ラッピング、再帰的特徴除去法は、テキスト処理や遺伝子発現配列解析などの分野で利用されている。これらは予測器の性能を向上させる強力な選択法であるが、多くの場合、計算量が多い。また、他の多変量解析手法と同様に、データを過剰に適合させる可能性がある。

商用ソフトウェアパッケージには、いくつかの変数選択手法がある。

前方選択では、モデル内にない各効果についてスコアカイ二乗統計量が計算され、これらの統計量のうち最大のものを検討する。それがあるエントリレベルで有意であれば、対応する効果がモデルに追加される。一旦モデルに入れられた効果は，モデルから削除されることはない． 3480>

後方消去法では，個々のパラメータに対する Wald 検定の結果が調べられる．モデル内に留まるためのレベルを満たさない最も有意でない効果が除去される。一旦モデルから削除されると、その効果は除外されたままである。このプロセスは，モデル中の他のどの効果も除去のための指定された水準を満たさないまで繰り返される．

ステップワイズ選択は，すでにモデル中の効果が必ずしも残らないことを除いて，フォワード選択と同様である．各前方選択ステップの後に1つ以上の後方除去ステップが続くように、効果がモデルに入力されたり、モデルから除去されたりする。段階的選択のプロセスは、これ以上の効果をモデルに加えることができない場合、あるいは、モデルに入力されたばかりの効果が、その後の後方消去で除去された唯一の効果である場合に終了する

目的別選択アルゴリズム（PS）は、Hosmer と Lemeshow が提案したように少し異なる論理に従う。この変数選択法は、いくつかの数値例を除いて、他の統計的選択法と体系的に研究・比較されていない

この研究の重要な部分は、目的別選択プロセスを自動化するSASマクロの開発・検証である。マクロの詳細とマクロ自体へのリンクは付録で提供されている。マクロはSASで書かれているので、その性能をSAS PROC LOGISTICの変数選択手続き、すなわちFORWARD (FS), BACKWARD (BS), およびSTEPWISE (SS) と比較します。

本論文の目的は、1）上記の変数選択手順と比較することにより、シミュレーションスタディで目的別選択アルゴリズムを系統的に評価すること、2）動機となるデータセットへの適用を示すことです。

共変量の目的別選択

目的別選択プロセスは各変数の一変量分析から始まります。ある任意の水準で有意な一変量検定を持つ任意の変数が、多変量解析の候補として選択される。我々は、これをロジスティック回帰からのWald検定と0.25のp値カットオフ・ポイントに基づいています。 0.05のような伝統的なレベルでは、重要であることが知られている変数を識別するのに失敗することがあります。変数選択の反復プロセスでは，共変量が有意でなく，交絡因子でない場合は，モデルから除去される．有意性は，0.1アルファ・レベルで評価され，交絡は，残りのすべてのパラメータ推定値が，たとえば，フルモデルと比較して，15%または20%より大きい変化として評価される．指定されたレベル以上のパラメータ推定値の変化は，除外された変数が，モデルに残っている1つまたは複数の変数に必要な調整を与えるという意味で重要であったことを示す．この削除、適合、検証の繰り返しプロセスの最後に、モデルには有意な共変量と交絡因子が含まれます。この時点で、元の多変量モデルで選択されなかったすべての変数が、重要な共変量と交絡因子を先に保持したまま、1つずつ追加されます。このステップは，それ自身は結果に有意に関係しないが，他の変数の存在下で重要な寄与をする変数を識別するのに有用である． 0.1 または 0.15 の水準で有意なものはすべて，モデルに入れられ，モデルは，追加された変数のみについて，前と同様に反復的に削減される．この最終ステップの最後に、分析者は予備的な主効果モデルを残します。 3480>

Simulations

我々は、purposeful selectionアルゴリズムのパフォーマンスを評価するために、2つのシミュレーション・スタディを実施した。最初のシミュレーションでは，6つの等しく重要な共変量（X1, …, X6 such that X j ~U(-6, 6) for j = 1, …, 6）があり，そのうち3つが有意で，3つが有意でないという仮定から出発した．したがって、サンプリングした真のロジットは

サンプルサイズを変えた6条件（n=60、120、240、360、480、600）でそれぞれ1000回シミュレーションを行った。アルゴリズムの性能の要約指標は、各変数選択手順が最終モデルでX1、X2、X3のみを保持した回数の割合である。 (この部分では交絡はシミュレーションされなかったが、PS選択では交絡を20%に、非候補包含を0.1に設定した)

表1は、様々なサンプルサイズの下で4つの選択手順で正しいモデルが得られた回数のパーセントを示す。正しい保持率はサンプルサイズとともに増加し、PS、SS、BSではほぼ同じである。 FS選択はサンプルサイズが小さい場合を除き、他の3つほどうまくいかない。

表1 シミュレーション結果

2度目のシミュレーションでは、同じ仮定、つまり6つの共変量が等しく重要で、そのうち2つが有意、1つが交絡因子、3つが有意でない、から開始した。 X1 = Bernoulli (0.5)、交絡因子 X2~U(-6, 3) if X1 = 1 and X2~U(-3, 6) if X1 = 0、X3 – X6~U(-6, 6) と仮定しました。交絡因子X2は、その変数の分布をX1に依存させることで作成しました。 β0 = -0.6, β1 = 1.2, β3 = 0.122, β4 = β5 = β6 = 0とした。したがって、サンプリングした真のロジットは

サンプルサイズ（n = 60, 120, 240, 360, 480, 600）、交絡（15%, 20%）および非候補の組み込み（0.1 と 0.15 ）を変化させた24条件それぞれについて1000回のシミュレーションを実行しました。同様に、アルゴリズム性能の要約尺度は、各変数選択手順が最終モデルでX1、X2、X3のみを保持した回数の割合である。

表2は、24のシミュレーション条件下で4つの選択手順について正しいモデルが得られた回数の割合を示す。

Table 2 Simulation results

再び、すべての選択方法で正しい保持モデルの割合はサンプルサイズとともに増加する。低いサンプルサイズのレベルでは、どの方法もあまりうまくいかない。 FSは、非候補の包含が0.15に設定された場合の例外を除いて、最も良い結果を示し、そこではPSがより良い結果を示している。 480や600のような大きなサンプルでは、PS、SS、BSは正しいモデルを保持する割合が近くなり、FSは著しく悪くなります。交絡がある場合，交絡を15%または20%に設定し，非候補を0.15に設定すると，PSは他の3手法に比べ，6つのサンプルサイズすべてにおいて，より多くの正しいモデルを保持することができる．その他のシナリオでは、PSは他の変数選択法よりも、主に240から360の範囲のサンプルについて、正しいモデルの比率をわずかに保持する。

前述のシミュレーション条件に加えて、交絡変数X2の係数を、0.13でより有意に、0.07でより小さくすることで改ざんした。

β2=0.13の場合、表3からPS、BS、そしてサンプルサイズが大きくなるとSSが同等のパフォーマンスを示し、同程度の割合で正しいモデルを保持することがわかる。これは、X2がより多くのシミュレーションで有意となり、交絡効果ではなく、その有意性のために、これらの手続きによって保持されることが主な原因である。

Table 3 Simulation results.

β2=0.07のとき、表3はすべてのサンプルサイズにおいてPSが他の変数選択手順よりも良いパフォーマンスを示すことを示している。これは、より多くのシミュレーションでX2が非有意となり、保持されないという事実の結果です。また、表3は、X2が交絡効果によってPSに拾われ、まだ存在していることを示している

。

Purposeful selection of variables in logistic regression

共変量の目的別選択

Simulations

コメントを残すコメントをキャンセル

共変量の目的別選択

Simulations

コメントを残す コメントをキャンセル

コメントを残すコメントをキャンセル