【無料】e値を使用した特徴量選択

原題: Feature Selection using e-values
著者:S.Majumdar et al.
ジャーナル:ICML-2022
論文リンク:https://doi.org/10.48550/arXiv.2206.05391
このまとめに使用されている画像は出典の論文中のものを使用しています。


はじめに

特徴量選択は、教師学習において余分な特徴量を取り除くのに加え、計算量を減らしたり、モデルの解釈可能性を上げたりするのに役立ちます。そして、モデルベースの特徴量選択は、主にラッパー法と埋め込み法に分けることができます。どちらも独立なデータに対するモデルに対してはよく研究されていますが、それぞれに短所があります。対応ありのデータにおける特徴量選択に関する研究も比較的少ないものの行われていますが、やはり独立なデータに対するモデルと同じ短所に直面します。

 

論文の概要

本論文では、e値という枠組みが教師ありパラメトリックモデルにおけるベストな特徴量選択を行う一般的な原理として提案されています。値の定義は、特徴量の部分集合を含むモデルのパラメーター推定値の標本分布と、すべての特徴量を使ってトレーニングされたモデルのパラメーター推定値の標本分布の近さを表すスカラー量です。

著者らは、人工的に作成したデータまたは実際のデータを使用した実験におけるパフォーマンスを通して、従来の特徴量選択方法に代わる新たな手法としてe値が使用できることを立証しました。

 

提案手法

まず、e値の定義を示します。まず、xEp、Fは平均がμFで共分散行列がΣFであるようなp次元の標本分布として、スカラー量を返す関数Dを

 

のように定義します。関数の定義上、に近い時D(x,F)は大きくなり、逆にxがμFから離れる時、D(x,F)は小さくなります。

この関数Dを用いて、パラメータを持つモデル値は

 

と定義します。ここでのβMはモデルMを仮定した時のβの推定値、[β]はβの標本分布、Eは期待値を表します。

サンプルサイズが十分に大きいときは、以下のアルゴリズム1によって選択する特徴量のインデックスの集合を得ます。

 

大まかな流れとしては、まずフルモデルでフィッティングして値を求めます(step1)。そして、パラメーターの推定値βのj番目をにしてe値を計算し、そのe値がフルモデルのe値を下回れば選択する特徴量のインデックスとしてSselectにjを追加するという動作を回繰り返します。(step3~step5) これにより選択する特徴量のインデックスの集合を得ます。ここでは、重要な特徴量を外すと値はフルモデルに比べて小さくなり、重要でない特徴量を外すと値はフルモデルに比べて大きくなるという性質を使用しています。また、step1とstep5でe値を計算するためにβ,β_jを複数回算出しますが、これにはbootstrap法を使います。

初めにフルモデルでフィッティングする際に求めるパラメータβと標本分布[β]は与えられたデータから求めることになりますが、Generalized Bootstrap (Chatterjee & Bose, 2005, GBS)を使用して求めます。

bootstrap法とは、ある標本集団から母集団の性質を推定する方法の一つです。具体的には、1つの標本から重複を許して抽出することを繰り返すことで大量の標本を生成し、その標本から推定値を計算します。母集団の確率分布を仮定せずに使用できるのが利点です。

 

研究の成果

個の特徴量があるとき、値を利用した特徴量選択はフルモデルでのフィッティングと回の値の評価のみで特徴量選択を行うことができるので個のモデルを評価する従来の方法に比べ計算量を減らすことができます。

また、人工的に作成したデータに対してはほぼ全ての設定で、ラッソ回帰などといった従来の特徴量選択の手法に比べて少ない特徴量で高い精度を実現することができました。

 

まとめ

教師ありパラメトリックモデルにおいて最適な特徴量選択を行う一般的な原理として、値を使用した手法が提案されました。この手法は計算量も少なく、人工的に作成したデータに対して高いパフォーマンスを示しました。また、学習データセットが分散している時にも有用であると思われます。ただ、現在の値の枠組みはサンプルサイズが大きい時にのみ機能し、サンプルサイズが小さい時はスクリーニングメソッドを使うと上手くいくことが経験的に分かっていますが、理論的な検証が必要です。

視聴済みにして続ける