Skip navigation.
Home

統計的機械学習

Research
  • 統計的機械学習
    統計的機械学習とは、観測されたデータから統計的手法を用い新たな知識を導出することである。

    統計的機械学習についての教科書的な内容はこちらを参照してほしい。

    統計的機械学習には種々の分類がある。主要なものを説明しよう。

    1. 教師あり学習と教師なし学習

      教師あり学習(supervised learning)では、観測データと、そのデータの意味が与えられる。例えば、文書分類問題であれば、観測された文書とその文書の属するカテゴリー(スポーツ、芸能、など)の対のデータ集合(これをtraining dataと呼ぶ。)である。学習によって、観測データの持つ属性と意味の関係を推定し、未知のデータ(これを test data と呼ぶ。)が与えられると、そのデータの意味を出力する。

      教師なし学習(un-supervised learning)では、観測データだけが与えられる。観測データたちの間の距離をその属性から計算し類似するデータを1つのグループにまとめる。

      教師あり学習で使うtraining dataは人手で作ることが多いので、作成コストが大きい。一方、教師なし学習は、類似したデータがまとまるだけで学習結果の意味づけが難しい。そこで、少数の training data から学習を開始し、学習の過程で training data を拡大していく半教師あり学習(semi-supervised learning)も有力である。

      中川研究室では、教師あり学習に関しては文書分類、教師なし学習については、後述の名寄せを具体例として研究を進めている。

    2. 識別モデルと生成モデル

      教師あり学習で観測データを分類するにあたって、まず観測データの属性を適当に組み合わせた判別関数を生成する。未知のデータは、この判別関数で分類する。これを識別モデルという。

      一方、観測データを生成する確率分布を想定し、観測データからその確率分布を推定する方法を生成モデルと呼ぶ。

      中川研究室では、生成モデルを中心に研究している。生成モデルの場合、学習以前になんらかの事前確率分布を想定(priorという)するが、その枠組みを支えるのがベイズ統計理論である。ベイズ統計の場合、priorと観測データが知られた後に推定された事後確率分布の関係が重要である。指数分布族と呼ばれる分布族では、この両者が同じ分布族になるため、よく使われる。我々もよく使うが、それ以外の分布族の使用にも必要に応じてチャレンジしていく。

    モデル推定

    1. 事前分布のモデルは重要な研究テーマである。例えば、文書をトピック毎に分類する場合、トピックの事前分布などにディリクレ混合分布を使う方法を研究している。
    2. 事後確率分布の推定方法としては、EMアルゴリズム、および変分ベイズ法を利用することが多い。
    3. これらの数理モデルが使いにくい場合には、MCMC(マルコフ連鎖モンテカルロ法)によるシミュレーションも利用する。最近注目を浴びている次の方法について検討を開始している。
      • Chinese Restaurant Process

        たくさんテーブルのある中華レストランに新たにやってきた客は、多くの人が座っているテーブルに着席しやすい、というモデル。例えば、ある分野では、同じトピックの文書が生成されやすい、というような解釈ができる。

      • Indian Buffet Process

        たくさんの料理がビュッフェ形式でサービスされている印度料理店に新たにやってきた客は、人気のある料理を取りやすい、というモデル。例えば、新しい書物には、人気のある話題が多く書かれる、という解釈ができる。

      いろいろなモデルを考えるとともに、その背後にある確率分布を明らかにしていく研究を目指す。

  • ディリクレ混合による分類
    ある文書が複数のトピックを持つ場合に、それらを全て推定する多重トピック分類の研究を行っている。実際の文書は、新聞記事であれ、学術論文であれ、マニュアルであれ、多重トピック性を持つ。

    1トピックを1次元とみなすと、多数のトピックからなる多次元空間で、文書は単体上の点となる。単体の点は、多数のトピックの重み付き混合で表現される。この混合をディリクレ混合で表現した場合、モデル推定では、混合比を training data から変分ベイズ法で学習する。詳細は
    ここをご覧ください。

    より精度の高いモデル、よりロバスト(データ依存性、分野依存性が小さいという意味)なモデルを目指して研究を進めている。下の図は、3つのトピックが混合した文書のモデルを表している。