東京大学 大学院情報学府 講義
本年度の授業はこちらです。
以下は前年度までの授業内容
インターネットと計算機の発達によって available になった世界中の情報資源のうちの多数を占めるテキストデータの扱いについて説明します。第1に、言語情報資源の扱い方、統計などについての基礎を説明します。第2に、情報検索のシステム、モデル、評価方法などについて説明します。これらのトピックの発展である情報抽出や言語横断型の情報検索などについても説明していくつもりです。
内容
- はじめに
- テキストについて
この講義で使う数学的知識
- 文字コード系.....付録pptファイル
- 使用言語の推定
- 言語の統計.....付録pptファイル
- 言語資源.....付録pptファイル
- ターム抽出
- タームの分布モデル.....付録ppファイル
- 構造化文書
- 情報検索
- 情報要求.....付録pptファイル
- インデクシング.....付録pptファイル
- 質問の構造.....付録pptファイル
- 検索のモデル
- (拡張)ブーリアン・モデル.....付録pptファイル
- ベクトル空間モデル.....付録pptファイル
- Latent Semantic Indexing.....付録pptファイル
- 確率論によるモデル.....付録pptファイル
- 質問の拡張.....付録pptファイル
- Webのリンクによるページの重みつけ(PageRank Alogorithm と HITS Alogorithm)
- 検索システムの評価.....付録pptファイル
- 情報抽出
- 用語とは
- コロケーションおよび専門用語抽出
- 2言語コーパスからの対訳自動抽出
- データマイニング
- 相関ルールの抽出