日本語 English

東京大学 情報基盤センター 図書館電子化研究部門

中川・田中研究室 研究テーマ

(大学院担当:情報理工学系研究科 数理情報学専攻/学際情報学府)

中川・田中研究室では、数理的な方法論を用いて自然言語をモデル化し、 コミュニケーションに役立つ実働システムを構築することを目的として研究し ています。


    Webマイニング

    無限の成長を続けるWebは、今や情報の宝庫である。しかし、検索エンジンだ けでは有益な情報を取り出せない。我々は、検索エンジンを越えて、Web情報 を活用するアルゴリズムの開発、システムの構築を行っている。情報抽出、言 語の使用例検索、情報分類などのテーマについて研究する。

    言語システム

    現代では個人個人のWebアクセスなどを行う計算機環境は、携帯電話、パソコ ンなど多様化している。またグローバル化にともない多言語化も進展している。 我々はこのような多様化を支援するために、自然言語処理技術を利用して、効 率良い入力方法、柔軟な表示方式を研究している。さらに多言語化をキャッチ アップするための言語学習支援システムの開発も進めている。

    言語の数理モデル

    「言語の数理モデル化」とは、確率・統計を武器に、 言語の外的な振舞いを分析することにより 言語現象の説明を行おうとする試みであり、 近年、大量の言語リソースが電子的に利用可能になるにつれ、自然言語処理の一大トピックを形成しつつある。 自然言語の数理モデル化を行うことを通じて、最善の計算モデル、アルゴリズムを開発し、 有用な自然言語処理システムを世に送り出す。


    Webマイニング

    ユーザ指向情報抽出

    Webにおいて好みにあったモノを探し出すことは容易ではないが、個人の趣向 が多様化した現在においては重要なテーマになっている。我々は、この目的 を実現するために、映画、音楽、レストランなど非言語オブジェクトを個人の 好みによって検索することを可能にする知識ベース構築を目指した研究を続け ている。

    観光地、レストラン、映画などのポピュラーな非言語オブジェクトにはユーザ や鑑賞者のコメント、批評を集めたサイトがある。コメントや批評は言語情報 であり、統計的分析、機械学習などを利用する自然言語処理によって、個別ユー ザを指向する情報を抽出する。こうして抽出された知識を用いれば、自分の好 みに合ったレストランを推奨してくれるようなシステムが可能になる。さらに、 世間的に権威あるオーソリティが見逃した掘り出しモノが見つけられるかもし れない。

    多言語用例検索

    「無線LAN」をフランス語で何というのか自力で調べたい場合、10年前はど うすることもできなかった。このような現代的な例は、和仏辞典、いや和 英辞典にすら載ってきることが期待できない。

    ところが、現在では、検索エンジンを用いて調べることがでるようになった。「無線 LAN」の場合、「無線」に相当する仏語は辞典に載っているので、訳語の 「sans fil」を検索エンジンに入力する。すると最初の20件を見るだ けで「le reseau sans fil」「l'access sans fil」などが列挙される。

    実は、数百件くらいをじっくり眺めると、「l'internet sans fil」「les reseaux sans fil」などがより一般的に用いられるようであることがわかって くる。つまり検索エンジンの結果を集計すると、より確実な言語の用法を知る ことが期待できる。しかし、毎回500 件や1000件の検索結果を走査するのは、 人間には無理である。そこで、我々は集計を自動化するツールKiwiを開発した。 Kiwiは、個別言語の辞書や文法を全く使用していないにもかかわらず、どんな 言語の用例でも調べられるという特徴を持っている。

    以下の表では、例を示す。左から順に検索語、kiwiによる集計結果の 1位〜3位、最後にAltavistaを上位から未集計のまま見たときに上がる用例 を示している。


    Kiwiツールの使用例
    入力質問Kiwi 1位 Kiwi 2位 Kiwi 3位 AltaVistaの未集計上位例
    *phonecell mobile tele reverse, cell, best, new,
    j-, converst, prepaid
    小泉* 内閣 首相 純一郎 産業, 成器, 内閣, 聡
    の会, 親司, 製麻, としあき
    *大統領 ブッシュ クリントン 金大中ラーメン, 摂津の, ブッシュ
    次期, アメリカ, 元, フルーツ

    半構造データからの知識獲得

    Web上において、表形式や箇条書き形式等の"半構造データ"は、文章よりも簡潔な表現形態として、 データの提示をはじめとする様々な用途に用いられている。 半構造データは、ある程度の表示規則を持ちながらも、データベース等のような 統一的なフォーマットには従わず、表記者によって異なる表現がなされる。 我々は、この表現の揺れを吸収し、種々の半構造的表現から有用な知識を獲得するための システムを開発している。 これにより、文章からだけでは得られない知識をWebから獲得することができるばかりでなく、 その周辺の文章の解析の際に、抽出されたデータを相補的に用いた、 より深い文章理解が可能になる。

    この知識抽出の為のアルゴリズムは、 半構造データの形で提供されることの多い情報、 例えば大学内の各部局のプロフィールを集め、 大学全体を統一的に俯瞰するためのポータルサイトを自動構築する等の応用例が考えられる。



    ユーザ指向言語システム

    端末指向テキスト変換

    さまざまなモバイル端末からいつでもどこでもインターネットにアクセスでき るが、画面が小さいという制約があるし、移動中の使用が多い。したがって、 モバイル端末を指向するなら、短い時間でコンパクトだが重要な情報が把握で きるようなテキストが必要である。この研究では、Webページの大きなコンテ ンツをモバイル端末出力に適したテキストに変換するための以下の自然言語処 理アルゴリズムについて研究する。

    1. 自動要約
    2. 言い換え
    3. 構造変換
    4. 音声言語化

    研究の成果は既にiモードOPACとして図書検索システムとして一部実用化され ている。興味のある方は以下のページを携帯電話でアクセスしてください。

    携帯電話OPAC(http://mg.dl.itc.u-tokyo.ac.jp/opac/i/)

    少数キー入力システム

    30年前、日本と中国では、数千もの文字を持つ母国語を、40のキーしか ないパソコンでどのように入力するかが問題となった。現在、モバイル機器 は手の平にのるほどに小さくなり、装備されているキー数は2〜12と減少傾 向にある。これにより、世界的に    キー数 << 言語の文字数 という、かつての日本と同じ問題を抱えている。 我々は最少で4つのキーを用い、日本語、英語、タイ語、フランス語を入力す る技術を開発している。この入力方法は、これまで日本語の「かな漢字変換」 や中国語の「pinyin-hanji変換」を一般化することにより得られる。具体的に は、複数のかな文字を一つのキーの割り当て、単語や文節単位で「1かな1押 し」方式で入力する。携帯電話の10キーを用いて日本語を入力する場合には、 これは子音漢字変換に相当する。たとえば、「219」と入力すると、「氷、 香り、甲羅」などが候補に上がる。 本システムを構築する際の一番の問題は、候補の数が増える点である。かな漢 字変換では1単語あたりの候補数は4〜5であるのに対し、子音漢字変換は約 30、4つキー入力では100を超えてしまう。この問題は、ユーザ文書に適 応的に候補を整列することで劇的に解決される。 以下に4つキー入力のデモンストレーションを示す。

    TMKのデモ(click!)

    オンライン外国語学習システム

    外国語の基本会話の習得には、基本的な対話パターンの繰り返し練習が必須で ある。ところが、市販のテープでは、自然な対話の練習には無理がある。一方 で、人間の講師を相手にする場合には、講師に単調会話の負荷を強いることに なってしまう上、学習者も恥ずかしさなどから十分に練習できない。

    我々は、コンピュータの画面に人間のエージェントを表示し、エージェントと 基本対話練習を行うシステムを開発している。本システムを用いると、ユーザ はエージェントを相手に何回でも繰り返して一連の対話の練習ができる。また、 ゆくゆくは見本となる対話との差を調べることにより、ユーザの発話の問題点 を指摘するシステムへと発展させる。



    言語の数理モデル化

    ユーザ適応型言語モデル

    現代では、個人個人が自分の携帯電話や自分のパソコンを用いて、電子メール や買い物、勉学など、パーソナルな活動を行うことが多い。そこで、これを支 える言語技術をパーソナライズするための確率モデルを考案してきた。

    これまでには、既存のN-gramモデルやHMMといった確率モデルを個別化する 方法を考案した。具体的には、文書圧縮分野で提案されている適応的文書 圧縮方法を既存の確率モデルに応用したのである。実際にかな漢字変換のさま ざまな学習方法と比較し、提案手法が最も学習効率が高いことを示した。その 学習のために必要なユーザ文書も意外に小さいことを発見した。

    ユーザモデリングの研究は、個性の背景にある種の普遍性が興味深い。たとえ ば、上記の学習量はがユーザによらずだいたい同じ程度の量である。また、一 人の人が書いた文章中のある語を取り上げてみると、その語はだいたい7割程 度再利用されている。異なる個性に普遍的な性質、これを説明する数理モデル を打ち立てることは、人間の言語認知に光を当てることにもなる。


    語彙空間構造分析 ---small worldの観点から---

    日常用語と専門分野で使われる専門用語とどう違うのか? そもそも専門用語と は何者なのか? 簡単なようで難しい問題である。我々は、(1)専門分野の用語 を要素とする語彙空間と、(2)語彙が使用されたテキスト空間、に分けて考え ることによって、この問題を攻略する。語彙空間では、複合語の持つ統計的性 質、用語間の参照関係などのリンク構造解析、リンクのグラフ構造の統計的分 析など、語彙空間を複雑系として捉えて数理モデル化する。そして究極的には 諸学問の基礎になる専門用語の整備に向けて計算モデルを構築する。

    こうして抽出された専門用語の各々の定義をWebから自動的に抽出するシステ ムも併せて開発することによって、学問、技術に必須の up-to-date な用語辞 典を自動的に構築することを目指す。


    言語の計算論的構造分析

    現在の自然言語処理は、辞書や文法を蓄積した上で行われている。 英語や日本語の標準語等、高品質の言語リソースが整いつつある言語もあるが、 種類で見ればそうでない言語のほうが圧倒的であり、 例えば、カザフ語、方言、専門的文書、話言葉等は、既存の言語システムでの解析が困難である。 さらに、標準的な言語であっても、その内容は日々進化し、 例えば新しい用語は日々増加している。 明らかに、精緻に記述された文法や辞書のみに頼った言語解析には限界がある。

    この問題に対して我々が採るアプローチは、 比較的単純な文法ないしは全く文法を仮定しない状態をベースとし、 学習アルゴリズムに大量の言葉(文章)を浴びせることによって、 複雑な言語規則の獲得を行うというものである。 現在では、言語の実際の使用例が、Webをはじめとした様々なメディアを通じてアクセス可能となっており、 そこから得られる大量の言葉を入力することによって、機械が 言語を獲得していくためのアルゴリズムの実現が期待できる。 これは、幼児が母国語を習得する過程や、 あるいは大人であっても、例えばタイに旅行し、「サワディーカー」「サワディーカップ」という挨拶 を聞くだけで、「サワディー」が何かの意味をもつひとまとまりであることが わかる、等、「人間による言語の学習」を機械に行わせるという問題意識に基づいている。

    より具体的には、
    • 言語使用例を利用した曖昧性解消
    • 検索結果の統計処理による新しい単語や言い回しの獲得
    • 言語使用例のみを利用した構文構造の発見
    等をテーマとする。 この研究では、既存の言語解析の精度を向上させることに加え、 研究を通じて、言語に内在する本質的な構造とは何か、 あるいは、言語の獲得に必要なものは何かといった、言語そのものに関する科学的知見を得ることも目標としている。