言語情報・悪魔の辞典



「悪魔の辞典」という有名な本がありますが、その書名があまりに魅力的なの で、これをパロッたたくさんの本や記事があります。この小文もその末席に座 ることを目指しているわけです。


見出し語一覧

一神教(バカの壁)
養老猛司著「バカの壁」によると、都会人は精神的に弱く、 何かにすがりたい気持ちがあるので、絶対的な権威を持つ一神教に引きずりこ まれる傾向があるのだと言います。一方、塩野七生は「ローマ人の物語」の中 で、ローマの人々は、3世紀以降、それまでのやり方がうまくいかなくなって、 それまでの多神教から一神教であるキリスト教に頼るようになったのだと言い ます。大変に似た考え方であり、本質を捉えているのではないかと思われます。

さて、キリスト教もイスラム教も一神教ですが、仏教ではどうなのでしょうか? よく言われることには、万物は究極的に空であって、キリスト教やイスラム経 のような人格神を認めていないようです。しかし、経典によれば、仏陀は入滅 した(ようするにお亡くなりなった)というのは仮の姿で、人々が真面目に励 むように姿を隠しているだけで、天から見守っているのだ、ということになっ ています。キリスト教もイスラム教に大変に似ていますが、養老猛司風に言え ば、仏教もやはり都市の宗教ということなのかもしれません。

世の中は複雑で、自分の予測はましてや制御は不可能なものですから、何かを 頼りたくなるというのは人情ということです。養老猛司先生のように現実を観 察して、自分の拠り所を確立するなど、到底、並の人間にはできるところでは ありません。「バカの壁」を読んで痛感したのは、養老猛司先生は凡百にはお よびもつかないタフな精神力の持ち主だということでした。

Nグラム: N-gram
どう見ても、単に何かの重さを測るだけのようですね。ところが、そのように 平凡に見えるところが Nグラムのいやらしいところです。先日の学会で偉い言 語学者の先生が言語情報の話を聞いていて、「Nグラムという言葉を聞いてか ら頭の中が真っ白になり、話についていけなくなりました」とおっしゃってい ました。しかし、これも何のことはないのです。グラムで測るのが肉や野菜で はなく、文字や単語というだけです。単語で考えましょう。「金融」というの は1単語すなわち1グラムです。専門家はこれを ユニグラム(unigram)などと分 かりにくく言いますからいやですね。「金融再生」というのは2単語からでき ていますから2グラムですが、これまたバイグラム(bigram)などと分かりにく く言います。「金融再生委員」は3グラム(trigram)です。つまり単語がN個つ ながったらNグラムという簡単なことです。言葉の仰々しさにだまされてはい けないという例です。なお、ある言語であるNグラムがどのくらいしばしば現 れるか(つまり確率)というデータはなかなか役に立つものだということを付記 しておきます。

学者:
定義1: 普通の人にとってはどうでもいいことに興味を持つ人(これは塩野七生の定義である。)
定義2: 定義1の学者の言ったことを普通の人に分かる言葉に翻訳する人
定義3: 定義2の学者の翻訳結果に文句をつけるだけの人

逆説:
保守的な政策は革新側によって実行され、
革新的な政策は保守側によって実行される。

昔も今のそうであります。そして、それはヘルシーな状態です。
紀元前1世紀、ローマにおいて保守的な政策が保守的な政治家スッラによって実行されましたが、数え切れないほどの人が殺され、それはヘルシーでないどころではない悲惨なものでした。

クイック: KWIC
Key Word In Context の略称である KWIC でクイックと呼びます。キーワード がテキストにおいて隣にどんな単語を持つかということです。昔は人手で処理 したりしていたので、名前と反対にKWICを大きなテキストから作るのは大変時 間がかかるものであった。最近は計算機の速度と容量の拡大で見直されている。

言語学者: linguist
学者の定義1「普通の人にとってはどうでもいい ことに興味を持つ人」の代表。つまり、普通の人が毎日、意識せずに使ってい る言語に興味を持つ人。しかし、普通の人が四六時中意識しないで使っている 言語を常に意識しているというのは並大抵の精神力ではできない。この作業の ために命を縮めた人も多い。この辞典の著者の知合いのばりばりの言語学者で 現役で亡くなった方が相次いだ。著者はもう少し長生きしたいので、言語学者 から足を洗いつつある。

作文:
古い 定義: 自分が昔読んだ文章を思い出してもう一回書くこと。つまり、脳みその 中の言語知識のカットアンドペーストを紙やワープロの画面に対して行なうこ と。
新しい定義:自分のパソコンの文書ファイルの中身をカットア ンドペーストを紙やワープロの画面に対して行なうこ。余談になるが、締め切 り期限が迫ってきたときの卒業研究論文を書く学生においては、文書ファイル が先輩の卒業論文のファイルだったりする。あるとき卒業論文を読んでいたら、 とても上手に書けていた。が、どうもどこかで見た文だ。ひょっとして、この 文は数年前、自分が学生さんの卒業研究論文の添削で書いた文かな??

再現率: recall rate
再現率は同じ現象の再び現れるということとは全く関係がないのでミスリーディ ングな名前なのでご注意。さて、大学の近くでおいしいラーメン屋を探して食 べ歩いてみた。何軒か旨い店を見つけたが、まだ試してみていない店の中にも 旨い店はあるかもしれない。そこで大学界隈のすべての旨いラーメン屋のうち どれだけの旨い店に行ったかが再現率である。したがって、再現率というより 「実際に行ったことのある旨いラーメン屋の割合」のほうが直感的に分かるん じゃないかしら。ちなみに情報検索とは美味しいラーメン屋を探して食べ歩く ことに対応する。もちろん全部のラーメン屋を食べ歩けば再現率は100パーセ ントです。しかし、お金も時間も限りがあるのでそれはできないのが普通です。 そこで、旨い店を探す勘が大切である。ここに情報検索の工夫の余地があるわ けですね。参考適合率

終助詞
日本 語にはいろいろな種類の助詞があるが、文末にくる助詞のこと。例えば、「よ」 「ね」「か」「ぞ」「ぜ」「さ」など。全ての日本人が全く文法的に正しい使 い方をできる例外的な助詞。確かめたかったら、街や公共交通機関、飲み屋な どでのおしゃべりを観察してみよ。

ジップの法則: Ziph's law
法則などというと、なにやら難しそうなものに見えてしまいますが、私は常々 この「ジップの法則」という名前がちょっと大袈裟のように思っています。一 言でいえば、「当たり前のモノはたくさんあり、珍しいモノは少ない」という だけのことです。ただし、言語の世界の話ですから、「モノ」のところを「単 語」に置き換え、範囲をテキストであることをきちんと書くと「テキストの集 合においては、当たり前の単語はたくさん出現し、珍しい単語は少なく出現す る」ということです。「当たり前」というのは出現回数が多いということであ り、「珍しい」というのは出現回数が少ないということです。ですから、結局 「テキストの集合においては、出現回数の多い順に単語を並べると、単語の順 位と出現回数は反比例する」というジップの法則なる仰々しい法則になります。

情報検索: information retrieval
こと図書館の中においては、計算機がいくら頑張っても、司書の方には歯が立 たない技術のこと。そこで、情報検索のソフトを開発している会社はインター ネットというアナーキーな世界に活路を求めつつあります。

人工知能: Artificial Intelligence
情報科学における諸学問の母胎であると同時に残りカス。巷では役にたちそうもない研究分野の代名詞とされる。東大では一時期、人工知能の研究は禁止されていたそうである。

ソシュール: Saussure
言語学をシュールにした祖。事物を言語で命名したという常識を覆し、言語が事物をつくり出したと唱えた。今日の自然言語処理の研究が全てその掌の中で踊っているとすら言われる。

成長: aging
学者や技術者で「成長」とはどうも以下のようなことを意味するらしい。
35歳までは実験、研究に頭を使い、
(注釈)自分で実験したり、計算したり、プログラムを書いたり、論文を書いたりする。幸せな場合はそのための環境は上司などによって用意されている。
42歳まではお金を使うことに頭を使い、
(注釈)自分の研究や仕事の環境を良くするための予算を使うことに時間を使うようになる。
50歳まではお金を得ることに腐心し、
(注釈)自分の研究や仕事の環境を良くするための予算を申請することに時間を使うようになる。
60歳までは他人に文句を言い、
(注釈)他人の予算申請を評価することに時間を使うようになる。
70歳までは政治をする
(注釈)予算申請できる分野を考え、その分野への予算を獲得できるような工作をすることに時間を使うようになる。世の中の方向を与える上では重要なことかも。

もちろん、60歳になっても、35歳までの仕事を続けてもよいが、大変に稀有なことである。

単語
毎日毎日、使っているのに自 分ではひとつも新しく作れないもの。一つでも新しく作れたら、その人は天才と呼 ばれることになる。

辞書: Dictionary
(1)「ことば」を「ことば」で定義しようとする無茶な試みの産物
(2)紙の辞書の場合は空間との闘い。ネットワーク上の辞書の場合は質との闘い。

適合率: precision rate
再現率と対で使われる概念である。一言で言 えば、試した店のうち旨い店の割合が適合率である。再現率のところで述べた 情報検索における勘がよければ適合率は上がるわけです。

チョムスキー: Noam Chomsky
教祖。言語学は彼の死とともに亡びると予想する人もいる。

日本語の乱れ(終助詞): Degradation of Japanese language
電車に乗っていたら、となりの席でギャルがおしゃべりしていたので、ついつい聞き耳を立ててしまった。とはいえ、商売柄、日本語の文法に合った会話かどうかを聞いていた。

すると、なな、なんと、なんて正しい日本語なんだろう、と思わず感心。ちょっと思い出すと、

「彼ってあれよねえ」
「え、そうなんだ。うーん、そうかもね」
「でも、どうも最近変じゃん」
「そうかなあ。そうでもないよ」
::::

彼女らは、まかりまちがっても、「ねよ」などとは言わない。細かいことはさておき、本当に正しい日本語!! 文の終わりにくる「よ、ね、な、ぞ、ぜ、か、さ、...」(終助詞という)の使い方を見れば、ネイティブであることが疑いないきれいな日本語だ。

え、なぜ「よね」が良くて「ねよ」がだめかって?簡単に言えば、

  1. 「よ」は聞き手に自分と同じ心理状態になることを強要する。
  2. 「ね」は、「ただいま考え中」という意味。
すると、 「よね」は、聞き手に自分と同じように考えてほしい、とただいま考え中、という意味。とても常識的でしょ。 「ねよ」は、考え中になってよ、と聞き手に強要。これって、相手の心にずかずか踏み込むような言い方なので、日本人好みでないよね。 というようなことが、ちゃあんと会話で100%間違いなく話されているなんて、すごくない?

---- 日本語の文法って、こういう心に動きに一致しているから、簡単には壊せないのさ。壊したかったら壊してごらん。

日本語の乱れ(やる): Degradation of Japanese language
学会など学術研究発表の場で、ずいぶん前から気になっている言葉使いがある。
「A先生がやられた研究」
という言い方である。「やる」というのは敬語なのだろうか?ひょっとすると、「やられる」という言い方における「られる」が可能、尊敬、受身を表すので、尊敬の意味で敬語と見て使用しているのだろうか。しかし、「する」という意味での尊敬語としては、「なさる」という言い方が教科書で学んだところである。

「やられる」の気持悪さは、「やる」が「手伝ってやる」のように目下への言い方として通常使用されていることにも起因している。目下への言い方が「れる」によっていっきに尊敬語に変換されるという心理的な負担もあるのではないだろうか。加えて、「やられる」の使用が一流大学の大学院生や第一線の研究者だったりするから、なおさらねじれを感じる次第であり、「やられた(殺られた)」という感じがするのだ。

メタデータ: meta-data
データについて記述するデータ??? データが 2回も出てきて変な定義と感じる人も多いので、少し言い替えて「対象のデー タの性質を記述するのがメタデータ」。ううむ、まだ分かりにくい。じゃ実例。 14159 は単なるデータだが、このデータについてのメタデータが「円周率の少 数点以下5桁」と言ってくれるとうれしい。ということでデータを理解するた めの必要悪いやちがった必要善。でも、メタデータのメタデータとかも考えら れるし、やっぱりメタをやっていると頭の中がメタメタ。あ、そうか、結局デー タはただのデータにしか過ぎなくて、それを対象データと見なすか、メタデー タと見なすかは我々が考えるべきことなのですね。