日本語WordNet

いろいろ忙しくて全然気づかなかったんですが,日本語WordNetなるものが今年(2009年)の2月に発表されてたんですね。久しぶりにJMdict/EDICTを見たら出ててびっくりした。ってかPrinceton大のWordNetページも,久しぶりに見たら随分キレイになっててびっくりした。(一瞬,エラーページにでも飛ばされたのかと思ったw)

で,これは言わずと知れたWordNetを日本語化したもので,類義語を逐語的に訳したものみたい。…うん。ちなみに,WordNetで単語”headphone”の上位語を引くとこうなる。

/home/user>wn headphone -hypen

Synonyms/Hypernyms (Ordered by Estimated Frequency) of noun headphone

1 sense of headphone                                                    

Sense 1
earphone, earpiece, headphone, phone
       => electro-acoustic transducer
           => transducer
               => electrical device
                   => device
                       => instrumentality, instrumentation
                           => artifact, artefact
                               => whole, unit
                                   => object, physical object
                                       => physical entity
                                           => entity
これを日本語WordNetで引くと,

earphone, earpiece, headphone, phone

受話器, レシーヴァ, レシーバー, レシーヴァー, イヤフォン, レシーバ, ヘッドフォン, ヘッドホン, ヘッドホーン, イヤホーン, イアフォン, イヤホン

として表示される。らしい。ウェブサイトのオンライン検索によると。

というわけで,まぁ今の時点では単語同士のつながりは英語をベースにしてるから,応用するにはちょっと工夫が必要。だけど今後のリリース版ではちゃんと直していくそうなので,期待できるかも。

でもね,WordNetベースってことでBSD Licenseに似たライセンスで公開されてるのが一番のポイントじゃないかと。WordNetがそうなんだから,当たり前っちゃ当たり前なんだけど,今までフリーな(無料,商用可の)日本語シソーラスって無かったハズだし。

あと正直なところ,何で今まで無かったのかも不思議。

多分,みんな WordNet を日本語化(今回みたいに逐語訳)しようって思いつくんだけど,最後は結局手で修正しなくちゃいけないから面倒でやらなかったんだろう。

ワタクシも以前,どっかのサイトでEDICT使えば日本語化できるんじゃね?みたいな記事を書いた記憶あるし。

ぼちぼち使ってみようかしら。

追記

日本語化に関して,

今の時点では単語同士のつながりは英語をベースにしてるから,応用するにはちょっと工夫が必要

って書いたけど,WordNet自体は多言語に移植されてるわけで,じゃぁどうやって移植してるのか,どうやってその言語に固有の単語間の関係を表現してるのか気になって調べてみた。

EuroWordNet(Univ. of Amsterdam)(オランダ語・イタリア語・スペイン語・ドイツ語・フランス語・チェコ語・エストニア語に適用したWordNet)の場合,基本的な意味同士の関連はWordNetと同じ方法で整理し,各言語版のWordNetを作ったと。その上で,各言語版のWordNetを結びつける索引を用意することで,ある言語の単語を調べると,他の言語の単語も調べられるようにしてある。その索引は更に,各言語版共通の最上位オントロジー(リンク先に絵)として63個の意味分類とも関連付けてある。この最上位オントロジーは全ての言語版に対して共通の意味フレームワークをもたらしており,各言語版特有の構造は各言語版WordNetにおいて整備される,ってことになってるらしい。

Graph

つまり,全ての言語に共通する,概念の分類があるってことを仮定してるわけか。じゃなけりゃそもそも多言語間リンクなんて出来るわけないし。

このページにあるPowerPoint file 24ページに,この辺の構造がわかりやすく図解されてる。

WordNetは,上の headphone の例のように,単なる類語集じゃなくて上位語が定義されている。つまり,ある単語がどの上位語=概念に属しているのかが,入れ子構造になって表現されてるわけだ。だから,それぞれの概念を言語間でどう接続していくのかってのが,多言語間でWordNetを作る上での最大の問題になる。

でも EuroWordNet って1999年に完成してるらしいよ…


コメント

コメントを打ち込んでください
YJADO
 

Now loading some news...