リンク: [ホーム] [自己紹介] [リンク集] [アルバム] [ソフトウェア] [発表文献] [その他]

まさおのChangeLogメモ / 2005-09-30

01 02 03 04 05 06 07 08 09 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30

2005-09-30 Fri

* World Wide Webを用いた事典知識情報の抽出と組織化

藤井先生のCylone総括論文。

・書誌事項:
藤井 敦, 石川 徹也: World Wide Webを用いた事典知識情報の抽出と組織
化. 電子情報通信学会論文誌 D-II, Vol.J85-D-II, No.2, pp.300-307,
Feb. 2002.

・概要:
これまで開発してきたWeb情報による事典情報検索システムCycloneの概要
およびそこで使用した手法についてまとめた論文。

事典情報を生成するには、Web上の情報に対して「抽出規則」「事典モデ
ル」「分野モデル」の各モジュールによる抽出と分析を行い、事典情報と
なりうる項目を生成する。

システムとしては単純な構成で、Googleを検索して得た文書と、世界百科
事典によるコーパスを使って、事典らしい情報を抽出する。また、精緻な
語義分類は困難なため、クロスランゲージ社の分野対訳辞書を元に19分野
への分類を行った。

評価実験として、情報処理技術者試験二種の平成11年度秋試験の問題から
96件の用語を抽出し、これについて事典情報の生成実験を行った。
96件中、用語説明の得られた85件の用語について人手で判定した結果、上
位3件以内に正解分野に分類できた割合は89.4%(76/85)となり、高い精
度を得られることを確認した。また、英和コンピュータ用語大辞典の収録
語において上記用語群について説明が付与されていた語は42語しかなく、
Cycloneでコンピュータ用語として判別できた67語と比較しても、新語の
収録に有効であることが分かる。

・感想:
よくまとまっていてよい。ただ、Cycloneで使用したアルゴリズムについ
ては、Googleに依存してしまうモジュールがいくつか見られたのが残念。
もう少し新しい提案などがあるとより魅力的な研究報告となったと思う。

複雑な処理の説明でこなれていない表現もあり読みづらいところも一部あ
るが、文章は全体に簡潔で分かりやすい。
こんな文章書くんだなあ、藤井さんって。という感じ。

* Thesauri

practical guidance for construction:
シソーラス構築の概要についての解説記事。
doi:10.1108/00242530510611893

・書誌事項:
Emma McCulloch:
Thesauri: practical guidance for construction.
Library Review, Vol.54, No.7, 2005, pp.403-409.

シソーラスの構築の実践的な解説記事。シソーラスの概念とその必要性か
ら、実際の構築にあたって留意すべき点を簡潔にまとめた入門記事。

・感想他:
今度のJSIKフォーラムでの参考になりそう。参照論文もひととおり押さえ
ておくとよさげ。
Referrer (Inside): [2005-10-04-1]