リンク: [ホーム] [自己紹介] [リンク集] [アルバム] [ソフトウェア] [発表文献] [その他]

まさおのChangeLogメモ / 2006-03-29

01 02 03 04 05 06 07 08 09 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31

2006-03-29 Wed

* 会津・待ち合わせ

新幹線・西乗り換え口で待ち合わせ。

こちらから大宮方面へ後ろ寄りに乗ればオーケー。

* 科研・研究実績報告・概要

本課題は、WWW上で提供されている多種多様なコンテンツを分かりやすく
提示するのに必要な「サイトマップ」の効率的な構築と提供が行える環境
の開発を目指すものである。

研究初年度にあたる平成17年度では、以下を中心に検討を進めた。

1)既存の用語体系に存在する構造の調査・分析

既存の用語体系として、書籍の分類体系であるNDC日本十進分類表、WWW上
の情報を網羅するWebディレクトリODP、日本語情報処理で蓄積されたNTT
語彙体系など、複数の用語体系に存在する構造を元に、それぞれの構造を
把握し、構造の共有と利用に必要な要素の洗い出しを進めた。類似用語体
系間の関連を分析するため、NDC9版とNDC8版との構造の調査や、日英対訳
辞書における用語体系の構造の調査、分析を行った。また、国立国会図書
館で提供されている件名標目NDLSHの調査、検討もあわせて行った。

2)サイトマップ構築・検出手法の開発

既存のサイトマップの分析の一環として、現在Web上で提供されているサ
イトマップを高精度で検出する手法の開発を進めた。

3)日本のウェブサイト空間に存在する構造の調査・分析

WWW空間に蓄積された情報の全体像を把握するため、情報検索評価プロジェ
クトNTCIR-5 WEBナビゲーション指向検索タスク用に収集された1TB・1億
ページにおよぶ文書群の構成を調査、分析した。既存のウェブサーチエン
ジンにおけるページ収集との比較検討のため、Web APIを利用した実態調
査により、その全体像の調査、分析を行った。