新幹線・西乗り換え口で待ち合わせ。
こちらから大宮方面へ後ろ寄りに乗ればオーケー。
本課題は、WWW上で提供されている多種多様なコンテンツを分かりやすく
提示するのに必要な「サイトマップ」の効率的な構築と提供が行える環境
の開発を目指すものである。
研究初年度にあたる平成17年度では、以下を中心に検討を進めた。
1)既存の用語体系に存在する構造の調査・分析
既存の用語体系として、書籍の分類体系であるNDC日本十進分類表、WWW上
の情報を網羅するWebディレクトリODP、日本語情報処理で蓄積されたNTT
語彙体系など、複数の用語体系に存在する構造を元に、それぞれの構造を
把握し、構造の共有と利用に必要な要素の洗い出しを進めた。類似用語体
系間の関連を分析するため、NDC9版とNDC8版との構造の調査や、日英対訳
辞書における用語体系の構造の調査、分析を行った。また、国立国会図書
館で提供されている件名標目NDLSHの調査、検討もあわせて行った。
2)サイトマップ構築・検出手法の開発
既存のサイトマップの分析の一環として、現在Web上で提供されているサ
イトマップを高精度で検出する手法の開発を進めた。
3)日本のウェブサイト空間に存在する構造の調査・分析
WWW空間に蓄積された情報の全体像を把握するため、情報検索評価プロジェ
クトNTCIR-5 WEBナビゲーション指向検索タスク用に収集された1TB・1億
ページにおよぶ文書群の構成を調査、分析した。既存のウェブサーチエン
ジンにおけるページ収集との比較検討のため、Web APIを利用した実態調
査により、その全体像の調査、分析を行った。