Evaluating content-oriented XML retrieval effectiveness:
XML文書検索の評価ワークショップであるINEXの紹介記事。
なによりXMLベースの論文記事が対象データだというのが興味深い。それ
を入手するために参加してみる価値あるかも…。
Page, anchor and title indexing, and in-link count, inter page
and inter site link analyses:
大阪教育大OKSATチームのNavi2論文。
・書誌情報:
Takashi Sato, Hitoshi Nakakubo: NTCIR-5 WEB Navi-2 Experiments at
Osaka Kyoiku University: Page, anchor and title indexing, and
in-link count, inter page and inter site link analyses,
Proceedings of NTCIR-5 Workshop Meeting, Tokyo, 2005-12, NII,
2005, (to appear)
・概要:
ランキング手法の性能比較を実施。使用した手法は以下のとおり。
→ページ本文テキスト
→<Title>テキスト
→ページ本文テキストにページ内の異なり語数で重み付けしたもの
→アンカーテキスト(アンカーテキストの長さで正規化)
→インリンク数(別サイトからのもののみ)
→サイト間リンク(PageRankを計算)
→リンク数(全ページ間)
結果、アンカーテキストを使うと性能が上がることが判明。
また、本文テキストやタイトル部分をランキング計算に単純に加えてしま
うと性能が逆に悪化することが判明。
・感想:
比較的、正統的な既知事項検索のタスク設計に沿ってベースラインなどを
実行。各スコアリング手法の特徴なども分析して基礎的な知見として良い
ものと思われる。
WEB Navigational Retrieval Subtask:
会津大OASISチームのNavi2論文。
・書誌情報:
Vitaly Klyuev: OASIS at NTCIR-5: WEB Navigational Retrieval
Subtask, Proceedings of NTCIR-5 Workshop Meeting, Tokyo, 2005-12,
NII, 2005, (to appear)
・概要:
OASISというVector Space Modelによる分散型検索システムをテラバイト
級のデータに適用。3つのサーバに分散。メタサーチの手法でスコアを集
めて、再ランキングする手法。アンカー周辺の文字列を重みつきで加える
手法も??(よくわからない)
結局のところ、データの展開ミスなどもあり、評価結果は0点。