まさおのChangeLogメモ / 2005-12-19 / A Menagerie of Tracks at Maryland; HARD Track Overview in TREC2005 (Notebook); Exploiting Anchor Text for the Navigational Web Retriaval at NTCIR-5; A Distributed Retrieval System for NTCIR-5 WEB Task; MuST; Seeking Better Web Searched

2005-12-19 Mon

* A Menagerie of Tracks at Maryland

HARD, Enterprise, QA, and
Genomics, Oh MY!:

・書誌事項:
Jimmy Lin, Eileen Abels, Dina Demner-Fushman, Douglas W. Oard,
Philip Wu, Yejun Wu: A Menagerie of Tracks at Maryland: HARD,
Enterprise, QA, and Genomics, Oh MY!, TREC2005, 2005-11,
Gaithersburg, MD, USA, Notebook of TREC2005, pp.?-?.

・概要:
HARD: 図書館情報学専攻の博士課程学生の人手による判定と
clarification formの作成。この結果を元にして、40課題中、大部分で性
能向上。全体で4.0%のMAP向上。NIST判定者のinconsistencyな傾向も判明、
これらのinconsistencyな課題を除くと、32課題で9.0%のMAP向上。
clarification質問文の簡単な分類など分析を加えている。

Enterprise: メールの処理方法、スレッドを使った質問拡張、引用文の影
響、日付・バージョン番号の正規化などを実験。スレッドによる拡張や引
用文の除去は性能に悪い影響を与える。日付・バージョン表現正規化で変
換するだけで十分な性能を得られる。既知事項はそれほどつっこんだ分析
無し。

QA: 自動評価手法PURPREについて実験。LinらのROUGEよりもKendall tau
で良い結果を得る。ただし、マニュアルランの成績が悪くなる…→nugget
評価自体の妥当性に疑問。

Genomics: NLMチームとの共同研究。

・感想:
HARDトラックの発表内容は人手による精密な分析であり非常に貴重な研究
成果なため、TREC2005における最優秀論文に値すると感じた。

* HARD Track Overview in TREC2005 (Notebook)

High Accuracy
Retrieval from Documents:
TREC2005 HARDトラックオーバービュー論文。

・書誌事項:
James Allan: HARD Track Overview in TREC2005 (Notebook): High
Accuracy Retrieval from Documents, TREC2005, 2005-11,
Gaithersburg, MD, USA, Notebook of TREC2005, pp.?-?.

・概要:
HARDトラックの概要。
初回のbaseline run提出と同時に「Clarification Form（明細記述書）」
を提出してもらう。これはHTMLページであり、自由に判定者に好きなこと
を記述してもらえるなどの反応を得られる。この明細結果を元に再度
final runを提出し、最終的な判定、評価を行う。

データはAQUAINTコーパス(1,033,461 docs)。課題は50（Robustと同一）。
判定者は6名。参加は16チーム・122ラン。

clarification formは、ネットワーク接続の無いRedhat Linux上の
Firefoxで、HTML,Java,JavaScriptなどを利用したもので実行。

評価指標はR-precision。

・感想:
"Assessors hate you"が印象的な報告だった（自己組織化マップみたいな
もので、大量の情報を選択させるインタフェースを作って送ってきた参加
者がいて、判定者は非常に苦労したとのこと）。

判定が大変なので、来年は廃止してRobustに吸収合併。

* Exploiting Anchor Text for the Navigational Web Retriaval at NTCIR-5

Navi2論文。TNT（藤井先生）チーム。

・書誌事項:
Atsushi Fujii, Katunobu Itou, Tomoyosi Akiba, Tetsuya Ishikawa:
Exploiting Anchor Text for the Navigational Web Retriaval at
NTCIR-5, NTCIR-5 Workshop Meeting, 2005-12, Tokyo, Japan,
Proceedings of NTCIR-5, pp.455-462.

・概要:
スコア計算は「コンテント」「アンカー」「リンク」ベースの各手法のも
のを混合したものを実験。ただし、最終的にはリンクベースのスコアは良
い結果が得られなかったため、除去。

コンテントはシンプルなBM25（K=2.0, b=0.8）スコアリング。
アンカーは単純に結合したモデル（DM）と、分割してそれぞれを使ったモ
デル（AM）の2つを実験。
また、同義語拡張として、phenotic distanceを使ったtransliterationを
使った。

AM+Syn+Cでは、Rigid MRRで.6以上の高い性能。

・感想:
最も成績が良かったチームなので、使っている手法などロバストな感じで
非常に興味深い。

transliterationは非常に興味深い。URL検索にも使えるかも…。といった
質問も出ていた。

* A Distributed Retrieval System for NTCIR-5 WEB Task

Navi2論文。JSWEB（Justsystem）チーム。

・書誌事項:
Hiroki Tanioka, Kenichi Yamamoto, Takashi Nakagawa: A Distributed
Retrieval System for NTCIR-5 WEB Task, NTCIR-5 Workshop Meeting,
2005-12, Tokyo, Japan, Proceedings of NTCIR-5, pp.472-477.

・概要:
分散処理システムの性能確認。
アンカーテキストは使わず、全文解析とリンク解析のみの混合モデル。

* MuST

A Workshop on Multimodal Summarization for Trend
Information:
NTCIR-5 MuSTオーバービュー相当。

・書誌事項:
Tsuneaki Kato, Mitsunori Matsushita, Noriko Kando: MuST: A
Workshop on Multimodal Summarization for Trend Information,
NTCIR-5 Workshop Meeting, 2005-12, Tokyo, Japan, Proceedings of
NTCIR-5, pp.556-563.

・感想:
パテントマップの生成などとはどういう関係にあるのだろうか？？
ちょっと気になった。

* Seeking Better Web Searched

パーソナライズ、位置情報、音楽などの機能をとりいれた新しいタイプの
サーチエンジンのトレンドについて解説。

・書誌事項:
Javed Mostafa: Seeking Better Web Searched, Scientific American,
2005, vol.292, no.2, pp.67-73.