リンク: [ホーム] [自己紹介] [リンク集] [アルバム] [ソフトウェア] [発表文献] [その他]

まさおのChangeLogメモ / 2005-07-07

01 02 03 04 05 06 07 08 09 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31

2005-07-07 Thu

* Online Duplicate Document Detection

Signature Reliability in a
Dynamic Retrieval Environment: ([2005-07-05]読了)
doi:10.1145/956863.956946
商用DBのニュース記事の重複の自動判別手法についての論文。

・書誌事項:
Jack G. Conrad, Xi S. Guo, Cindy P. Schriber: Online Duplicate
Document Detection: Signature Reliability in a Dynamic Retrieval
Environment. In Proceedings of CIKM2003, pp.443-452.

・概要:
ALLNEWSというニュース記事の商用DBのデータ5000万件ほどのデータを使っ
て、シグネチャベースの重複記事の自動判別手法を提案し、更に日々の更
新に対してのシグネチャの安定性について実験を行っている。

シグネチャには以下の情報を使用:
完全一致の場合: 文書長 + { IDF上位6語(とその出現位置) }
非完全一致の場合: 出版日付 + 文書長 + { IDF上位n語 }

シグネチャをハッシュ化して使おうとした場合、IDFを使ったシグネチャ
は数ヶ月で数十万語が追加される商用DBでは、スピアマンの順位相関では
それほど変わらないものの、シグネチャのレベルでは相当な変化が起きる
ので、そのままでは安定性が悪い。

・感想:
とりあえずWEBタスクとの関連で、重複についての文献を探して読んでみ
たのだが、商用DBのニュース記事が対象ということで少し趣が違った印象。
論文の書き方もいまいち分かりづらいのが難点。
結果としても並外れて良いという訳ではなく、何を主張したかったのかが
良く分からない焦点のぼやけた論文になっているように感じ、少し期待外
れでした。

まあ、収穫はIDFベースのシグネチャを使うというアイデアを知ることが
できたくらいか…。

* The Perfect Search Engine Is Not Enough

A Study of Orienteering
Behavior in Directed Search: (2005-06-27読了)
doi:10.1145/985692.985745
ユーザ検索行動の調査結果を報告した論文。

・書誌事項:
Jaime Teevan, Christine Alvarado, Mark S. Ackerman, David R. Karger:
The Perfect Search Engine Is Not Enough: A Study of Orienteering
Behavior in Directed Search.
In Proceedings of CHI2004, pp.415-422. (2004)

・概要:
一般的な情報探索行動がどのような形で行われているかを調査するため、
MITの計算機科学専攻の学部生15名に対して、日々の検索行動をインタビュー
形式で調査したというもの。

キーワード検索を用いない「オリエンテーリング」と定義される検索行動
を確認しようとするもの。
これは、例えば「ある教官の研究室と内線番号」が知りたいという検索要
求があった場合、「(教官名), 内線番号」といった検索質問でキーワード
検索するのではなく、まず学科のページへ行き、その中の教官一覧のペー
ジから、該当の教官のページに行き、そこに書いてある内線番号を探す、
といった戦略のこと。

対象となる検索行動を、その手法、メディアを問わずに調査したのが特色。
例えば検索手法としては、キーワード検索だけでなく、なんとなくブラウ
ジングして検索するなどの様々な手法も対象にした。
またWeb検索だけでなく、メールの検索、ローカルファイルシステムでの
検索といった検索者の手元で行われる検索行動も調査した。

結果は、半数以下(46.3%)の検索行動ではキーワード検索は用いられな
いとの結果を得た。
また、filer/piler(整理屋/積み上げ屋)といった個人の特性による違い
についても比較を行い、filerの方がキーワード検索の戦術を取ることが
多い点などを報告している。

その意義を「検索者は検索目標を完全に特定する必要がなく、
文脈情報を利用できる点が有用なのだろう」と考察している。

・コメント:
オリエンテーリングがタイトルに入っているというだけで読んでみたくなっ
た論文…。

興味深い実験手法と結果が得られているように思える。
つまり、ユーザの検索要求そのものにアプローチできているように感じた。

「計画と制御」(by Shin Murakoshi)に基づく行動を日頃から取ってい
るというのは、言われてみればその通りだが、きちんとそのデータを取る
実験を行ったというのは有意義だろう。

また一方で、情報提供者や検索システムの側でこういう検索行動をサポー
トするにはどうしたら良いのか?といった疑問に答えるための研究が必要
なのではないかと思った。
Referrer (Inside): [2005-10-21-4] [2005-10-17-2]