M.Sandersonによる重複文書の自動検出手法の実験についてのTR。
・書誌事項:
M. Sanderson: Duplicate detection in the Reuters collection,
Technical Report TR-1997-5, Department of Computing Science,
University of Glasgow, 1997, 11p.
http://dis.shef.ac.uk/mark/cv/publications/papers/my_papers/Duplicates.pdf
・概要:
レレバンスフィードバック手法の応用による重複文書の自動検出手法を
ニュース記事のロイター21,578テストコレクションで実験した結果につい
て報告。
検出手法としては、ある文書をレレバンスフィードバックで検索実行させ
た場合、その検索結果文書リストの上位に自分自身以外の文書が十分に高
いスコアで入っていた場合、それを重複とみなすというもの。レレバンス
フィードバックに使う語数は20語程度で十分な性能が得られたとのこと。
重複文書の類型を以下の3種類に分けて、その判定精度を実験。
1)同一文書で一方が長いもの
2)ほぼ同一文書であるが別事項について書かれたもの
3)完全一致
完全一致かどうかの判定では、322ペアのうち、2ペアを除き重複検出可能
となる高精度な結果を達成した。
・感想:
簡単な実験レポートながら、その後の重複研究の基礎となるような参照の
され方をしているので、一応参照した。
どの辺のスコアを閾値として重複判定したのかなど、手法自体がどういう
ものなのかは詳しく記述されていないので、今一つよく分からないが、付
録として全重複文書のIDが掲載されているなど、手法の提案というよりは
どちらかというと、ロイターコレクションの重複文書の数やそのありかに
ついてまとめるといった意図を持って書かれたもの。
他に読んだ重複判定手法に関する論文は
[2005-07-07]を参照のこと。