リンク: [ホーム] [自己紹介] [リンク集] [アルバム] [ソフトウェア] [発表文献] [その他]

まさおのChangeLogメモ / 2005-10-17

01 02 03 04 05 06 07 08 09 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31

2005-10-17 Mon

* Duplicate detection in the Reuters collection

M.Sandersonによる重複文書の自動検出手法の実験についてのTR。

・書誌事項:
M. Sanderson: Duplicate detection in the Reuters collection,
Technical Report TR-1997-5, Department of Computing Science,
University of Glasgow, 1997, 11p.
http://dis.shef.ac.uk/mark/cv/publications/papers/my_papers/Duplicates.pdf

・概要:
レレバンスフィードバック手法の応用による重複文書の自動検出手法を
ニュース記事のロイター21,578テストコレクションで実験した結果につい
て報告。

検出手法としては、ある文書をレレバンスフィードバックで検索実行させ
た場合、その検索結果文書リストの上位に自分自身以外の文書が十分に高
いスコアで入っていた場合、それを重複とみなすというもの。レレバンス
フィードバックに使う語数は20語程度で十分な性能が得られたとのこと。

重複文書の類型を以下の3種類に分けて、その判定精度を実験。
1)同一文書で一方が長いもの
2)ほぼ同一文書であるが別事項について書かれたもの
3)完全一致

完全一致かどうかの判定では、322ペアのうち、2ペアを除き重複検出可能
となる高精度な結果を達成した。

・感想:
簡単な実験レポートながら、その後の重複研究の基礎となるような参照の
され方をしているので、一応参照した。

どの辺のスコアを閾値として重複判定したのかなど、手法自体がどういう
ものなのかは詳しく記述されていないので、今一つよく分からないが、付
録として全重複文書のIDが掲載されているなど、手法の提案というよりは
どちらかというと、ロイターコレクションの重複文書の数やそのありかに
ついてまとめるといった意図を持って書かれたもの。

他に読んだ重複判定手法に関する論文は[2005-07-07]を参照のこと。

* 分類法の将来

http://www.slis.keio.ac.jp/~ueda/semi/2001classification.pdf
慶應の上田先生@図書館・情報学のとこの研究室の学部生が作ったレポー
ト。

・書誌情報:
中山恵美, 松田千春:
分類法の将来, 2002, 18p.
http://www.slis.keio.ac.jp/~ueda/semi/2001classification.pdf

・概要:
DDC,UDC,NDC,LCC,NDLC,CC,BCという図書館における代表的な分類体系にく
わえ、Yahoo!Japanのカテゴリを加えたそれぞれの分類の特徴をレビュー。

・感想:
Yahoo!Japanについての文献を探していて見つけた。Yahoo!などの分類法
を比較する観点はさすが上田研の研究の蓄積の賜物で、一日の長がある感
じ。ただしYahoo!Japanだけで海外のものやODPには触れておらず、その点
で残念。

参照文献を見ていると、Yahoo!Japanの中の人が書いた発表文献があるよ
うで、参考になりそう。以下をどこかで入手すべきかも。

及川正隆, 「Yahoo!Japan」のカテゴリ構造とその分類, 専門図書館,
No.171, 1998, pp.68-72.
及川正隆, Yahoo! JAPAN のカテゴリとその分類について, 1998年情報学
シンポジウム, 東京, 1998-01
Referrer (Inside): [2005-10-21-4]