まさおのChangeLogメモ / 2005-10-17 / URL memo; Duplicate detection in the Reuters collection; 分類法の将来

users
CodeFest äº¬é½ 2005
- はてなＩＥをはじめとする従来の階層型でなく、はてなブックマークのように、キーワードとＷＥＢサイトを関連付けられるようなブックマーク管理ツールはない・・:

users
- 検索エンジンを国際的に比較評価するプロジェクト「NTCIR」:

users
- 英語論文書き方講座(2005年度)秋学期:

users
- Working with Time Zones:

14 users
- Writing E-mail in English:

users
- 成城大学社会イノベーション学部:

users

* Duplicate detection in the Reuters collection

M.Sandersonによる重複文書の自動検出手法の実験についてのTR。

・書誌事項:
M. Sanderson: Duplicate detection in the Reuters collection,
Technical Report TR-1997-5, Department of Computing Science,
University of Glasgow, 1997, 11p.
http://dis.shef.ac.uk/mark/cv/publications/papers/my_papers/Duplicates.pdf

・概要:
レレバンスフィードバック手法の応用による重複文書の自動検出手法を
ニュース記事のロイター21,578テストコレクションで実験した結果につい
て報告。

検出手法としては、ある文書をレレバンスフィードバックで検索実行させ
た場合、その検索結果文書リストの上位に自分自身以外の文書が十分に高
いスコアで入っていた場合、それを重複とみなすというもの。レレバンス
フィードバックに使う語数は20語程度で十分な性能が得られたとのこと。

重複文書の類型を以下の3種類に分けて、その判定精度を実験。
1）同一文書で一方が長いもの
2）ほぼ同一文書であるが別事項について書かれたもの
3）完全一致

完全一致かどうかの判定では、322ペアのうち、2ペアを除き重複検出可能
となる高精度な結果を達成した。

・感想:
簡単な実験レポートながら、その後の重複研究の基礎となるような参照の
され方をしているので、一応参照した。

どの辺のスコアを閾値として重複判定したのかなど、手法自体がどういう
ものなのかは詳しく記述されていないので、今一つよく分からないが、付
録として全重複文書のIDが掲載されているなど、手法の提案というよりは
どちらかというと、ロイターコレクションの重複文書の数やそのありかに
ついてまとめるといった意図を持って書かれたもの。

他に読んだ重複判定手法に関する論文は[2005-07-07]を参照のこと。

* 分類法の将来

http://www.slis.keio.ac.jp/~ueda/semi/2001classification.pdf
慶應の上田先生＠図書館・情報学のとこの研究室の学部生が作ったレポー
ト。

・書誌情報:
中山恵美, 松田千春:
分類法の将来, 2002, 18p.
http://www.slis.keio.ac.jp/~ueda/semi/2001classification.pdf

・概要:
DDC,UDC,NDC,LCC,NDLC,CC,BCという図書館における代表的な分類体系にく
わえ、Yahoo!Japanのカテゴリを加えたそれぞれの分類の特徴をレビュー。

・感想:
Yahoo!Japanについての文献を探していて見つけた。Yahoo!などの分類法
を比較する観点はさすが上田研の研究の蓄積の賜物で、一日の長がある感
じ。ただしYahoo!Japanだけで海外のものやODPには触れておらず、その点
で残念。

参照文献を見ていると、Yahoo!Japanの中の人が書いた発表文献があるよ
うで、参考になりそう。以下をどこかで入手すべきかも。

及川正隆, 「Yahoo!Japan」のカテゴリ構造とその分類, 専門図書館,
No.171, 1998, pp.68-72.
及川正隆, Yahoo! JAPAN のカテゴリとその分類について, 1998年情報学
シンポジウム, 東京, 1998-01

Referrer (Inside): [2005-10-21-4]

まさおのChangeLogメモ / 2005-10-17

2005-10-17 Mon

* URL memo

* Duplicate detection in the Reuters collection

* 分類法の将来