リンク: [ホーム] [自己紹介] [リンク集] [アルバム] [ソフトウェア] [発表文献] [その他]

まさおのChangeLogメモ / 2005-10-21

01 02 03 04 05 06 07 08 09 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31

2005-10-21 Fri

* Collection statistics for fast duplicate document detection

重複文書検出手法の論文第三弾。doi:10.1145/506309.506311
cf.第一弾[2005-07-07], 第二弾[2005-10-17]

・書誌事項:
Abdur Chowdhury, Ophir Frieder, David Grossman, Mary Catherine
McCabe: Collection statistics for fast duplicate document
detection, ACM Transactions on Information Systems, Vol.20, No.2,
2002, pp.171-191.

・概要:
I-Matchという新しい手法を提案。この手法は既存の手法では無視されて
しまうような短い文書にも有効で、Web文書での有用性が見込める。さら
に計算速度も高速という特長がある。

評価にはExcite@Home(Web)、LA-Times(新聞記事)、Web文書2GB、
TREC-4+5(新聞記事)といったテストコレクションを使った。

。。。

* Google Scholar

the pros and the cons:
Google Scholarの特長とその欠点について述べた論文。
doi:10.1108/14684520510598066

・書誌事項:
Pe'ter Jacso':
Google Scholar: the pros and the cons, Online Information Review,
Vol.29, No.2, 2005, pp.208-214.

・概要:
Google Scholar(β版)サービスの提供開始をうけて、その特長と欠点に
ついて述べる。

利点:
- 様々な場所で提供されている論文提供サービス、リプリントサーバの情
報を一度に検索できる
- 書誌情報だけでなく、全文検索も可能(検索一致箇所の文脈が見れる)
- 引用情報(cited by)によるスコア表示
- 無償での利用

欠点:
- 情報の非公開性(どのサーバを収集対象にしているのか明らかでない)
- 検索機能の限定(先頭数100Kバイトしか全文検索の対象にならない)
- 情報の網羅性
-- Natureなどの出版社側の検索エンジンに比べ、ヒット件数が少ない

・感想:
とりあえず、この欠点は再現率重視の学術情報の収集源としては相当痛い。
まともに使うのは控えるのが賢明そうかも…。用途にもよるだろうけど、
少なくとも、他の検索サイトと一緒に使わないとダメそうだね。

Googleがこういった課題をどう克服していくかを見ていく、という視点も
(他人事なら)面白いだろう。

* Is the wiki concept really so wonderful?

wikiについての編集委員Editorial。
doi:10.1108/14684520510607551

・書誌事項:
G.E. Gorman: Editorial: Is the wiki concept really so wonderful?,
Online Information Review, Vol.29, No.3, 2005, pp.225-226.

・概要:
Wiki系についての所感を記したもの。Wikiはブレインストーミング用シス
テムと位置付け、同輩による前向きな議論には非常に有効だが、それ以外
の環境では、Web/Internet特有の性質であるカオス的な雰囲気に陥りやす
いとの意見を述べている。

・感想:
特に見るべき参照文献などがある訳ではないし、最近ではあたりまえにな
りつつある普通の意見のように感じる。特に感想はない。

* JimGray

http://research.microsoft.com/~Gray/
今朝、NII前の交差点で信号待ちをしている人に道を訪ねていた外人さん
がいた。あとから知ったのだが、あの人はNIIに立ち寄りに来た、マイク
ロソフト研究所のDB研究で著名なチューリング賞受賞者のJim Gray氏だっ
た模様。

ぜひとも話しかけておくべきだったか。。。
Referrer (Inside): [2007-02-03-1]