リンク: [ホーム] [自己紹介] [リンク集] [アルバム] [ソフトウェア] [発表文献] [その他]

まさおのChangeLogメモ / 2007-10-30

01 02 03 04 05 06 07 08 09 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31

2007-10-30 Tue

* 精度・再現率の罠

myrmecoleonさんの反省文を読んで、率直に情報検索評価研究の勘所だな
あと思う部分が含まれていたので、無粋に補足コメントを。
http://d.hatena.ne.jp/myrmecoleon/20071024/1193239434
http://d.hatena.ne.jp/myrmecoleon/20071029/1193665043

そもそも精度・再現率(Precision, Recall)は「数字」による表現だか
ら「客観的」(なものだ|のように見える)という誤解は根強いのです。
しかし、これらはそもそもが判定者の主観に頼る数値であるという大前提
があるし、値そのものにも意味はそれほど無いので、要注意。

一般論を言えば、特に文書群が均一でなかったり、対象コンテンツが同一
でないものを比較する場合には、数値的な比較をおこなってはいけません。

私がNTCIRプロジェクトに関わっていたときも運営の先生方みなさんが、
口をすっぱくしておっしゃっていたのは、評価結果はあくまでも、同一コ
レクション・同一検索質問を使ったときの相対的な比較にのみ、意味があ
るものですよということ。

たとえば、よく見うけられる誤りは、GoogleとYahoo!の同一検索式による
ランキング結果にもとづいて「Googleの方がYahoo!よりもP@10で20ポイン
ト上回っていました」と単純に報告してしまうもの。両者のサーチエンジ
ンは、クローリングその他諸々の要因によってデータベース内容そのもの
が異なっていて、かつその違いそのものを定量的に測ることが困難といっ
た特徴を持つので、数値として比較はできてもその比較がどんな意味を持
つかを意識しない限りは無意味になってしまうと思う。

つーかこういう研究って前例あると思ったら,タグ検索同士の比較ってあんまりないんですね。(海外の方は十分見てないのであるかもだけど)国内には別種のソーシャルタグの検索精度を比較するような研究は見つけられなかった。

前述の点を考慮すると、こういった研究が見当たらないのは、ある意味で
はしょうがない現象で、現に稼働している異なるシステム同士を比較する
のは、相当に難しいと思う。前提条件をいくつか制約として置かないと簡
単には比較できないからじゃないかな。

ちなみに、元記事の方で、

*2:ただしタグの全動画を確認するのは困難なので,タグ検索のデフォルトである「コメントが新しい」で表示されるもの(最大30件)を対象とした。
*3:上記と同条件。こちらはタグの注目エントリから取得で同じく最大30件

として、上位30件の適合判定を行っているが、これはIR研究の領域では上
位n件でcut-offしたランキング結果で評価を行う手法、''Precision at n''
と呼ばれる。今回は n=30なので、Precision at 30; P@30 と略記される
ようなランキング評価指標にあたるのだと思う。Web検索では、一般には
P@10みたいな指標がよく使われるし、場合によってはP@1みたいな極端な
値もよく見るものではあるが。
ちなみにWeb検索以外の新聞記事検索などの古典的な検索タスクでは、各
適合文書出現時点のPrecisionを平均した平均精度(Average Precision)
がよく使われます。

あと、いわゆる図書館情報学におけるRecall/Precisionへの言及は、文書
集合に対するものをベースとした、かなり古典的な問題設定領域に限られ
ていて、講義などでは、文書ランキングの性能評価という話までは到達で
きないのかなあという気はしてます。
「適合度順ランキング型システム」は、わざわざこういった言い回しをし
なくとも良いほどに普及しているのだから、本来は教科書なんかでも、そ
の評価手法についても定義や用法について細かな言及があってしかるべき
だとおもうのだけど、そういった観点に詳細に述べたものはほとんど見当
たらない気がする。
# 私も学生の時分はほとんど理解してなかったので偉そうに言えるような
# ことでもないが…。

で、本題に戻ると、まあ偉そうなことを言っても、そもそも
Recall/Precisionで計測されたものが現行サービスの使いやすさにどれだ
け貢献しているかすらも、実は分かっていない研究課題の一つなので…。
なにげに実はこうやって、地道に実サービスの計測を重ねていくのも手な
んじゃないかなあという気はします。たぶん1年くらいがんばれば、修論
くらいには余裕でなりそうな気はしますよね。
どなたかやってみませんか?