統計的検定を考慮したシステム評価手法についての論文。
・書誌事項:
Mark Sanderson, Justin Zobel: Information retrieval system
evaluation: effort, sensitivity, and reliability. Proceedings of
the 28th annual international ACM SIGIR conference on Research and
development in information retrieval, Salvador, Brazil, 2005,
pp.162-169. (ISBN 1-59593-034-5)
・概要:
近年のシステム評価では主流となっていたVoorhees&Buckley(2002)論文の
結果の追試から始めて、t-/sign/Wilcokson検定により、評価手法の安定
性を測り、高めようとする提案。
V&Bの追試としてTREC2-11の結果を元に絶対値でのエラーレートを計算。
(Fig.1)。