リンク: [ホーム] [自己紹介] [リンク集] [アルバム] [ソフトウェア] [発表文献] [その他]

まさおのChangeLogメモ / 2006-03-11

01 02 03 04 05 06 07 08 09 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31

2006-03-11 Sat

* NTCIRへの提案アイデア

・OSSコミュニティとの連携

(背景説明)
Namazu Projectに1998〜2001あたりに参加していて、その動向を見てきた。
昔はNamazuくらいしかなかったが、Namazuの活動が停滞すると、ここ2・3
年でRast,Estraiyer,Senといった新しいツールも出てきた。しかし、日本
語向けのOpen Source Softwareによる検索エンジンでTF-IDFといった(超)
古典的モデル以外に積極的に取り組んでいるところは少ないように思える。
近代的なIRモデルや、文書長やリンク、アンカーテキストのランキングへ
の反映といった観点があまり見られないのは、NTCIRをはじめとする先端
的なIR手法の展開との乖離という点でとても残念(OSSを利用している一
般社会にとっても、情報研究者から見ても)。

また、TRECにおいては古くはSMART、近年ではLemur,TerrierなどのOSS検
索エンジンが学術の場で開発され、OSSとして社会にも広く提供されてき
たのが、IRコミュニティ全体の大きな前進につながっているのではないか。

一方で、学術とは近いものの、少し違った分野であるOSSの動向を見てみ
ると、基本的には企業・大学といった所属とは無関係に、個人がボランタ
リーに活動しているのがよく分かる。そもそも所属が情報学、ITとは無関
係の人も多い。

(提案)
こういった点をふまえた上で、NTCIR側でできることとして、参加資格に
ついての再検討はどうだろうか。
 
NTCIRでは従来暗黙のうちに、参加資格を所属のしっかりした(身元のはっ
きりした)人、という形で規定しているようだ(学生さんには研究代表者
として指導教官を設定するようお願いするなど)。

この流れだと、手持ちのOSSがあり、IR手法には個人的に興味を持ってい
るものの、所属組織とは無関係にボランタリーな活動をしている個人が参
加、利用しづらいという傾向を感じる。既存のテストコレクションで評価
をするという、研究目的利用の方だけでも、なにか個人の資格で気軽に
(というと大袈裟かもしれないが)利用できる方策を考えていった方がお
互いのコミュニティにとってうれしいだろう。

・教育実践への応用

(背景説明)

図書館情報学の学部教育に「情報検索演習」という授業がある。これは、
いわゆるサーチャーの基礎という感じで、サーチャーに必要とされる実践、
つまり検索システムの概念とその利用法を学ぶ。私大などの非常勤でこの
授業を教えている話を聞いてみると、意外なほどこの教育環境は整ってい
ない。教育用CD-ROMをベースにその範囲内 + Web上のリソースを対象に授
業をやっているようだ。

CD-ROMに関していえば、内容が小規模(数千件)にとどまっている点が不
便で、実践的なAND/ORといった課題を与えても、そもそも絞りこむほどの
情報量が無いので学生に演習させる課題に四苦八苦する。一方でWeb上の
グーグルなどは規模の点では文句が無いが、1)その動作原理には不明な点が
多く、2)常に動的に更新されているDBであるため、課題を設定してもそ
の適合文書が無くなる、発見順位が変更される、3)サービスの仕様が突然
変わってしまったり、サービスそのものが無くなったり、といった問題が
出てくる。

また、演習の際に使う検索課題は、適切なものを探すのが難しい。特に難
易度を考慮して、例題、課題、試験などを課そうとすると、対象とするDB
である程度の検索を実地におこない、総合的に判断する必要がある。

(提案)
例えば、NTCIRで提供している「適合判定済の課題集合」は量としてもあ
る程度あり、それだけで、授業を運営する立場でうれしいようだ。さらに、
課題だけでなく、課題毎の判定結果があれば、課題の難易度の参考になる。

さらに、「静的な文書セット」もあることで、先に挙げた弊害なく、実践
的な演習ができる可能性が広がるようだ。できれば、ベースラインの検索
システムの提供があれば、そのまま授業での活用ができる。

ちなみに、課題集合は単体だけなら、今でも入手可能(NTCIR-4,5では
Evaluation Results CD-ROMに入れ、それをWebで公開)。

一方で、文書セットやベースラインシステムの提供を考えた場合、これら
を授業等での課題・試験に応用することは可能だろうか。また、「教育目
的利用」という考え方はどれくらい現実的だろうか。

ポイントは、おそらく覚書契約の範囲の明確化と、IR教育の実践コミュニ
ティとの連携、という点にあるのではないか。

・利用者コミュニティとの交流・連携(利用者コンクール)

教育コミュニティとの連携とも関連するのだが、利用者から見たIRシステ
ムはブラックボックスとなっていて、どういったシステムをどう使い分け
るのか、といった問題は利用者コミュニティでの課題となっている。

藤井先生によるチュートリアルなどを活用した特許情報利用者コミュニティ
との連携は非常に示唆に富んでいて、実際の利用者がどうIRシステムをど
う捉えているのかを意見交換する場を作り、研究コミュニティと連携させ
ていくかは今後のNTCIR運営にとっても重要と考える。

まず第一歩として、利用者コミュニティとIR研究コミュニティの交流のた
めに、双方から代表的な方に講師をお願いしてセミナーを開いていくといっ
た方式はどうだろうか。

一つの手は、以前Gooが行っていた「検索の鉄人」のような、利用者の検
索行動を評価し、表彰するような場を作っていくことではないか。また、
コンクールの直接の運営は利用者コミュニティに任せることも可能。

連携を深めるという意味でいえば、利用者コミュニティが興味を持って、
その立場のまま参加できるようなタスクがあると良いのかもしれない(タ
スク設計はno idea)。

* mnews vs mutt

よく見たら、両者ともreaddirしているようだ…。

mutt:
main -> mx_open_mailbox -> mh_read_dir -> maildir_parse_dir (opendir, readdir) -> maildir_parse_entry

よぉくコードを追ってみたところ、悪いのはreaddirではなく、
maildir_parse_entryでフォルダ内のメールを全て読み込んでいる実装の
ようだ。