リンク: [ホーム] [自己紹介] [リンク集] [アルバム] [ソフトウェア] [発表文献] [その他]

まさおのChangeLogメモ / 2008-12-19

01 02 03 04 05 06 07 08 09 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31

2008-12-19 Fri

* NTCIR-7成果報告会から帰ってきて思ったこと

この10年に渡って続いてきたNTCIRプロジェクトは、情報検索や質問応答、
自動分類といった情報アクセス要素技術の研究コミュニティの基礎評価デー
タを提供するために行われ、各タスクで配布された共通データセットを元
に新しい要素技術の開発を行ったうえで、その評価を行い、タスク終了後
にはそのデータセットを一種のベンチマークとして、実験の再現性を確保
しつつ、新たなアイデアの創出を促すというものだった。

今週、東京の国立情報学研究所において、一年半ごとの開催としては7度
目の成果報告会が開催された。

今回は、以下の4つの主要タスクで行われた成果が報告された。
- ACLIA(言語横断質問応答)
- MOAT(意見抽出)
- PATENT(多言語特許の翻訳とマイニング)
- MuST(動向情報の抽出と可視化)

4日間フルに参加したらかなりグロッキー状態になったので、NTCIR自体の
説明は酒井さんのブログ等に譲り、成果報告会の個別の報告についても言
及しないが、NTCIRのような学術研究コミュニティ主導型プロジェクトの
発展可能性と、その限界について考えてみたい。

とくにタイムリーに公開された記事「ウェブサイエンスの抱える『再現性』
の問題」で指摘されている課題とかぶる点があるので、それにあわせて、
上記記事ではNTCIRのような学術主導型プロジェクトによるデータセット
整備について触れられていないので、それを補足する形で、3年ほど前の
NTCIR-WEBタスク運営での経験から言えることがあるかもしれないという
ことで考えてみた。
cf. http://d.hatena.ne.jp/kunimiya/20081218/p1

最初に書いておくと、Web上で使われている情報アクセス技術の大半は多
くの研究の蓄積により、再現性を確保してきた。別の地域、別の時機に類
似の手法を用いた研究を行うことで、それぞれの追試はある程度までは可
能であるし、そのような蓄積の上に、どのような技術が使えるかの見通し
が付いてきたという面はある。もちろん難しいものもある。例えば、
PageRankの追試は、Googleが宣伝していることもあり、追試が盛んに行わ
えたが、それ単体でのランキング技術はそれほど使えないというのが、こ
れまでの知見だろうと思う。ただ、これを確認するにもGoogle規模のWeb
グラフデータが無いと難しいなどの点から、即座にそのような知見を出す
ことは難しかった。これこそは一種の「再現性」の難しさとは言えると思
う。ただし、これもきちんとデータに基づいた話ができれば、数年がかり
で実証できることのように思う。これは一面では、科学そのものが捏造と
いった意図的な不正に弱いという、他の分野で言われてきたことそのもの
かもしれない。

さて、NTCIRに関して事業者とのやりとりという意味では、一つには、既
存の紙媒体出版におけるものが進んでいるということが挙げられる。新聞
記事データは、NTCIRに限らず、言語資源を用いた研究でとても重要なデー
タであるため、各新聞社との交渉にもとづいて商用の電子化済データを契
約している。このように元の電子化リソースに市場価値があるものであれ
ば、学術目的利用との契約を交すだけで使いやすい土壌を努力して作って
きた。NTCIRでも初期から、参加者に新聞記事データを配布しているが、
これはその方式に則ったものだ。

一方で、Webを対象にした場合はだいぶ様相が異なるのは言うまでもない。
Webに関しては個別のライセンシング方式をまかなうだけの基盤が原理上
存在しないので、たしかにid:kunimiya氏が指摘するような、事業者単位
でのライセンシングはある程度有効な手立てだろうとは思う。一方で、そ
れに依存してしまうと、研究基盤が脆弱になってしまうという問題もある。
たとえば、Google Web APIがSOAP方式の提供を停止してAjax APIのみに移
行してしまって、それを活用する形での研究は難しくなっているし、ノウ
ハウの共有という意味でも、数年くらいの停滞を余儀なくされた研究室は
多いのではないかと思う(幸いにYahoo APIがそれを代替する形で使われ
るようになってはいるが…。)

もう一点指摘しておかないといけない点は、著作権制度などのような社会
との関係についてだ。Webのアーキテクチャおよび大規模データという特
性は、個別ライセンスであれ一括ライセンスであれ、利用許諾を得ること
は実質的には困難であるという土壌を持っている。このため、Webを対象
とした研究を行う際には、研究利用目的であろうと社会規範との調整は必
要となる。とくに再現性、もしくは再利用性を考慮したデータセットを扱
う時はとりわけだ。たとえば、今回のNTCIR-7の意見分析タスクでは、当
初Webからクロールしてきたブログデータを使ったデータセットを配布す
る予定だったが、現行著作権制度のもとでは配布は難しいとの理由から、
新聞記事を使ったタスクに切り替えざるをえなかったと聞いている。次回
以降はフェアユース制度の採用に期待しつつ、という話もあったと聞いて
いる。社会制度上の解決をはかるためには、時には社会に積極的に働きか
けないといけない場合もあるのかなと思う。

一方で、NTCIRの限界としては、技術評価のためのワークショップである
という性格から、1)共通のタスクが用意でき、ある程度の参加者が確保
できるタスクに限られ、かつ、2)そのタスクの評価技術がある程度まで
固まっているようなものに限られるという点がある。
今回のMuSTで見られるような情報可視化のようなタスクに関しては、なか
なか評価までは辿りつかないのが現状だろう。そもそも評価が難しい研究、
そういった分野にこそ、ほんとうは再現性が求められるのかもしれない。


(2008-12-27 公開: NTCIR成果報告会後に下書きしていたものを中途半端
ながら置いておく)