http://www.nii.ac.jp/news_jp/2007/03/web_20_yahoo_1.shtml
・メディア記事
「Yahoo!知恵袋」のデータを研究用に無償提供、情報検索技術の研究を促進(日経パソコン・八木玲子)
国立情報学研究所,Yahoo!知恵袋のQ&Aデータを無償提供(日経コミュニケーション・高橋秀和)
国立情報学研究所、Yahoo!知恵袋のデータを研究用途に活用(日経コンピュータ・小野口哲)
「Yahoo!知恵袋」のデータを研究目的で利用、国立情報学研究所が契約締結(インプレス・三柳英樹)
NII研究者「検索では追いつけない」--ヤフーがデータ提供へ(CNET Japan・島田昇)
Q&Aサイトなら米国に勝てる? 「Yahoo!知恵袋」研究が開始(@IT・垣内郁栄)
Yahoo!知恵袋のQ&Aを学術利用 NII(ITmedia・岡田有花)
・解説・感想
一応、中の人間だけど、昨年度に所属を異動して直接には全く関わってお
らず、どういう話になっているのかは知らないが、NTCIRの広報にもなる
だろうから、個人的なメモ代わりとして、一般向けになりそうな解説を書
いておく。
まずは前提として:
NTCIR:
http://research.nii.ac.jp/ntcir/
テストコレクションの構築プロジェクトであり、情報検索/情報抽出/質問
応答といった技術を評価する基盤となる「テストコレクション」を構築す
る研究プロジェクトである。既に過去5回のワークショップを開催し、国
内外多くの当該分野の研究者が参加して行われ、過去のワークショップで
構築されたテストコレクションおよびその後研究目的利用として公開され
ているテストコレクションを含め、各個別技術およびアクセス技術全般の
評価を行う基盤として、多くの研究発表の基礎となっている。
知恵袋:
http://chiebukuro.yahoo.co.jp/
Yahoo!Japanが運営する人力検索と呼ばれる、ユーザ参加型の質問応答サー
ビス。多くの利用者が相互に質問・回答を付けることができる。
さて、これらのデータをNTCIRではどうやって使うのか?
まずは、料理の仕方は色々あり、個別技術の研究者たちがコーパスとして、
評価データとして、様々な用法/アイデアを出しあって最先端の研究技術
の開発に使われる。
また、NTCIRワークショップ本体でも、何らかのタスクを設定して、これ
らの活用方法、運営のためのアイデアを出す場ができると良いと思う。
現在進行中であり、来年5月に成果報告会を開催予定のNTCIR-5ワークショッ
プでは一応、「Opinion Analysis Task (pilot)」(意見抽出パイロット
タスク)が実行されており、ここでは、自然言語文章からの「意見」の抽
出や分析・評価の研究が行われている模様。
現在進行中であるため、実際にどういうタスクが行われているか、よく理
解していないが、前回の成果報告会でのプロポーザルでは、台湾版Y!の知
恵袋相当のデータについても交渉中という話があったりして、かなり興味
深いデータの話もあったりしたので、それとともに使って、日中英の3言
語のテキストから意見抽出するようなタスクは、研究としても大変チャレ
ンジングな話題で、まだ実用段階でこれらを実行する環境も、その前提と
なるデータも揃っていなかったので、今回のニュースは、こういった研究
およびその実用化に向けて非常に寄与すると思う。おそらく来年度以降の
ロードマップとして類似の話は出てくるのではないかと思う。
さて一方で、こういった商用サービスから出てきたデータにおける個人情
報については、相当センシティブな情報が含まれることもあり、先年も、
AOLが検索エンジンのクエリログを公開する際にフィルタリングをせずに
公開してしまい、社長が辞任するといったニュースが流れた。
今回は、サービス当初からの規約に研究目的利用を見越した文言を入れて
おいたとのことであり、クリアになっているようで、使う側としてもあり
がたい。ご担当の方の先見の明を称えたい。
なお、ニュース記事にいくつか取り上げられている大山先生の発言だが、
プレス発表の様子を見ていないので分からないが、これらは上記のような
商用サービスから出たデータを研究利用しずらい点を踏まえたものと推測
され、私なりにまとめてみれば、以下のような話ではないかと推測する。
現在世界的にはGoogle, Microsoft, Yahoo!の大手3社が猛烈な技術開発競
争の真っ最中であり、SIGIRを始めとする国際会議等にも各社のリクルー
タが大挙して優秀な学生の囲い込みを行おうとしていると聞いている。特
に、Microsoft, Yahoo!は後発組であり、研究コミュニティとも近い関係
にあり、多くのインターンを雇い入れるなどして、その研究成果を国際舞
台で発表している。
例えば昨年SIGIR2006では、全Web空間を対象とするような、まっとうな検
索エンジン技術の開発・評価は、MS/Y!での成果が多く発表されている。
cf.
[2006-04-25]
これらのサーチエンジン各社はクエリログを始めとする多くの生データを
持っており、それらは最新の機械学習手法等により、検索ランキング性能
の向上に容易にフィードバック可能であるためである(現に昨年のSIGIR
ではMSNのユーザクリックのログに基づくランキング性能向上についての
研究論文が載っている)。一方で、純粋な研究室規模では、これらの商用
サービス規模でそれに匹敵する生データを集めることは絶対的に難しく、
スケールメリットによる性能評価が行えない現状がある。
ここにY!知恵袋のような大手商用サービスの生データが提供され、自由に
研究目的に利用できれば、これまで使われなかったデータを活かした研究
ができることの利点は測りしれず、十分に研究が進めば、これまで小規模
でしか行えなかった研究を大規模に行うことにより発展し、新しい研究分
野そのものも発掘できる可能性もある。
さて、以上が夢のありそうな建前のお話。
以下、現実的にどう使うだろうかという予想を書いておく。
・コーパスとして
自然言語屋さんによる、既にブログ等のWebテキストを使った文章解析技
術の開発は進んでいるが、その評価対象用データセットは、それぞれが独
自に適当なブログからの収集をしたりしていて、共通で使えるデータセッ
トはあまり無かったように思う。知恵袋のデータは研究者ならば研究目的
の契約を交せば自由に入手できるようになるため、標準的なデータセット
としての位置を占めることができるのではないかと思う。
・クエリとして
これまでの質問応答技術の問題文の部分や、検索評価のためのクエリ集合
の作成は人手で行われることが多かった。これは意外と難しく、自然な情
報要求となっている、タスクの設定に適合したものかなど、作成するだけ
でなく、いろいろとチェックしないとダメなので、手間が多く、かつ、バ
イアスが入らないよう、複数人によるクエリ作成を行わないといけないな
ど、別に研究としても面白いところではあまり無いのだけど、それなりの
手間のかかる部分だった。
# 米国のTRECなんかはこれをサボってクエリログから意図を推定するとか、
# 先に正解ページを設定してからクエリを作るといった乱暴なこともして
# いるけど…。
まあ、知恵袋の質問文がこれの素材として十分な資源になるかは少し疑問
なのだけど、複数人が自由に知りたい要求を書いた文としては、量的に申
し分無いだろうし、この文章を元に書き起こすのでもそれなりに面白いと
は思っている。これはやり方としてイヤな人もいるだろけど…。
・判定済データとして
知恵袋では単に質問文・応答文だけでなく、質問者によるベストアンサー
などの答えに対する主観評価が付いている。これはうまくすれば、既存の
テストコレクションにおける一種の判定と同等として扱うことも可能かも
しれない。
例えば、NTCIR-5の特許タスクでは既存の特許審査官による特許無効審査
の結果をもらってきて、一種の判定結果と見なしたというタスク設定で実
行された。こういったことが質問応答についても可能かもしれない。ただ、
これについてはデータを見てみないと本当にそんなにうまくいくのかは良
く分からないし、データが大丈夫だったとしてもタスク設定がうまくでき
るのかといった問題もあるのだろうけど。
というわけで、3つの中ではNTCIR自体とは独立に、コーパス路線が現実的
には一番おいしい活用法ではないかという気はする。。。
まあ、そもそもあまり考えずに書いているので、もっとずっと良いアイデ
アはありそうな気はしますが。どなたか、もっと良いアイデアがあるよと
いう方は、ぜひ教えてくださいませ。
※なお、筆者は
人力検索はてなは利用したことがあるものの知恵袋の方に
ついては利用経験が無いため、データ内容については推測にすぎません。