まさおのChangeLogメモ / 2005-12-12 / URL memo; TREC出張報告書; applefile

2005-12-12 Mon

* URL memo

users
- 安全なWebアプリ開発の鉄則 2004:

* TREC出張報告書

期間: 平成17年11月14日〜平成17年11月20日
出張目的: TREC2005出席、討論参加
用務先: 米国メリーランド州NIST
用務: TREC2005出席、討論参加

出張内容:
TREC 2005（Text REtrieval Conference 2005）に参加したので、それに
ついて報告する。

会議は米国National Institute of Standards and Technologies (NIST)
で2005年11月15日（火）から18日（金）に開催され、全体の参加者はおよ
そ180名程であった。

本報告者はNII内の研究プロジェクトNTCIRワークショップ・WEBタスクの
オーガナイザの一員であり、特に関連する研究者の発表を聴講し、議論を
行ってきたので、その内容について報告する。なお、NTCIRプロジェクト
からは他にNTCIR-5 QAC(Question Answering Challenge)部門オーガナイ
ザの福本先生（立命館大）、桝井先生（三重大）の参加があった。

会議の全体のスケジュールは以下の通りであった:
15日（一日目）: チュートリアル
16日（二日目）: 全体概要講演, Genomics, 招待講演(DUC,QA@CLEF),
QA, ポスターセッション
17日（三日目）: Robust, HARD, 分科会1, Terabyte, 分科会2
18日（四日目）: Enterprise, Spam, 総括

今年度のNTCIR-5 WEBでは、Webサーチエンジンなどで頻繁に見受けられる
既知事項を検索するNavigational Retrievalと呼ばれる動向に焦点を絞っ
ているため、この点に注目し、TRECのEnterprise,Terabyte両タスクの参
加者にこの点への焦点や注目すべき点など、ポスターセッションを含めて
討論を行った。また、TREC Terabyteトラックで利用しているテストコレ
クションデータのさらなる大規模化に際して、日本のWebデータを対象と
して構築したNTCIR-5 WEBの約1.5TBのWEBデータを紹介し、興味深いとの
コメントを得た。

2005年からの新しい試みであるEnterprise,Spam両トラックへの関心も高
く、Enterpriseについては、多くの検索研究のチームが取り組んできてお
り、また、Spamについては機械学習研究にとりくむ研究者や既存のスパム
判定ツールの性能評価ワークショップとして精力的に取り組まれた様子で
あった。

来年度からはHARDトラックを単独トラックとしては廃止してRobustトラッ
クと併合するとのアナウンスがあり、また、新規トラックとしてBlog,
Legalの2トラックを新設するとのことであった:

・Blogトラック: ブログはWeb上での新しいタイプのコミュニケーション
ツールとして注目を浴びている。TREC2006においてはWeb空間上の英語ブ
ログをテキストにして数十GB規模で収集し、Opinion/Attitudeの抽出、
Event Timelineのトラッキング・生成といった2種類のタスクを設定する
との案内があり、オーガナイザと参加者による議論があった。

・Legalトラック: Genomicsと類似の特定のドメインにおける専門的な情
報要求に応えるための手法、技術の評価を目指す目的のもので、法律分野
の専門家の情報要求に応える検索技術の評価を行う。IIT文書データを対
象として、弁護士による課題作成（Boolean）、判定を行う予定である旨、
アナウンスがあった。

また、情報要求評価の観点から興味深い発表として、HARDトラックにおけ
るJimmy Lin博士（University of Maryland）の発表があった。この研究
は、図書館情報学専攻の博士課程学生を一年間雇い、検索システムの判定
にあたらせ、情報要求の精緻化に必要な手法についての研究を行ったとの
報告であった。NISTにおけるTREC判定者の裁定との一貫性が無い部位など、
より実世界での情報探索行動に近い環境における検索システムの改良に対
して示唆に富む内容であった。

私見であるが、全体の傾向として従来型のシンプルな情報検索モデルに加
えて質問応答を始めとする応用アプローチへ研究の焦点が集まりつつある
ように感じた。また、Genomicsトラックは今年から新しく始まったトラッ
クで、生医学分野の情報にドメインを限定し、専門的な情報要求に対応す
る手法・能力について評価を行うトラックであったが、多くのチームが
Medical Subject Headings (MeSH)などのドメイン知識を活用したアプロー
チに取り組むなど、活発な研究がおこなわれ、大きな注目を浴びている様
子が伺えた。

* applefile

なぜか macsave コマンドは "Insufficient memory, aborting" とかいう
メッセージでおなくなりになるので、書いておいた。

とりあえず以下のような簡単なスクリプトで取り出せることが判明。

# cf. rfc1740

content = STDIN.read

# 4, 4, 16, 2 bytes
magic, version, d1,d2,d3,d4, num_entries = content.unpack('NNN4n')

#p [ magic, version, d1,d2,d3,d4, num_entries ]

start = 4+4+16+2
num_entries.times do |i|
   entry_id, offset, length = content[start, 12].unpack("NNN")
   if entry_id == 1
      print content[offset, length]
   end
   start += 12
end