リンク: [ホーム] [自己紹介] [リンク集] [アルバム] [ソフトウェア] [発表文献] [その他]

まさおのChangeLogメモ / 2005-09

01 02 03 04 05 06 07 08 09 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30

2005-09-30 Fri

* World Wide Webを用いた事典知識情報の抽出と組織化

藤井先生のCylone総括論文。

・書誌事項:
藤井 敦, 石川 徹也: World Wide Webを用いた事典知識情報の抽出と組織
化. 電子情報通信学会論文誌 D-II, Vol.J85-D-II, No.2, pp.300-307,
Feb. 2002.

・概要:
これまで開発してきたWeb情報による事典情報検索システムCycloneの概要
およびそこで使用した手法についてまとめた論文。

事典情報を生成するには、Web上の情報に対して「抽出規則」「事典モデ
ル」「分野モデル」の各モジュールによる抽出と分析を行い、事典情報と
なりうる項目を生成する。

システムとしては単純な構成で、Googleを検索して得た文書と、世界百科
事典によるコーパスを使って、事典らしい情報を抽出する。また、精緻な
語義分類は困難なため、クロスランゲージ社の分野対訳辞書を元に19分野
への分類を行った。

評価実験として、情報処理技術者試験二種の平成11年度秋試験の問題から
96件の用語を抽出し、これについて事典情報の生成実験を行った。
96件中、用語説明の得られた85件の用語について人手で判定した結果、上
位3件以内に正解分野に分類できた割合は89.4%(76/85)となり、高い精
度を得られることを確認した。また、英和コンピュータ用語大辞典の収録
語において上記用語群について説明が付与されていた語は42語しかなく、
Cycloneでコンピュータ用語として判別できた67語と比較しても、新語の
収録に有効であることが分かる。

・感想:
よくまとまっていてよい。ただ、Cycloneで使用したアルゴリズムについ
ては、Googleに依存してしまうモジュールがいくつか見られたのが残念。
もう少し新しい提案などがあるとより魅力的な研究報告となったと思う。

複雑な処理の説明でこなれていない表現もあり読みづらいところも一部あ
るが、文章は全体に簡潔で分かりやすい。
こんな文章書くんだなあ、藤井さんって。という感じ。

* Thesauri

practical guidance for construction:
シソーラス構築の概要についての解説記事。
doi:10.1108/00242530510611893

・書誌事項:
Emma McCulloch:
Thesauri: practical guidance for construction.
Library Review, Vol.54, No.7, 2005, pp.403-409.

シソーラスの構築の実践的な解説記事。シソーラスの概念とその必要性か
ら、実際の構築にあたって留意すべき点を簡潔にまとめた入門記事。

・感想他:
今度のJSIKフォーラムでの参考になりそう。参照論文もひととおり押さえ
ておくとよさげ。
Referrer (Inside): [2005-10-04-1]

2005-09-29 Thu

2005-09-28 Wed

* Image retrieval and disambiguation for encyclopedic web search

藤井先生のIJCAI2005でのポスター発表論文。

・書誌事項:
Atsushi Fujii, Tetsuya Ishikawa:
Image Retrieval and Disambiguation for Encyclopedic Web Search.
IJCAI2005. 2005.

・概要:
多義性を持つ語句の画像検索の手法として、近接度に応じた重み計算手法
の提案。

手元で Yahoo! Japan の画像検索結果をベースラインとして、多義性を持
つ用語22語で人手で適合判定を行ったデータを使い、その精度を比較し、
10位以内での正解出現率93.6%と良い性能を得た。

・感想その他:
どうやら藤井さんが3月の言語処理学会で優秀賞を取った内容の原稿らし
い。

* 英語で自己紹介

(Hi,)
(Nice to meet you.)

I'm Masao Takaku, a (post-Doc) researcher in (here) NII.

I'm working on NTCIR Web task with Prof.Oyama, (Prof.Eguchi) and
Prof.Kando.

I'm a graduate from Univ. of Lib. and Info. Sci.

I got a phD from Univ. of Tsukuba.

(Thank you.)

* Evolution of document networks

Webリンクネットワークの構造とその生成モデルについての論文。
doi:10.1073/pnas.0307554100

・書誌事項:
Flippo Menczer: Evolution of document networks. Proceedings of the
National Academy of Science. Vol.101, suppl.1, 2004, pp.5261-5265.

・概要:
Webリンクからなるネットワーク構造は、べき分布に従うことが知られて
いる。つまり「人気のあるページほどよりよくリンクされる」のだが、そ
れだけを元にした単純なネットワークモデルではWeb全体のリンク生成モ
デルを構築できず、「似た文書はよく似た文書同士とよりよくリンクする」
という文書内容の類似関係も考慮し、ミックスしたモデルによる定式化が
必要となる。

ミックスモデルとして、リンク関係はJaccard係数を、文書内容の類似度
としては文書ベクトルのコサインを用いて、リンク生成モデルを定式化し、
Web文書集合としてODPから抽出した11万ページ程度のデータ、および科学
論文文書集合としてPNASの16000文書程度のデータで実験を行い、実際の
分布ともよりフィットするモデルであることを実証した。

・感想:
最近話題のネットワーク理論畑での論文。
だいぶ前から積ん読になっていたため、どういう経緯で読むことにしたか
は忘れたが、短い論文でもあり、意外と読みやすい。

なお、この雑誌は参照文献の書誌事項にタイトルを入れないスタイルなの
だが、これは非常にイライラする。

* Book lovers beware

A survey of online research habits of
Stanford Law Library:
スタンフォードロースクールでの学生のオンライン活動の利用調査アンケー
トのまとめ。

学生の図書館利用動向のアンケート調査で、オンライン調査をどの程度使っ
ているかを聞いてみたところ、思ったよりも高い割合になったとの報告。

ロースクールは全学で550人程度の学生数で、2002〜2004年の3年分の調査
によれば、調査研究作業の80%以上をオンラインで行うと答えた学生は、
2002年は75%、2003年は83%、2004年は93%の割合にのぼったとのこと。

2005-09-27 Tue

2005-09-26 Mon

2005-09-25 Sun

2005-09-24 Sat

2005-09-22 Thu

2005-09-21 Wed

2005-09-20 Tue

2005-09-19 Mon

2005-09-18 Sun

2005-09-16 Fri

2005-09-15 Thu

* URL memo

- I, Cringely . NerdTV | PBS: delicious887 users
- 東大よりハーバードに行こう: delicious users
- The BookFinder.com Report: delicious19 users
The BookFinder.com Report is a different kind of bestseller list: the most sought after out of print titles in America.

2005-09-14 Wed

* ライブラリアンのためのやさしい統計学 [book]

図書館情報学研究における実例を用いた統計学の基礎。
NII図書館で借りてきて読んだ。

原書は1977年出版と非常に古い本であり、例題として取り上げられる実例
には「カード型目録の是非」など、かなりアレげなタイトルも散見される
が、蔵書規模と図書館サービス(貸出数・参考業務数など)との相関など、
図書館学研究において実際的な例題をもとにして、基本的な統計要約量の
読み方から、相関係数、検定といった統計の初歩について解説。

説明も丁寧で、翻訳調の部分も意外なほどなく、上記の例題に馴染がある
人なら分かりやすい解説だと思う。
(馴染のない人は当然、*普通の*入門書に当たるべきだろうが…)

問題は、統計学上の新しい知見についての追記が見当たらないこと。1970
年代から今日までの間に新たな統計手法や検定手法が発達していないとは
思えないのだが…。できれば、補足として述べておいてくれると大変良かっ
たのだが。

2005-09-13 Tue

2005-09-12 Mon

2005-09-11 Sun

* URL memo

- グラディウス お馬鹿にプレイ: delicious1 users
- UGAYA Journal.: delicious users
烏賀陽の朝日新聞社退社関連記事
- UGAYA Journal.: delicious users
「グロテスクな平和」~核兵器は存在自体が「悪」なのか?

2005-09-09 Fri

* Conveying Taxonomy Context for Topic-Focused Web Search

分類体系に基づくクエリ変形によって検索効率化を図るための手法、その
高速化アルゴリズムの提案。筑波大の北川研の院生による。
doi:10.1002/asi.20109

・書誌事項:
Said Mirza Pahlevi, Hiroyuki Kitagawa:
Conveying Taxonomy Context for Topic-Focused Web Search.
Journal of the American Society for Information Science and
Technology. 2005, Vol.56, No.2, pp.173-188.

・概要:
ODPのようなタキソノミーの階層に沿ってWebサーチエンジンの検索質問を
変形することでリファインする手法とアルゴリズムの提案。

Taxnomy-based Context Conveyance (TACC)と呼ぶ手法で検索質問と分類
体系のトピックに基づく自動分類器を動的に生成し、検索の効率化を図る。

クエリを受け付ける形式から、Webサーチエンジンを(1)boolean search
interface, (2)template-based search interfaceの2種類に分け、それぞ
れTACC/CDT, TACC/CCRという機械学習アルゴリズムでクエリの変形を行う。

分類体系としてODP、サーチエンジンMSN(boolean), Google
(template-based)の2つを使って評価実験とプロトタイプシステムの評
価を行っている。

検索質問の例(表1):
"salsa" + /Arts/Performing_Arts
"salsa" + /Arts/Performing_Arts/Dance/Latin
"oil AND product" + /Shopping/Health
"oil AND product" + /Shopping/Health/Beauty
"oil AND product" + /Business/Industries
"oil AND product" + /Business/Industries/Energy
"diet" + /Shopping/Health
"diet" + /Shopping/Health/Nutrition
"apple" + /Home/Cooking
"apple" + /Home/Cooking/Soups_and_Stews
"solar" + /Science/Technology
"solar" + /Science/Technology/Energy
"Adobe" + /Computers/Software
"Adobe" + /Computers/Software/Graphics
"rights" + /Society/Issues
"rights" + /Society/Issues/Animal_Welfare
"Christmas" + /Business/Industries
"Christmas" + /Business/Industries/Agriculture_and_Forestry
"Nepal" + /Recreation/Travell
"Nepal" + /Recreation/Travel/Travelogue

・感想
中途半端にアルゴリズム屋さんの論文になっていて、あまり面白くない書
き方。途中で挫折。アルゴリズムの詳細(付録A,B)は結局ほとんど理解
できず。

2005-09-08 Thu

2005-09-07 Wed

2005-09-06 Tue

2005-09-05 Mon

2005-09-04 Sun

2005-09-01 Thu

サイクリング走行距離メーター
2001 : 01 02 03 04 05 06 07 08 09 10 11 12
2002 : 01 02 03 04 05 06 07 08 09 10 11 12
2003 : 01 02 03 04 05 06 07 08 09 10 11 12
2004 : 01 02 03 04 05 06 07 08 09 10 11 12
2005 : 01 02 03 04 05 06 07 08 09 10 11 12
2006 : 01 02 03 04 05 06 07 08 09 10 11 12
2007 : 01 02 03 04 05 06 07 08 09 10 11 12
2008 : 01 02 03 04 05 06 07 08 09 10 11 12
2009 : 01 02 03 04 05 06 07 08 09 10 11 12
2010 : 01 02 03 04 05 06 07 08 09 10 11 12
2011 : 01 02 03 04 05 06 07 08 09 10 11 12
2012 : 01 02 03 04 05 06 07 08 09 10 11 12
2013 : 01 02 03 04 05 06 07 08 09 10 11 12
2014 : 01 02 03 04 05 06 07 08 09 10 11 12