リンク: [ホーム] [自己紹介] [リンク集] [アルバム] [ソフトウェア] [発表文献] [その他]

まさおのChangeLogメモ / 2006-07-28

01 02 03 04 05 06 07 08 09 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31

2006-07-28 Fri

* Automatic Inference of Web Document Metadata - A Study on Sitemaps

インタビュー調査と機械学習によるサイトマップ自動判別。

・書誌情報:
Ng Chin Hock:
Automatic Inference of Web Document Metadata: A Study on Sitemaps.
Undergraduate Thesis, National University of Singapore, 2004, 44p.
http://wing.comp.nus.edu.sg/publications/theses/alexNgThesis.pdf

・概要:
Webコンテンツ利用におけるページ特性のアンケート調査と、そこで指摘
されたサイトマップ判別の重要性から、サイトマップ自動判定をSVMで行っ
た結果の報告からなる、2部構成。

Webページの特性を検索実験やインタビューなどから、レイアウト、内容、
言語、読み込み時間、画像、検索機能、サイトマップの7つ分類し、それ
ぞれの特性の重要性を7段階で評価してもらう調査をおこなった。調査対
象者は119名。また、コンピュータ関連サイト、ニュースサイト、一般サ
イトのように異なる分野での違いも調査。
→最も重要としたページ特性は言語と内容
→ショッピングサイトでは画像が重要(他の分野とは違う傾向)
→検索機能はサイトのサイズによらず重要
→サイトマップは大きなサイトでより重要

さらに、2部として、機械学習手法により、サイトマップの自動判別機能
の実装をおこなった。主に「site map/indexguide/directory」といった
語がホームページ内のアンカーテキストに含まれているかを特徴量として、
SVM分類器で、実験を行った。対象データはODPからランダム抽出した
488サイトを人手判定して作ったもの。5分割交差検定で実験した。
平均で分類精度96.62%の結果を得た。

・感想:
卒研レベルだが、アンケート調査は比較的焦点も絞れていて、分かりやす
い。

ただ、SIGIR2004ポスターおよびJASISTに投稿中とあったものの、該当す
る論文は見つからず。。。