インタビュー調査と機械学習によるサイトマップ自動判別。
・書誌情報:
Ng Chin Hock:
Automatic Inference of Web Document Metadata: A Study on Sitemaps.
Undergraduate Thesis, National University of Singapore, 2004, 44p.
http://wing.comp.nus.edu.sg/publications/theses/alexNgThesis.pdf
・概要:
Webコンテンツ利用におけるページ特性のアンケート調査と、そこで指摘
されたサイトマップ判別の重要性から、サイトマップ自動判定をSVMで行っ
た結果の報告からなる、2部構成。
Webページの特性を検索実験やインタビューなどから、レイアウト、内容、
言語、読み込み時間、画像、検索機能、サイトマップの7つ分類し、それ
ぞれの特性の重要性を7段階で評価してもらう調査をおこなった。調査対
象者は119名。また、コンピュータ関連サイト、ニュースサイト、一般サ
イトのように異なる分野での違いも調査。
→最も重要としたページ特性は言語と内容
→ショッピングサイトでは画像が重要(他の分野とは違う傾向)
→検索機能はサイトのサイズによらず重要
→サイトマップは大きなサイトでより重要
さらに、2部として、機械学習手法により、サイトマップの自動判別機能
の実装をおこなった。主に「site map/indexguide/directory」といった
語がホームページ内のアンカーテキストに含まれているかを特徴量として、
SVM分類器で、実験を行った。対象データはODPからランダム抽出した
488サイトを人手判定して作ったもの。5分割交差検定で実験した。
平均で分類精度96.62%の結果を得た。
・感想:
卒研レベルだが、アンケート調査は比較的焦点も絞れていて、分かりやす
い。
ただ、SIGIR2004ポスターおよびJASISTに投稿中とあったものの、該当す
る論文は見つからず。。。