リンク: [ホーム] [自己紹介] [リンク集] [アルバム] [ソフトウェア] [発表文献] [その他]

まさおのChangeLogメモ / 2005-06

01 02 03 04 05 06 07 08 09 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30

2005-06-30 Thu

* xss

今日思った疑問。
普段、CGIでの入力値検査は、

if $lang = /^...$/

などとして想定範囲内かどうかを検定しているが、これは複数行に該当す
るような値だと、別の行にマッチしてしまわないか。

2005-06-29 Wed

* acl

acl(2), setfacl(1) 見ながら適当に設定したので、一応メモしとく。

% setfacl -m user:haruko:rw- 000.php
% getfacl 000.php

# file: 000.php
# owner: masao
# group: staff
user::rw-
user:haruko:rw- #effective:r--
group::r-- #effective:r--
mask:r--
other:r--

2005-06-28 Tue

2005-06-26 Sun

2005-06-25 Sat

2005-06-24 Fri

2005-06-23 Thu

2005-06-22 Wed

2005-06-21 Tue

2005-06-20 Mon

* URL memo

- 住民基本台帳カード: delicious users
- The Spear Program: delicious users
SPEAR stands for Shogi Pattern Evaluator and Recognizer and is a shogi program I originally developed to get data for my research into the pattern recognition of expert game players.
- Rubyソースコード完全解説: delicious26 users

2005-06-19 Sun

* マイノリティリポート [movie]

DVDを借りてきて観た。

時間管理という難題をいとも簡単に設定とアクションで娯楽大作に落とし
込んだスピルバークの手腕はさすが。

2005-06-18 Sat

2005-06-17 Fri

2005-06-16 Thu

* Automatic Identification of User Goals in Web Search

http://www2005.org/cdrom/docs/p391.pdf
doi:10.1145/1060745.1060804
ユーザのクエリからNavi/Infoの2種別を自動判別する手法の提案。

・書誌情報:
 Uichin Lee, Zhenyu Liu, Junghoo Cho:
Automatic Identification of User Goals in Web Search.
In Proc. of WWW2005, pp.391-400. (2005)

・概要:
ユーザの検索質問ログからinfo/naviの2種類のどちらであるかを自動判別
する。

* A Taxonomy of Web Search

doi:10.1145/792550.792552
Web検索を3つに分類した論文。

・書誌情報:
Andrei Broder: A Taxonomy of Web Search. ACM SIGIR Forum, Vol.36,
No.2, pp.3-10. (2002)

・概要:
伝統的なIR研究で使われてきた「情報要求→クエリ→DB」といったモデル
をタスク指向のものに変えるべきとし、情報要求にあてはまらないニーズ
について、informational/navigational/transactionalの3つで考えてい
くと良いのではないかとした。

→ informational: (古典的な情報要求)と近い概念。
→ navigational: 特定のサイトにアクセスしたいという要求
→ transactional: サイトにアクセスし、さらにそこで何かの行動を行な
いたいという要求(買い物、ゲーム、)。

著者は元AltaVistaの研究員で、実際の検索質問の分析と、ユーザへのア
ンケート調査の2つから、それぞれの質問の割合などを分析(図5):

        ユーザ調査 ログ
Navi: 24.5% 20%
Info: (39%?) 48%
Trans: >22% (36%?) 30%

・感想:
ナビゲーション指向検索などの用語の元となった、非常に重要な論文と思
われる。

「トランザクション指向検索」そのものに焦点を当てた研究がないのか、
気になる。

* Sampling Search-Engine Results

http://www2005.org/cdrom/docs/p245.pdf
doi:10.1145/1060784
WWW2005 の論文。

・書誌情報:
Aris Anagnostopoulos, Andrei Broder, David Carmel:
Sampling Search-Engine Results. In Proc. of WWW2005,
p.245-256. (2005)

・概要:
サーチエンジンの結果などからサンプル抽出を行う手法の提案。

件数全体を知らない状態でもストリーム指向に使用できる。

・感想:
いやはや、なんだかよく分からんかった。途中からは数式の嵐。。。
よく分からないというのが感想。

一応、検索結果集合を厳密な計算なしでうまくサンプリングしてやれば、
検索件数の推定に使ったり、検索結果のクラスタリングに使う次元数を決
めたり、といった使い道がある模様。

個人的には、WAND という AND/OR 演算を高速化するための手法について
の解説があったのが収穫。

WAND:

WAND(X1, w1, ..., Xk, wk, θ)

if Σi(Xi * wi) >= 0
==> true

AND/OR は以下のように代替できる。

AND(X1, .., Xk) === WAND(X1, 1, ..., Xk, 1, k)
OR(X1, .., Xk) === WAND(X1, 1, ..., Xk, 1, 1)

2005-06-15 Wed

2005-06-14 Tue

Referrer (Inside): [2005-05-18-1]

2005-06-12 Sun

2005-06-11 Sat

2005-06-10 Fri

* syslog.conf+cron

messages が cron ログで溢れるので、別ファイルにすることにする。
→ /var/log/cron

--- /etc/syslog.conf.20050610 2005-06-10 16:32:14.049304200 +0900
+++ /etc/syslog.conf 2005-06-10 16:42:47.708973288 +0900
@@ -4,7 +4,7 @@
 
 # Log anything (except mail) of level info or higher.
 # Don't log private authentication messages!
-*.info;mail.none;authpriv.none /var/log/messages
+*.info;mail.none;authpriv.none;cron.none /var/log/messages
 
 # The authpriv file has restricted access.
 authpriv.* /var/log/secure
@@ -22,3 +22,6 @@
 
 # Save boot messages also to boot.log
 local7.* /var/log/boot.log
+
+# Save cron
+cron.* /var/log/cron

2005-06-09 Thu

* A Review of Web Searching Studies and a Framework for Future Research

doi:10.1002/1097-4571(2000)9999:9999<::AID-ASI1607>3.0.CO;2-F
Web上の検索利用者の動向に関するレビュー論文。

・書誌情報:
Bernard J. Jansen, Udo Pooch:
A Review of Web Searching Studies and a Framework for Future
Research. JASIST, Vol.52, No.3, pp.235-246. (2001)

まず、ログやユーザ実験などから分析するようなWeb検索利用についての
研究のレビュー。

さらに、サーチエンジンのログに基づく研究から3つの代表的なもの
(Fireball,Excite,AltaVista)を挙げ、その結果をまとめて、DIALOGの
ようなデータベース検索における研究や、OPACのような書誌検索における
研究との比較を行っている。

結果は以下の通り:
                Web DB OPAC
query/session 1-2 7-16 2-5
query長 2 6-9 1-2
表示文書数 <10 約10 <50
詳細機能の利用 9% 9% 8%
ブーリアン式 8% 37% 1%
ミス率 10% 17% 7-19%

最後に、今後のWeb検索利用研究で他の研究との比較を行うために述べる
べきデータとして、
・descriptive information: 使用システム・データの説明
・analysis presentation: session/query/termなどの定義
・statistical snalysis: 平均・中央値・標準偏差、分布など
の3種類を挙げている。

・感想:
タイトルからはWeb検索全般についてまとめたレビュー論文かと思って読
んだのだが、期待はずれ。。。利用者サーベイが主体であることを明記し
ておいてほしかった。
おお、著者のページ行ってみたら「Web user studies」に勝手にタイトル
直してるわ:
http://ist.psu.edu/faculty_pages/jjansen/academic/acad.html#ResP

ただDB/OPACとの比較結果は興味深い。
Webサーチエンジン類は著者らが言うほど、他のOPAC/DBシステムとの違い
はなさそうな気がする。利用のされかたが違うのは、システムのインタ
フェースの違いによるものではないだろうか。

2005-06-08 Wed

2005-06-07 Tue

* received.rb

junk フォルダにあるファイルの届いた月ごとに集計するのに使ったスク
リプト:

#!/usr/local/bin/ruby

#require 'mailread'
require 'date'

class Mail
   def initialize(file)
      @header = Hash.new([])
      open(file) do |f|
         lines = f.readlines
         while (not lines.empty?) do
            line = lines.shift
            break if line =~ /^$/
            line << lines.shift while lines[0] =~ /^\s/
            if line =~ /\A(\S+):\s*(.*)\Z/m
               @header[$1.downcase] << $2
            end
         end
      end
   end
   def [](key)
      @header[key.downcase]
   end
end

if $0 == __FILE__
   counter = {}
   ARGV.each do |dir|
      Dir.new(dir).entries.grep(/^\d+$/).sort{|a,b| a.to_i <=> b.to_i}.each do |f|
         path = dir + "/" + f
         #STDERR.puts path
         m = Mail.new(path)
         next if m["Received"].empty? or m["Received"].nil? or m["Received"][0].empty?
         date = nil
         while date.nil?
            begin
               date = DateTime.parse(m["Received"].shift)
            rescue
               break if m["Received"].empty? or m["Received"].nil?
            end
         end
         next if date.nil?
         counter[date.strftime("%Y-%m-%d")] ||= 0
         counter[date.strftime("%Y-%m-%d")] += 1
# puts "#{f}\t#{date}"
      end
   end

   puts
   counter.keys.sort.each do |d|
      puts "#{d}\t#{counter[d]}"
   end
end

全部はひろえてないけど。。。

2005-06-05 Sun

2005-06-03 Fri

2005-06-01 Wed

サイクリング走行距離メーター
2001 : 01 02 03 04 05 06 07 08 09 10 11 12
2002 : 01 02 03 04 05 06 07 08 09 10 11 12
2003 : 01 02 03 04 05 06 07 08 09 10 11 12
2004 : 01 02 03 04 05 06 07 08 09 10 11 12
2005 : 01 02 03 04 05 06 07 08 09 10 11 12
2006 : 01 02 03 04 05 06 07 08 09 10 11 12
2007 : 01 02 03 04 05 06 07 08 09 10 11 12
2008 : 01 02 03 04 05 06 07 08 09 10 11 12
2009 : 01 02 03 04 05 06 07 08 09 10 11 12
2010 : 01 02 03 04 05 06 07 08 09 10 11 12
2011 : 01 02 03 04 05 06 07 08 09 10 11 12
2012 : 01 02 03 04 05 06 07 08 09 10 11 12
2013 : 01 02 03 04 05 06 07 08 09 10 11 12
2014 : 01 02 03 04 05 06 07 08 09 10 11 12