リンク: [ホーム] [自己紹介] [リンク集] [アルバム] [ソフトウェア] [発表文献] [その他]

まさおのChangeLogメモ / 2007-11-12

01 02 03 04 05 06 07 08 09 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30

2007-11-12 Mon

* bsfilter

bsfilterの英語トークンDBが壊れていそうな件。 cf. [2007-11-10]

% bsfilter --show-db-status
db C 289731 22331 834502 77179 1104797
db ja 640638 85412 117083 6074 781831

ちょっと tospam しながら変化をみてみる:

db C 289707 22314 834509 77196 1104821
db ja 640638 85411 117083 6075 781831

db C 289682 22293 834568 77218 1104839
db ja 640638 85410 117083 6076 781831

db C 289617 22162 834656 77349 1104839
db ja 640632 85406 117083 6080 781831

つぎに、SDBMの中身をちょっと眺めてみた。

% ruby -rsdbm -e 'SDBM.new("C.spam.sdbm").each{|k,v|p [k,v]}' | less
["body###Algorithms", "1"]
["received###bridgetownyr90", "1"]
["body###treksailor", "1"]
["body###OWING", "4.0"]
["url###ffliegeed", "1"]
["subject###10656", "1"]
["subject###Istanbul", "1"]
["body###transient", "13.0"]
["body###bite", "70.0"]
["body###s'", "15.0"]
["to###noue", "23.0"]
["\000\000\000\000\000\000\000\000\000\000\000\000\000\000\000\000\000\000", ""]
["url###8twj", "1"]
["\000\000\000\000\000\000\000\000\000\000\000\000\000", ""]
["received###b1hism77", "2.0"]
["body###liderar", "2"]
["\000\000\000\000\000\000\000\000\000\000\000\000\000\000\000\000\000\000\000\000", ""]
["body###rlnp", "1"]
["url###szsvw", "1"]
["body###clamor", "10.0"]
["received###154.250.101.123", "1"]
...

% ruby -rsdbm -e 'SDBM.new("C.prob.sdbm").each{|k,v|p [k,v]}' | less
["body###Garante", "0.999928276087142"]
["\000\000\000\000\000\000\000\000\000\000\000\000\000\000\000\000\000", ""]
["2from###88care", ""]
["from###JEGAH", "0.999964120121554"]
["tag###MWI", "0.999928276087142"]
["to###e_", "0.999928276087142"]
["subject###PPS2", "0.9999257245"]
["subject###25paid", "0.999921165"]
["from###forbesworldlot232", "0.9999205381"]
["subject###Presenters", "0.000300178241"]
["body###arteriosclerosis", "0.9999947361"]
["tag###14F4F71", "0.0008583044421"]
["body###newsci", "0.0001222840907"]
["url###centernetworks", "8.315540646e-05"]
["from###woratv", "0.9998211995"]
["y###33902496", ""]
["received###mindrot", "0.0001262206664"]
["tag###m795", "0.0008409165713"]
["body###s1", "0.04806302083"]
["reakpoint_client", ""]
["from###tlhcsandiego", "0.999871592"]
["reply-to###OOuI", "0.999992821154208"]
["body###RICHARDS", "0.999992023593293"]
["body###h0gt4231nev6q1", "0.999928276087142"]
["\000\000\000\000\000\000\000\000\000\000\000\000\000\000\000\000\000\000\000\000\000\000\000\000", ""]
["body###viiaur1yw22", "0.999964120121554"]
...

ありゃ、spam, probともに"\0"で埋められてるキーがあるなあ…。
こりゃだめだ。

さいわい、日本語用DBおよびclean DBの方は壊れていない感じなので、
スパムDBを作りなおせば大丈夫かしらん。

とりあえず、壊れている key/value を DB から削除:
% ruby -rsdbm -e 's=SDBM.open("C.prob.sdbm");s.each{|k,v|s.delete(k) if v.empty?};s.close'
% ruby -rsdbm -e 's=SDBM.open("C.spam.sdbm");s.each{|k,v|s.delete(k) if v.empty?};s.close'

db C 288903 21434 845435 78959 1104939
db ja 640607 85387 117094 6249 781847

スパムメールをDBに登録しなおしてから、確率DBを更新しておく:

% cd ~/Mail; find junk/ junk[2]*/ -type f | xargs bsfilter -s
% bsfilter -u

ううーむ。これでも \0 キーが復活してしまう。。。
こりゃ、どこかにバグでもあるのかしら…。
Referrer (Inside): [2008-07-08-1]

* 笑いの方程式 [book]

既存の笑いを批評、類型化する試み。

著者は元々は芸能批評の専門家ではなく、大学の教養授業の中で、漫才や
コントといったお笑いネタに内在される構造を取り上げ、それが人を笑わ
せることにどのように寄与しているかを説明しようとつとめている。ある
あるネタからシュールネタまで、ひろい範囲の笑いの構造を取り上げてい
る。

2000年付近からのいわゆる「お笑いブーム」の中で見られたネタを批評し
ている。現代社会で次々と消費されているお笑いのネタや構造をスナップ
ショットとして書き起こした役割は大きいように思う(それを意図した訳
ではないだろうけど)。

本筋とは関係なく一点だけ気になったのは、ネタの引用元としてウィキペ
ディアの記事を利用していたところが何箇所か見受けられたこと。他にネ
タ元の分析データを得られなかった苦肉の策かもしれないが、相当に違和
感がある…。
Referrer (Inside): [2007-11-30-2]