リンク: [ホーム] [自己紹介] [リンク集] [アルバム] [ソフトウェア] [発表文献] [その他]

まさおのChangeLogメモ / 2006-03-07

01 02 03 04 05 06 07 08 09 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31

2006-03-07 Tue

* MHonARC for ntcir@nii.ac.jp

とりあえず、以下のファイルがあることは分かった:

get ntcir ntcir.20001213
get ntcir ntcir.20001220
get ntcir ntcir.20010107
get ntcir ntcir.20010118
get ntcir ntcir.20010121
get ntcir ntcir.20010219
get ntcir ntcir.20010301
get ntcir ntcir.20010305
get ntcir ntcir.20010306
get ntcir ntcir.20010313
get ntcir ntcir.20010321
get ntcir ntcir.20010330
get ntcir ntcir.20010406
get ntcir ntcir.20010418
get ntcir ntcir.20010426
get ntcir ntcir.20010430
get ntcir ntcir.20010521
get ntcir ntcir.20010615
get ntcir ntcir.20010712
get ntcir ntcir.20010719
get ntcir ntcir.20010722
get ntcir ntcir.20010802
get ntcir ntcir.20010924
get ntcir ntcir.20010928
get ntcir ntcir.20011011
get ntcir ntcir.20011106
get ntcir ntcir.20020510
get ntcir ntcir.20020515
get ntcir ntcir.20020710
get ntcir ntcir.20020715
get ntcir ntcir.20020718
get ntcir ntcir.20020719
get ntcir ntcir.20020813
get ntcir ntcir.20020830
get ntcir ntcir.20021015
get ntcir ntcir.20021016
get ntcir ntcir.20021031
get ntcir ntcir.20021105
get ntcir ntcir.20021116
get ntcir ntcir.20021120
get ntcir ntcir.20021209
get ntcir ntcir.20021212
get ntcir ntcir.20021221
get ntcir ntcir.20021224
get ntcir ntcir.20021228
get ntcir ntcir.20030108
get ntcir ntcir.20030116
get ntcir ntcir.20030207
get ntcir ntcir.20030226
get ntcir ntcir.20030301
get ntcir ntcir.20030304
get ntcir ntcir.20030305
get ntcir ntcir.20030307
get ntcir ntcir.20030313
get ntcir ntcir.20030317
get ntcir ntcir.20030322
get ntcir ntcir.20030326
get ntcir ntcir.20030328
get ntcir ntcir.20030331
get ntcir ntcir.20030401
get ntcir ntcir.20030409
get ntcir ntcir.20030411
get ntcir ntcir.20030417
get ntcir ntcir.20030506
get ntcir ntcir.20030507
get ntcir ntcir.20030511
get ntcir ntcir.20030516
get ntcir ntcir.20030824
get ntcir ntcir.20040213
get ntcir ntcir.20040302
get ntcir ntcir.20040307
get ntcir ntcir.20040324
get ntcir ntcir.20040326
get ntcir ntcir.20040327
get ntcir ntcir.20040329
get ntcir ntcir.20040330
get ntcir ntcir.20040331
get ntcir ntcir.20040401
get ntcir ntcir.20040406
get ntcir ntcir.20040407
get ntcir ntcir.20040408
get ntcir ntcir.20040413
get ntcir ntcir.20040416
get ntcir ntcir.20040417
get ntcir ntcir.20040418
get ntcir ntcir.20040501
get ntcir ntcir.20040502
get ntcir ntcir.20040503
get ntcir ntcir.20040505
get ntcir ntcir.20040509
get ntcir ntcir.20040512
get ntcir ntcir.20040515
get ntcir ntcir.20040516
get ntcir ntcir.20040518
get ntcir ntcir.20040521
get ntcir ntcir.20040522
get ntcir ntcir.20040523
get ntcir ntcir.20040525
get ntcir ntcir.20040526
get ntcir ntcir.20040616
get ntcir ntcir.20040809
get ntcir ntcir.20040810
get ntcir ntcir.20040822
get ntcir ntcir.20040826
get ntcir ntcir.20040915
get ntcir ntcir.20040928
get ntcir ntcir.20041001
get ntcir ntcir.20041004
get ntcir ntcir.20041020
get ntcir ntcir.20041024
get ntcir ntcir.20041105
get ntcir ntcir.20041118
get ntcir ntcir.20050130
get ntcir ntcir.20050301
get ntcir ntcir.20050330
get ntcir ntcir.20050405
get ntcir ntcir.20050420
get ntcir ntcir.20050802
get ntcir ntcir.20050810
get ntcir ntcir.20050822
get ntcir ntcir.20050905
get ntcir ntcir.20050912
get ntcir ntcir.20050926
get ntcir ntcir.20050930
get ntcir ntcir.20051028
get ntcir ntcir.20051110
get ntcir ntcir.20051203
get ntcir ntcir.20051206
get ntcir ntcir.20051208
get ntcir ntcir.20060208
get ntcir ntcir.20060220
get ntcir ntcir.20060301
get ntcir ntcir.20060307

これらから、単純に以下のようなスクリプトでメール本文のみ抜き出し:

ARGV.each do |file|
   open(file) do |io|
      io.each do |line|
         #p line
         break if line =~ /^$/
      end
      body = io.read
      if body =~ /\A\s*--\n\n/
         puts body.sub(/\A\s*--\n\n/, "")
      end
   end
end

これの出力ファイルをmhonarcにかける。
(MHonARCの説明は以下のサイトが総合的で参考になる)
http://www.ki.nu/software/MHonArc/

% mhonarc --msgsep '^Received:' -spammode z

* 日本のWebサイトの網羅的収集、蓄積および保存に関する調査報告

http://www.ndl.go.jp/jp/aboutus/bulkresearch2005index.html
NW1000G-04に参考になりそうな、国立国会図書館ウェブアーカイブプロジェ
クトによる調査報告。

...平成17年3月の時点で日本におけるWebデータ総量は18.4TB、ファイ
ル総数は4億5000万ファイルであると推定...