とりあえずメモ。
EUC-JP の HTML ファイルに対しては、↓のようにする。
% tidy -c -raw ipcnews_new.html > z.html
全くスキーマがわからん。
・どこが決めたタグなの?
・何が書いてあるの?
くらいの情報は欲しい。
とりあえず、現在使われているタグの種類は以下のとおり。
(対象は「Generated at 2002-05-02 03:05:28 GMT」)
% gzip -cd ~/src/structure.rdf.u8.gz | perl -nle 's/<([^\/\s>]+)/print $1/ge;' | sort | uniq -c | sort -nr
698242 d:Title
438593 catid
438593 Topic
417768 lastUpdate
382783 narrow
319910 symbolic
259649 Target
259649 Alias
244574 related
192432 altlang
139016 d:Description
30444 editor
29914 symbolic1
23332 narrow1
19371 letterbar
18103 symbolic2
15173 newsGroup
13109 narrow2
60 d:charset
1 RDF
1 ?xml
1 !--
だいたいが narrow{,1,2} とか symbolic{,1,2} とか意味不明だよ…。
とりあえず、www-rdf-interest ML を検索してみると、RDF-M&S に準拠す
るようにするスクリプトが、
http://www-diglib.stanford.edu/diglib/ginf/download/dmoz/
にあるみたい。
あと、
http://www.lans.ece.utexas.edu/~guest/project/dmozrdf-doc.txt
には、簡単な説明があった。
せっかくなので、SSL対応の Sylpheed を作り直そうと思ったのだが、
configure スクリプトに OpenSSL の prefix をうまく伝える方法がよく
わからん。
Linux 系のディストリビューションなどだと /usr 配下だから良いのだろ
うけど、手でソースからインストールしてあるやつを使おうとすると、指
定方法がわからん。
とりあえず、↓でごまかす。
% env CFLAGS="-g -O2 -I/usr/local/ssl" LIBS="-L/usr/local/ssl/lib" ./configure --enable-ssl