リンク: [ホーム] [自己紹介] [リンク集] [アルバム] [ソフトウェア] [発表文献] [その他]

まさおのChangeLogメモ / 2005-01-20

01 02 03 04 05 06 07 08 09 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31

2005-01-20 Thu

* 龍ヶ崎市?龍ケ崎市?「ヶ」「ケ」はどちらが正しい?

http://www.glin.jp/arc/arc.cgi?N=60
ドライランの課題を眺めていたら、「吉野ケ里」?「吉野ヶ里」?などと
いう疑問が湧いたので、ちょっと検索してみたらひっかかった
Google:ケ ヶ 漢字)。

どうやら、正確には「ヶ」を使う(ヶは箇の略字)とのこと。

お役所では、小書きをしない表記が広く使われてきたため、両方の表記が
残っているみたい…。ヤな感じ。

* Suffix Array

Sary で doclist をインデックス化してみたかったのだが、
・作成されるインデックスの大きさ
・作成にかかる処理時間
の両方の点でちょいと問題あり。

少し調査してみると、圧縮アルゴリズムを使って、サイズ・所要時間とも
縮める新しい手法の提案があるみたい。

時間があれば、Sary などで実装してみたい。

詳細は、以下を参照:
・Suffix Array: http://homepage3.nifty.com/DO/sa_intro.htm
圧縮手法の提案で IPA ユース採択の若手研究者による解説。
・white page / links / Suffix Arrays:
http://homepage3.nifty.com/wpage/links/suffix_arrays.html
論文・実装などへのリンク多数。
・BWT: http://www.data-compression.info/Algorithms/BWT/
データ圧縮手法の研究者が運営しているサイト。様々なアルゴリズムの紹
介と論文へのリンク。
Referrer (Inside): [2005-02-01-2]