久々に全文検索システムのリンク集をたどってみて、
簡単なサーベイをやってみた。
・mnoGoSearch: RDBをバックエンドに持つタイプの全文検索システム。
(複数のRDBMSに対応)
内部コードにUnicodeを採用しているため、最新版では、SJISなどのマル
チバイト文字コードへの対応が可能になっている。また、テキストがどの
言語で書かれているかを自動認識する機能を搭載している。
(日本語は未対応)
開発者のコミュニティはロシア方面か!?
Debian Project (
http://www.debian.org/) で使われている。
開発言語は C。
http://www.mnogosearch.com/
・ht://Dig: オーソドックスなWeb検索エンジン。
ローカルファイルを検索する機能がない(?)のがちょっといや。
バックエンドには Berkeley DB ライブラリを採用。
開発言語は C++。
http://www.htdig.org/
・ASPSeek: 比較的新しめの検索エンジン。
Page Rank の実装など斬新な機能をすばやくとりいれてきている。人気、
機能ともht://Dig を抜いたか(?)とも思える。
バックエンドは MySQL。(ベースとしたコードはmnoGoSearch)
開発言語は C++。
http://www.aspseek.org/
・Xapian: 以前は OpenMuscut → OmSeek と名乗っていた。
検索モデルとして確率論的手法を用いているのが特徴。
開発言語はC++。
http://xapian.sourceforge.org/
で、こうして見てみると、Namazu みたいにバックエンドを独自形式でやっ
ているのは少ないかな!?
MySQL あたりは何かで必要になるかもしれないから、触ってみても良いか
もね。