http://search.wikia.com/wiki/Search_Wikia
各所でGoogle対抗などとも噂されていた、ウィキア社によるサーチエンジ
ンが公開。
さてさてようやくLaunchということで、議論の様子をながめてみたのだけ
ど、どうも議論の前提となるサーチエンジンのチューニングが甘過ぎるの
が気になる。
どうやらリリースの日程を以前から確定していたようで、それに合わせて、
まずはリリースせざるをえないというのは、なんとも苦しそうな感じ。
# New York Timesの抜け駆けとか、瑣末なところでは事情はあるにしろ…。
まあ、Jimbo Walse 本人もα版のクオリティであることは重々承知してい
るようだけど、問題はそんなところにあるのではなく、開発側はWebサー
チエンジン構築の基本的な前提知識が欠けているのではないかという点が
すこし心配。
考えてみれば、Wikipediaのようなコンテンツ制作プロジェクトならば、
人海戦術も有効だろうけど、アルゴリズムというか、モデル構築や特徴量
選択に関しては、それなりの先行する知見があるのだから、もう少し高い
レベルの議論ができるはずで、かつ、アルゴリズムを自由にオープンな形
で構築するなどとはいっても、必要とする特徴量などをきちんと把握でき
ていなければ、それらを利用するインデックスも構築できず、まったく意
味がないだろう。
たとえば、おそらく現状の検索エンジンは通常のNutchエンジンをそのま
ま使っているようなので、TREC/NTCIRなどの上位半数くらいの研究チーム
の検索システムには負けるような結果しか出せていないのではないか、と
いう感じがある…。
逆に言えば、これらの上位チームがどんな手法を採用しているかを見て、
それを採用するだけで、劇的に良くなるはず。このあたりの基本的なチュー
ニングにすら手が回っていないのはなぜなのか?
単に時間がなく手が回ってないだけなのか、それとも。。。
JimboはGoogleのサービスリリース当初(1997年あたり?)と比較してく
れ、と言っているようなので、そのあたり、もう1年くらいかけてチャレ
ンジを見守る必要があるのかもという気もするが、そもそもウィキア社が、
このプロジェクトにどれくらいリソースをかけられるのか、という点がわ
からないので、いまのところかなり危うい未知数と言わざるをえない。
ただ、上述のような検索エンジンはともかくとして、クローラーあたりは
分散クローラの興味深い実験のようだし、ユーザがランキング・ページ評
価をおこなうソーシャルサーチなども壮大な実験としても興味深く、チャ
レンジングなプロジェクトなので、安定飛行まで、地道な改良が進めばい
いのだがと願う。
なお、まだ日本語対応までは手がまわっていない様子で、日本語文字列に
よる検索は文字化けとなる。