2006年8月18日

Namazu以降の全文検索エンジン

 Webサイトに検索エンジンを組み込むとしたら、まずNamazuが思い浮かぶことであろう。しかし、最近はもっと高性能の検索エンジンが出来ている。

 Namazuは分かち書きに、既存の形態素解析エンジンを用いている。これだと、新語や固有名詞に弱く、検索漏れの恐れがある。

 イマドキの全文検索は、N-gram方式が主流のようだ。インデックスのサイズはでかくなるが、検索漏れは無くなる。

 イマドキの全文検索エンジンを評価してみた。

Freya-SX
 特徴は、DeleGateの作者が開発しているという点である。DeleGateの特徴そのまま。ゴテゴテと機能追加を重ねて多機能。多機能だがドキュメントが少ない。MLアーカイブを全部読めってことですか??

Rast
 Software Design誌 2006年2月号 で知った。特徴はよくわからない。強いて言えばインデックス登録が遅いと自覚しているところか。

Senna
 未来検索ブラジルが作っている。たぶん、2ちゃんねる検索を作るために作ったのだろう。
 個人的には設計方針が気に入った。とくに、「ACID特性の実現は高コスト→未コミット読み取りは許容」とか。
 しかし、まだ新しすぎて手を出しにくい。
 それと、検索コアに力を入れすぎで、周辺ツールが整っていない。NamazuのようにWebサーバーの検索ページを作るには、APIを使って作りこみが必要。

Hyper Estraier
 これらのなかで、おそらくたぶんきっと、一番マトモと思う。
 開発メモを読むと、ドキュメントカンパニーの社員ですか? いや、最近は大手SNSの中の人になっちゃってますね。


 ・・・全然評価になってないな。

 いろいろ読んで、Hyper Estraier ラブになったので、コレの検索に H.E. を利用しようかと思っている。

Posted by rukihena at 23:08:19