2006年8月18日
Namazu以降の全文検索エンジン
Webサイトに検索エンジンを組み込むとしたら、まずNamazuが思い浮かぶことであろう。しかし、最近はもっと高性能の検索エンジンが出来ている。
Namazuは分かち書きに、既存の形態素解析エンジンを用いている。これだと、新語や固有名詞に弱く、検索漏れの恐れがある。
イマドキの全文検索は、N-gram方式が主流のようだ。インデックスのサイズはでかくなるが、検索漏れは無くなる。
イマドキの全文検索エンジンを評価してみた。
■Freya-SX
特徴は、DeleGateの作者が開発しているという点である。DeleGateの特徴そのまま。ゴテゴテと機能追加を重ねて多機能。多機能だがドキュメントが少ない。MLアーカイブを全部読めってことですか??
■Rast
Software Design誌 2006年2月号 で知った。特徴はよくわからない。強いて言えばインデックス登録が遅いと自覚しているところか。
■Senna
未来検索ブラジルが作っている。たぶん、2ちゃんねる検索を作るために作ったのだろう。
個人的には設計方針が気に入った。とくに、「ACID特性の実現は高コスト→未コミット読み取りは許容」とか。
しかし、まだ新しすぎて手を出しにくい。
それと、検索コアに力を入れすぎで、周辺ツールが整っていない。NamazuのようにWebサーバーの検索ページを作るには、APIを使って作りこみが必要。
■Hyper Estraier
これらのなかで、おそらくたぶんきっと、一番マトモと思う。
開発メモを読むと、ドキュメントカンパニーの社員ですか? いや、最近は大手SNSの中の人になっちゃってますね。
・・・全然評価になってないな。
いろいろ読んで、Hyper Estraier ラブになったので、コレの検索に H.E. を利用しようかと思っている。