Lingua::JA::Summarizeの特徴語をHyper Estraierで検索できるようにしたので、類似のエントリを表示するblosxomプラグインを書いた。
個別のエントリの下のほうに5個表示するようになってる。
色々眺めてみてるけど、短いエントリは精度が悪いのと、単純にOR検索だとあんま思ったような結果が得られない。やっぱ適当な重み付けが必要なんだろうナァ。
estseek.cgiの場合はこんな感じで評価するようだ。
User's Guide of Hyper Estraier Version 1 (Japanese)
estseek.cgiの場合、「[similar]」というリンクを選択すると類似検索を行うことができます。類似検索の結果は類似度の降順に並べられます。類似度はベクトル空間モデルという考え方に基づいて算出されます。文書からキーワードを取り出してベクトルとして表現し、ベクトル同士のなす角の余弦を類似度とするものです。