drkcore

2008/11/24 14:46:42

Lingua::JA::TFIDFとCatalyst::Model::Estraierで類似エントリを探す

こんな感じで過去に書いた類似のエントリ出すようにしたい。

TF-IDFで特徴語を抜き出す。

my $calc = Lingua::JA::TFIDF->new;
my $result = $calc->tfidf($text);

my $query_keywords = "[SIMILAR] ";

for (@{$result->list(5)}) {
  my($key,$val) = each(%$_);
  $query_keywords .= "WITH " . int($val) . " $key ";
}

とやってクエリをモデルのほうに渡せばOKっぽいんだけど、Hyper EstraierのほうをP2Pで動かしてないんだったヨ。

イントラでクローラはしらせているのでじゃぁperlバインディングからでもと思ったが、ちゃんと入ってないっぽくてこけてる。

そのうちP2P対応させようということで、途中までのメモ。

Comments