29 05 2005 Tweet
をを~、これ面白い
各タグ間の相互情報量を計算して、数値の高いものから4つまでピックアップしてます。
可視化的には、バイオインフォでいう、シスエレメントをATGCの文字の大きさで表すのに近いような気もするが、うまくちりばめれば、お洒落サイトになるかもしれん。
というのはおいといて、これをもしも、固定長のフィンガープリントにうまく落とすことが出来れば、その後は、主成分分析して二次元にマップできるのでうまく可視化できるんではないだろうか?なんて思ったりするが、そううまくいかないんだろうナァ。フィンガープリントさえ作れればあとはR使ってCGIwithRでもR+GDでもやれるので楽勝っぽい感じがするが。
単に、mecabとかTermextractいじくるよりも相互情報量使うほうが二者間の距離みたいなもんが出るっぽいのであとでちょっと試してみる価値はあったり。
かなり、ためになった。といってもすぐにやれない辺り、アレだ。