KOSHIKEZ

TaraLog/2007-05-16

;PC;Plaggerで稼働する、俺cloud。でも、PukiWikiだと...。

TaraLog/2007-05-08でやってみたいな、と思っていたPublish::TagCloud、必要なモジュール類をどうにかぶち込んでみたもののはき出すHTMLがどうも文字コード的に問題あり。
いろいろ調べた結果、mecab、辞書をUTF-8で構築しているせいだと思い当たる。キーワード抽出モジュール Lingua::JA::Summarize を使うコツ (nakatani @ cybozu labs)を参考に、Lingua::JA::Summarize側を手直し。でもどうもうまくいかない。
あ、そうか。バージョン違って書式変更になってないか、ということで、次のように修正をおこなってみた。 #code() use Jcode;

sub NG () {

   my %map = map { $_ => 1 } (
   '(', ')', '#', ',', '"', "'", '`',
   qw(! $ % & * + - . / : ; < = > ? @ [ \ ] ^ _ { | } ~
      人 秒 分 時 日 月 年 円 ドル
      一 二 三 四 五 六 七 八 九 十 百 千 万 億 兆
      ↑ ↓ ← → ⇒ ⇔
      もの こと とき ため ほう そこ ここ とか ところ こちら こんな
      私 僕 俺 自分 彼 彼ら 誰 何),
   );
   return \%map;

}

sub DEFAULT_COST_FACTOR () {

   return 2000;

}

my %Defaults = (

   alnum_as_word => 1,
   charset => 'utf8',
   default_cost => 1,
   jaascii_as_word => 1,
   ng => NG(),
   mecab => 'mecab',
   mecab_charset => 'utf8',
   omit_number => 1,
   singlechar_factor => 0.5,
   url_as_word => 1,

);

}} どうにか動き出した模様(リンクは現在CINEMA TODAYのRSSを取得したものになっている)。但し、RSSの取得そのもののところでPukiWikiは概要が緩いというのもあるし、あまり面白くならない。つか、Plaggerのふつーなフィード取得部分についての知識があまりないんじゃん、俺。と思い、config.yamlをいろいろといじくってみることにする。 #blikifooter

#includesubmenu Counter: 0, today: 0, yesterday: 0

TrackBack List

#tb

;CONG;ICON THX!

http://www.japonet.com/~dot/image/dot.gif http://homepage1.nifty.com/KUMAZO/images/k/kid01.png

;NETSE;ネトetc...

http://www.kt.rim.or.jp/~sokohaka/hof.gif http://www.unique-id.co.jp/kk_image/kanshin88x31.gif

&htmlinsert(bloglines.txt);