trackback 文字コード 続き

期せずして文字の話ばかりですが。
気になったので韓国と中国でどうしてるのか、とりあえず、韓国。
http://www.ejino.net/jino/archives/2003/06/20030627_000052.html#customize
Trackback.pmをこんなふうにしてました。


sub no_utf8 {
# 추가할 코드
use Encode qw(encode decode);
use Encode::Guess qw(euc-kr ksc5601-raw utf-8);

my $enc;
# 코드추가 끝

for (@_) {
next if !defined $_;
$_ = pack 'C0A*', $_;

# 추가할 코드
# 아래 볼드체로 표시한 한글 인코딩 방식은
# 본인의 사이트에 맞게 수정해야합니다.
# euc-kr , utf-8 중에 사용하고 있는 방식을 적어주세요.
$enc = guess_encoding($_);
$_ = encode("euc-kr", $enc->decode($_));
# 코드추가 끝
}
}

どうも、euc-kr決めうちみたいですが、シェア的に絶対的なんでしょうか。iso-2022-krとかあと三つばかりあるみたいなんですが。事情がよくわからない。

ああ、違うや。euc-kr ksc5601-raw utf-8 この三つから、自動判別してるんだな。基本的にはJcodeで自動判別というやり方とおんなじだ。

エンコードモジュールをつかってるあたりが先進的なんでしょうか。いいなあ、perlの高いバージョン前提できて。

中国語も調べたいのだがどうしよう。
http://d.hatena.ne.jp/huixing/
さんあたりがくわしそうなんだけど。

ふむ。文字化けは亂碼 乱码というらしい。