リンク: [ホーム] [自己紹介] [リンク集] [アルバム] [ソフトウェア] [発表文献] [その他]

まさおのChangeLogメモ / 2006-04-13

01 02 03 04 05 06 07 08 09 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30

2006-04-13 Thu

* Unihan

http://q.hatena.ne.jp/1144892483
単漢字の読みをダウンロードできるサイトを教えて下さい.CSV,Exel形
式などで,シフトJISの全ての漢字,できればJIS X0213の範囲までカバー
していると嬉しいです.

という質問に対して Unihan.txt をおすすめしてみたけど、

これは知っていたのですが,加工するのがすごく大変そうです.読みが
ローマ字なのもちょっと.

と返されてしまったので…。

ちょっとワンライナーをば:
% ruby -ne 'next if /^#/;code,prop,val = $_.chomp.split(/\t/);puts [[code.sub(/^U\+/,"").hex].pack("U*"),val].join("\t") if prop =~ /Japanese/' Unihan.txt

…確かに意外と手間取るね。。。
Referrer (Inside): [2006-04-15-1]