imatakeのメモ

EUC-JPな漢字

メモ Java

EUC-JPな漢字のバイト配列を取得したり、その逆で、バイト配列から文字列を取得する時、キャラクタセットに"EUC-JP"を指定して取得する。

"日本語".getBytes("EUC-JP");
new String('バイト配列', "EUC-JP")

まっ、普通はそれで良いんですが、拡張文字とか使われていると正しくマッピングされない…。はしご高とか…。

Java 5.0 からいくつか文字エンコーディングが追加されてる。"EUC_JP_LINUX" とか "EUC_JP_Solaris" とか。

で、"EUC-JP" の代わりに、"EUC_JP_Solaris" を使うと、うまくいくっぽい。

メモ

サポートされているエンコーディング (J2SE 5.0)
- http://java.sun.com/j2se/1.5.0/ja/docs/ja/guide/intl/encoding.doc.html
J2SE 1.5.0での文字コード一覧とConnector/Jにおけるコードマッピング
- http://d.hatena.ne.jp/mir/20050512/p2
EUC_JP_Solarisの動作検証
- http://d.hatena.ne.jp/mir/20050517/p3
NEC選定IBM拡張文字とIBM拡張文字の悩み
- http://d.hatena.ne.jp/mir/20050519/p1