文字コード本メモ
身近にあったのに何故読まなかったんだ、この本!素晴らしい!!
プログラマのための文字コード技術入門 (WEB+DB PRESS plus) (WEB+DB PRESS plusシリーズ)
- 作者: 矢野啓介
- 出版社/メーカー: 技術評論社
- 発売日: 2010/02/18
- メディア: 単行本(ソフトカバー)
- 購入: 34人 クリック: 578回
- この商品を含むブログ (129件) を見る
- 4.3 Unicodeの符号化方式
- 7.1 Java ― 内部処理をUnicodeで行う
- UCS正規化。内部コードにUnicodeを利用。
- 入力、出力時に文字コード変換。入力の文字コード、出力時の文字コードには、エンコーディング未指定の場合はシステム標準の文字コードが採用される
- ソースコードが非Unicodの場合でも、Unicodeエスケープを用いることで、Unicodeにしかない文字を記述することができる。\uに続けて16進4桁で表現する
- 例えば、propertiesファイルはISO/IEC8859-1しか対応していないため、Unicodeエスケープを用いて内容を記述すると良い
- String は UTF-16で文字列を扱う。charは符号なし16ビット整数で、UTF-16を構成する16ビットの単位に対応する。
- サロゲートペアや合成用濁点の存在のため、Stringのlengthは文字数を表していない(charは1文字ではなく「コード単位」である)
- 8.3 改行コード
- 8.5 円記号問題
- 8.6 波ダッシュ問題