目次> 第8章> 8.4 | TOPUPPREVNEXT |
日本語の環境で話題になる文字集合について以下のようなものがあります。
ASCII
JIS X 0201 ANK
JIS X 0208 JIS標準漢字
第1水準漢字 と 第2水準漢字 から構成されます。 改定によって含まれる文字が少しずつ異なり、以下のような呼び名で区別されます。
漢字には、区番号と点番号がつけられています。あわせて区点番号といいます。 1区 から 94区 まであり、各区は、1点 から 94点 まであります。 各区に収容されている字種は以下のとおりです。
区 | 文字種 | 文字数 |
---|---|---|
1 〜 2 | 各種記号 | 147 |
3 | 数字、英字 | 62 |
4 | ひらがな | 83 |
5 | カタカナ | 86 |
6 | ギリシャ文字 | 48 |
7 | キリル文字 | 66 |
8 | 罫線 | 32 |
9 〜 15 | 未定義 | ― |
16 〜 47 | 第一水準漢字 | 2965 |
48 〜 84 | 第二水準漢字 | 3390 |
85 〜 94 | 未定義 | ― |
JIS X 0212:1990 JIS補助漢字
90JISで、基本漢字に追加をするのではなく、5,801字を 別途 JIS補助漢字としてまとめられました。
実際にはあまり使われていません。 EUC−JP で 8F をつけて、3バイトコードとして使われます。
規格書は、平成明朝というフォントがつくられるのをまって印刷されました。
JIS X 0213:2000 JIS拡張漢字
第3水準 1,908字
第4水準 2,436字 計4,344
基本漢字とあわせて 11,223字
漢字 10,040
非漢字 1,183
JIS X 0221:2001 国際符号化文字集合(UCS) - 第1部 体系及び基本多言語面
Universal Multiple-Octet Coded Character Set (UCS) -- Part 1: Architecture and Basic Multilingual Plane
この規格で定められている主なものは以下のとおりです。
UTF-16、 UTF-8 については次節を参照してください。
ユニコードは、その後も文字の追加の検討が続けられています。
ユニコードの文字を16進表示する場合、 u+0000 のように u+ を付けますが、 上記対応表では、Java の表記法( \u0000 など)を使っています。
更新日:2013/12/09 | TOPUPPREVNEXT |