目次> 第8章> 8.4 TOPUPPREVNEXT

8.4 文字集合

日本語の環境で話題になる文字集合について以下のようなものがあります。

ASCII

8.2節の表にある94種の文字。

JIS X 0201 ANK

8.3節の表にある 7ビットまたは8ビットであらわされるアルファベット、数字や記号、カナ文字 の集合です。ANK(あんく、Alpha-Numeric Kana)と呼ばれることがあります。

JIS X 0208 JIS標準漢字

第1水準漢字 と 第2水準漢字 から構成されます。 改定によって含まれる文字が少しずつ異なり、以下のような呼び名で区別されます。

78JIS旧JIS とも呼ばれます )
最初の規格。 非漢字 453字、 漢字 6,349字、計6,802字。
83JIS ( 以降を 新JIS と呼びます )
  • 非漢字71字 ( ♪ や 罫線文字 ) の追加。
  • 人名漢字4字追加 と コードの入替え
  • 字形の変更
  • 第1水準と第2水準の間で異体字を入替え
計6,877字。
90JIS
人名漢字2字追加。字形の変更。計6,879字。
97JIS
文字の追加・変更はなく、字形に関する整理、字体の包摂基準の設定、 出典の追跡、異体字の整理などがされました。計6,879字。

漢字には、区番号と点番号がつけられています。あわせて区点番号といいます。 1区 から 94区 まであり、各区は、1点 から 94点 まであります。 各区に収容されている字種は以下のとおりです。

文字種 文字数
  1 〜 2  各種記号 147
  3  数字、英字 62
  4  ひらがな 83
  5  カタカナ 86
  6  ギリシャ文字48
  7  キリル文字 66
  8  罫線 32
  9 〜 15 未定義
 16 〜 47 第一水準漢字2965
 48 〜 84 第二水準漢字3390
 85 〜 94 未定義

JIS X 0212:1990 JIS補助漢字

1980年代後半に以下のような事情から、漢字の大規模な追加が要請されました。

90JISで、基本漢字に追加をするのではなく、5,801字を 別途 JIS補助漢字としてまとめられました。

実際にはあまり使われていません。 EUC−JP で 8F をつけて、3バイトコードとして使われます。

規格書は、平成明朝というフォントがつくられるのをまって印刷されました。

JIS X 0213:2000 JIS拡張漢字

第3水準 1,908字
第4水準 2,436字 計4,344

基本漢字とあわせて 11,223字
  漢字  10,040
  非漢字  1,183

JIS X 0221:2001 国際符号化文字集合(UCS) - 第1部 体系及び基本多言語面

Universal Multiple-Octet Coded Character Set (UCS) -- Part 1: Architecture and Basic Multilingual Plane

この規格で定められている主なものは以下のとおりです。

UTF-16、 UTF-8 については次節を参照してください。

ユニコードは、その後も文字の追加の検討が続けられています。

Unicode Code Charts の ブロック名称 と X 0221-1 付属書A A.2 との対応表

ユニコードの文字を16進表示する場合、 u+0000 のように u+ を付けますが、 上記対応表では、Java の表記法( \u0000 など)を使っています。


更新日:2013/12/09 TOPUPPREVNEXT