8.4 文字集合

日本語の環境で話題になる文字集合について以下のようなものがあります。

ASCII

８．２節の表にある９４種の文字。

JIS X 0201 ANK

８．３節の表にある７ビットまたは８ビットであらわされるアルファベット、数字や記号、カナ文字の集合です。ＡＮＫ（あんく、Alpha-Numeric Kana）と呼ばれることがあります。

JIS X 0208 ＪＩＳ標準漢字

第１水準漢字と第２水準漢字から構成されます。改定によって含まれる文字が少しずつ異なり、以下のような呼び名で区別されます。

７８ＪＩＳ （ 旧ＪＩＳ とも呼ばれます）

最初の規格。非漢字４５３字、漢字６，３４９字、計６，８０２字。

８３ＪＩＳ （以降を 新ＪＩＳ と呼びます）

計６，８７７字。

９０ＪＩＳ

人名漢字２字追加。字形の変更。計６，８７９字。

９７ＪＩＳ

文字の追加・変更はなく、字形に関する整理、字体の包摂基準の設定、出典の追跡、異体字の整理などがされました。計６,８７９字。

漢字には、区番号と点番号がつけられています。あわせて区点番号といいます。１区から９４区まであり、各区は、１点から９４点まであります。各区に収容されている字種は以下のとおりです。

JIS X 0212:1990 ＪＩＳ補助漢字

１９８０年代後半に以下のような事情から、漢字の大規模な追加が要請されました。

９０ＪＩＳで、基本漢字に追加をするのではなく、５，８０１字を別途ＪＩＳ補助漢字としてまとめられました。

実際にはあまり使われていません。ＥＵＣ－ＪＰで８Ｆをつけて、３バイトコードとして使われます。

規格書は、平成明朝というフォントがつくられるのをまって印刷されました。

JIS X 0213:2000 ＪＩＳ拡張漢字

第３水準 １，９０８字
第４水準 ２，４３６字計４，３４４

基本漢字とあわせて　１１，２２３字
　　漢字　　１０，０４０
　　非漢字　　１，１８３

JIS X 0221:2001 国際符号化文字集合(UCS) - 第1部体系及び基本多言語面

Universal Multiple-Octet Coded Character Set (UCS) -- Part 1: Architecture and Basic Multilingual Plane

この規格で定められている主なものは以下のとおりです。

群、面、区、点からなる国際符号化文字集合（UCS) の構造
群 group は７ビット、面 plane 、区 row 、点 cell はそれぞれ８ビットで計３１ビットの空間。この空間を UCS-4 とよびます。
群00 の面00（基本多言語面 BMP とも、 UCS-2 ともよぶ）に対する文字の割り当て
ユニコード（ Unicode ）の 3.0 版と同じ文字集合です。
群00 の面01 から面10 までのエンコーディング（ UTF-16 の後半部分 )
ユニコードでいうサロゲートペア surrogate pair のこと。
ちなみに、面10 は１６進表現なので第１６面。
従来の８ビット制御符号と共存するためのエンコーディング（UTF-8)

UTF-16、 UTF-8 については次節を参照してください。

ユニコードは、その後も文字の追加の検討が続けられています。

ユニコードの文字を１６進表示する場合、 u+0000 のように u+ を付けますが､上記対応表では、Java の表記法（ \u0000 など）を使っています。