8.5 エンコード

７ビット符号

８．３節の最後に述べたように、「７ビット及び８ビットの情報交換用符号化文字集合 JIS X 0201-1997 」の８ビット空間の文字集合を、シフトアウトとシフトインを用いて７ビット幅で表現する方法です。

ＪＩＳ

区番号を１バイト目、点番号を２バイト目にした、１６ビットの符号とするのですが、区点番号に１６進の２０を加えておくＧＬ領域用符号と、１６進のＡ０を加えておくＧＲ領域用符号の２種類があります。以下に例を掲げます。区点番号を１６進表示することは一般的でないのですが、ＪＩＳ符号との関連を示すために掲げています。

区点字形コード（16進)

（10進）（16進）（10進）（16進） GL GR

03 03 19 13 ３ 2333 A3B3
03 03 65 41 ａ 2361 A3E1

04 04 01 01 ぁ 2421 A4A1

04 04 02 02 あ 2422 A4A2

16 10 01 01 亜 3021 B0A1

16 10 02 02 唖 3022 B0A2

16 10 03 03 娃 3023 B0A3

16 10 04 04 阿 3024 B0A4

16 10 05 05 哀 3025 B0A5

23 17 24 36 慶 3744 B7C4

56 38 70 46 應 5866 D8E6

17 11 94 5E 応 317E B1FE

84 54 04 04 瑤 7424 F4A4

区	点	字形	コード（16進)
（10進）	（16進）	（10進）	（16進）	GL	GR
03	03	19	13	３	2333	A3B3
03	03	65	41	ａ	2361	A3E1
04	04	01	01	ぁ	2421	A4A1
04	04	02	02	あ	2422	A4A2
16	10	01	01	亜	3021	B0A1
16	10	02	02	唖	3022	B0A2
16	10	03	03	娃	3023	B0A3
16	10	04	04	阿	3024	B0A4
16	10	05	05	哀	3025	B0A5
23	17	24	36	慶	3744	B7C4
56	38	70	46	應	5866	D8E6
17	11	94	5E	応	317E	B1FE
84	54	04	04	瑤	7424	F4A4

Ｓｈｉｆｔ－ＪＩＳ

１バイト目８１～９Ｆ ... 31 ヶ所
　　　　　Ｅ０～ＥＦ ... 16 ヶ所計 47
２バイト目４０～７Ｅ ... 63 ヶ所
　　　　　８０～ＦＣ ... 125 ヶ所計 188 ―― 47 × 188 = 8836 = 94 × 94

区が１～６１で奇数の場合、区に２５７を加えて２で割った値を１バイト目にする。
点が１～６３なら６３を加えた値を、そうでなければ６４を加えた値を２バイト目にする。
区が２～６２の偶数の場合、区に２５６を加えて、２で割った値を１バイト目にする。
点に１５８を加えた値を２バイト目にする。
区が６３～９３の奇数の場合、区に３８５を加えて２で割った値を１バイト目にする。
点が１～６３であれば、６３を加えた値、そうでなければ６４を加えた値を２バイト目にする。
区が６４～９４の偶数の場合、区に３８４を加えて２で割った値を１バイト目にする。
点に１５８を加えた値を２バイト目にする。

区点字形コード（10進) コード SJIS

１バイト目２バイト目

03 19 ３ 130 82 8252

03 65 ａ 130 129 8281

04 01 ぁ 48 65 3041

04 02 あ 48 66 3042

16 01 亜 136 159 889F

16 02 唖 136 160 88A0

16 03 娃 136 161 88A1

16 04 阿 136 162 88A2

16 05 哀 136 163 88A3

23 24 慶 140 99 8C63

56 70 應 156 228 9CE4

17 94 応 137 158 899E

84 04 瑤 234 162 EAA2

区	点	字形	コード（10進)	コード SJIS
１バイト目	２バイト目
03	19	３	130	82	8252
03	65	ａ	130	129	8281
04	01	ぁ	48	65	3041
04	02	あ	48	66	3042
16	01	亜	136	159	889F
16	02	唖	136	160	88A0
16	03	娃	136	161	88A1
16	04	阿	136	162	88A2
16	05	哀	136	163	88A3
23	24	慶	140	99	8C63
56	70	應	156	228	9CE4
17	94	応	137	158	899E
84	04	瑤	234	162	EAA2

ISO-2022-JP

ISO-2022 という部分だけに注目すると混乱するかもしれません。 ISO-2022 は 複数の文字集合 を切り替えながら組み合わせて使う枠組みです。 JIS では、JIS X 0202:1998 で ISO-2022 と同等の規格を定めています。非常に大掛かりな枠組みで、 JIS や EUC-JP あるいはここで解説する ISO-2022-JP などを包含しています。

ISO-2022-JP はこの枠組みの中で、以下のようなエスケープシーケンスを用いて（「指示」や「呼び出し」を行い）、 ASCII、X 0201 ローマ字、X 0208漢字を７ビットで扱おうというものです。

文字種エスケープシーケンス（１６進）エスケープシーケンス（文字表現）

ASCII １Ｂ　２８　４２ ESC 　( 　B

ＪＩＳローマ字１Ｂ　２８　４Ａ ESC 　( 　J

ＪＩＳカナ ― ―

旧ＪＩＳ１Ｂ　２４　４０ ESC 　$ 　@

新ＪＩＳ１Ｂ　２４　４２ ESC 　$ 　B

文字種	エスケープシーケンス（１６進）	エスケープシーケンス（文字表現）
ASCII	１Ｂ　２８　４２	ESC 　( 　B
ＪＩＳローマ字	１Ｂ　２８　４Ａ	ESC 　( 　J
ＪＩＳカナ	―	―
旧ＪＩＳ	１Ｂ　２４　４０	ESC 　$ 　@
新ＪＩＳ	１Ｂ　２４　４２	ESC 　$ 　B

以下の約束があります。

行のはじめは、ASCII で始まる。
ASCII で始まる行はエスケープシーケンスなしで始まります。
行末では ASCII に戻しておく。
ＪＩＳ漢字についてはＧＬ領域を使う。

ファイルのダンプ例が、平成１４年度質問と回答２の最後にあります。

EUC-JP

エンコーディング符号長字種例コード

ASCII そのまま１バイト A 41

ＪＩＳ基本漢字ＧＲ領域２バイトあ A4 A2

ＪＩＳカナ８Ｅでシングルシフト２バイトｱ 8E 41

ＪＩＳ補助漢字８Ｆでシングルシフト３バイト鷗 8F EC BF

	エンコーディング	符号長	字種例	コード
ASCII	そのまま	１バイト	A	41
ＪＩＳ基本漢字	ＧＲ領域	２バイト	あ	A4 A2
ＪＩＳカナ	８Ｅでシングルシフト	２バイト	ｱ	8E 41
ＪＩＳ補助漢字	８Ｆでシングルシフト	３バイト	鷗	8F EC BF

UTF-16LE とUTF-16BE

UCS-2 あるいは１６ビットのユニコードをそのまま符号にしたものです。１６ビットをバイトの列として、外部媒体や通信回線に送り出す際に、１６ビットの上８ビットを先に送り出す（ビッグエンディアン）か、下８ビットを先に送り出すか（リトルエンディアン）の２種類のエンコーディングがあります。 Windows では通常リトルエンディアン（ UTF-16LE ）が使われます。 UTF-16 とは異なり、テキストの先頭にエンディアンを区別する BOM が付きません。

UTF-16

以下の方法で２バイトまたは４バイトに符号化されます。

UCS-2（群00 面00 ）の部分は１６ビットをそのまま符号にします。

群00 の面01 から面10（第１６面）については、サロゲートペアとよばれる２つの１６ビットの組で１文字の符号とします。

１６進表示で 00 01 00 00 ～ 00 10 FF FF の文字から 01 00 00 を引いて 00 00 00 00 ～ 00 0F FF FF の範囲にします。この２０ビットの上１０ビットに D800 を足して（といっても繰り上がりはおきない）できた１６ビットを１つ目、下１０ビットに DC00 を加えてできた１６ビットを２つ目とします。ビット表示で表すと下図のようになります。

サロゲートペアに使うために、 UCS-2 の D800 ～ DFFF には文字が割り当てられていません。このことにより、D8～DB で始まる１６ビットはサロゲートの上位、 DC～DF で始まる１６ビットはサロゲートの下位と判定され、逆変換が可能となります。

UCS-4の残りの部分（群00面11～群7F面FF）については UTF-16 ではエンコードされません。

各々の１６ビットをバイト列に変換する方法として、１６ビットの上８ビットを先に送り出す（ビッグエンディアン）か、下８ビットを先に送り出すか（リトルエンディアン）の２種類のエンコーディングがあります。

ファイルの先頭、あるいは通信の最初にBOM とよばれる文字が付加されることがあります。 BOM によって、ビッグエンディアンかリトルエンディアンかを判定することができます。 BOM がない場合は、ビッグエンディアンと判定されます。

ファイル・ダンプの例(UTF-16)

UTF-8

７ビットASCII と重なる部分を１バイトで表現し、残りの文字を２～４バイトで表現しようというものです。

コードポイント１バイト目２バイト目３バイト目４バイト目

00000000 0xxxxxxx 0xxxxxxx

00000yyy yyxxxxxx 110yyyyy 10xxxxxx

zzzzyyyy yyxxxxxx 1110zzzz 10yyyyyy 10xxxxxx

000uuuuu zzzzyyyy yyxxxxxx 11110uuu 10uuzzzz 10yyyyyy 10xxxxxx

コードポイント	１バイト目	２バイト目	３バイト目	４バイト目
00000000 0xxxxxxx	0xxxxxxx
00000yyy yyxxxxxx	110yyyyy	10xxxxxx
zzzzyyyy yyxxxxxx	1110zzzz	10yyyyyy	10xxxxxx
000uuuuu zzzzyyyy yyxxxxxx	11110uuu	10uuzzzz	10yyyyyy	10xxxxxx

ひらがなが \u3040～、カタカナが \u30A0～、ＣＪＫ統合漢字が \u3400～ですから、漢字は３バイトになります。

\uD800 ～ \uDFFF はサロゲートペアのためのコードポイントであり、エンコードの対象外です。 \u110000 以上の部分もエンコードの対象外です。

ファイル・ダンプの例(UTF-8)

以上が、Unicode 4.0 の UTF-8 の定義です。 JIS X 0221-1 の「付属書Ｄ（規定）ＵＣＳ変換形式８ (UTF-8) 」では、５～６バイト長の場合も定義されていて次のようになっています。

オクテットの用途形式（２進数）自由ビット数最大UCS-4値

１オクテットの列の最初 0xxxxxxx ７ 0000 007F

２オクテットの列の最初 110xxxxx ５ 0000 07FF

３オクテットの列の最初 1110xxxx ４ 0000 FFFF

４オクテットの列の最初 11110xxx ３ 001F FFFF

５オクテットの列の最初 111110xx ２ 03FF FFFF

６オクテットの列の最初 1111110x １ 7FFF FFFF

継続オクテット（２～６番目） 10xxxxxx ６

オクテットの用途	形式（２進数）	自由ビット数	最大UCS-4値
１オクテットの列の最初	0xxxxxxx	７	0000 007F
２オクテットの列の最初	110xxxxx	５	0000 07FF
３オクテットの列の最初	1110xxxx	４	0000 FFFF
４オクテットの列の最初	11110xxx	３	001F FFFF
５オクテットの列の最初	111110xx	２	03FF FFFF
６オクテットの列の最初	1111110x	１	7FFF FFFF
継続オクテット（２～６番目）	10xxxxxx	６

修正UTF-8

Ｊａｖａの入出力で使われることのある修正UTF-8 (Java modefied UTF-8) は次のようなものです。

null すなわち \u0000 は、２バイト形式にエンコードされます。
これにより、文字列の中に 00₁₆ というバイトが現れなくなります。
基本多言語面(BMP、\u0000～\uFFFF)の文字を、１～３バイト長のＵＴＦ－８で表現します。
１６ビットを超える文字（\u10000～\u10FFFF）はＵＴＦ－１６のサロゲートペアで表現します。
この部分はＪａｖａでは「補助文字」と呼ばれ、プログラム内では int で処理します。

UTF-32

１文字を３２ビットで表現します。（１６進で） 00 00 00 ～ 00 D7 FF および 00 00 00 ～ 10 FF FF をそのまま３２ビット幅で表現します。（抜けている部分はサロゲートペアのためのコードポイントで、文字ではありません。 10 FF FF を越える部分もエンコードの対象ではありません。）

エンディアンの問題だけが残ります。たとえば、ABC で始まるバイト列を例にすると次のようになります。

メモリ上の値
３２ビットワードエンコーディングバイト列

00000041
00000042
00000043 UTF-32BE 00 00 00 41 00 00 00 42 00 00 00 43

UTF-32LE 41 00 00 00 42 00 00 00 43 00 00 00

UTF-32
ビッグエンディアン 00 00 FE FF 00 00 00 41 00 00 00 42 00 00 00 43

UTF-32
リトルエンディアン FF FE 00 00 41 00 00 00 42 00 00 00 43 00 00 00

UTF-32
BOM なし 00 00 00 41 00 00 00 42 00 00 00 43

メモリ上の値３２ビットワード	エンコーディング	バイト列
00000041 00000042 00000043	UTF-32BE	00 00 00 41 00 00 00 42 00 00 00 43
	UTF-32LE	41 00 00 00 42 00 00 00 43 00 00 00
	UTF-32 ビッグエンディアン	00 00 FE FF 00 00 00 41 00 00 00 42 00 00 00 43
	UTF-32 リトルエンディアン	FF FE 00 00 41 00 00 00 42 00 00 00 43 00 00 00
	UTF-32 BOM なし	00 00 00 41 00 00 00 42 00 00 00 43