JIS X 0221
JIS X 0221は、日本産業規格 (JIS) の制定している文字コード規格の一つ。規格の名称は「国際符号化文字集合 (UCS)」、ISO/IEC 10646の国際一致規格である。
歴史
[編集]本規格の元となるISO/IEC 10646はUnicodeをベースにしばしば改正(補遺の発行等を含む)されている規格であり本規格も初版が1995年(平成7年)に制定された後、ISO/IEC 10646本体の改正に合わせて2001年(平成13年)及び2007年(平成19年)に改正されている。それぞれの版の規格番号、制定・改正日および対応するISO規格の規格番号、制定・改正日は以下の通りである。
版 | JIS番号 | JIS制定・改正日 | ISO規格番号 | ISO制定・改正日 | 対応するUnicodeのバージョン |
---|---|---|---|---|---|
第1次規格 | JIS X 0221:1995 | 1995年1月1日制定 | ISO/IEC 10646-1:1993 | 1993年制定 | Unicode 1.1 |
第2次規格 | JIS X 0221-1:2001 | 2001年4月20日制定 | ISO/IEC 10646-1:2000 | 2000年改正 | Unicode 3.0 |
第3次規格 | JIS X 0221:2007 | 2007年12月20日制定 | ISO/IEC 10646:2003 | 2003年制定 | Unicode 5.0 |
第4次規格 | JIS X 0221:2014 | 2014年6月20日改正 | ISO/IEC 10646:2012 | 2012年改正 | Unicode 6.1 |
それぞれの版のJIS はそれぞれの制定時点での最新のISOの内容を反映したものであり、正誤表などの内容を反映しているだけでなく、第3次規格のJIS X 0221:2007は、ISO/IEC 10646:2003の内容を反映しているのに加えて2005年(平成17年)制定の補追1及び2006年(平成18年)制定の補追2に相当する内容を含んでいる。ただし規格群全体で見ると第1次規格については1996年(平成8年)3月1日に「TECHNICAL CORRIGENDUM 1」が、第2次規格については2001年(平成13年)11月1日に「ISO/IEC 10646-2:2001 UCS -- Part 2: Supplementary Planes」が、第3次規格については2008年(平成20年)2月15日に「ISO/IEC 10646:2003/Amd.3 Lepcha, Ol Chiki, Saurashtra, Vai and other characters」がそれぞれ制定されたためそれ以降はJISとISOの最新版とは内容的には一致しないことになる。
当初、国際符号化文字集合の規格全体は、内容が膨大なものとなり、規格全体を一冊の規格票にまとめるのは現実的ではないと考えられていたため、一つの規格で全てを定めるのではなく複数の規格群によって構成されることを予定していた。なお、JISの第1次規格において部編成を示す枝番がなかったのは当時JISの側にそのような方法が定められていなかったためであり部編成にすること自体は予定されていたと第2次規格の規格票の解説において説明されている。ISO/IEC 10646については実際に2001年(平成13年)11月1日に規格群を構成する追加規格であるISO/IEC 10646-2:2001「国際符号化文字集合(UCS) - 第2部 追加多言語面」が制定されている(この規格だけに対応するJISは制定されなかった)。その後、規格の内容の大きな部分を占めるコードと文字の対応関係を定めた部分などをCD-ROM化して規格票に収めることが可能になり、第3次規格においては国際符号化文字集合の規格全体を一つの規格として定めることになった。そのため、第2次規格までの規格の名称は「国際符号化文字集合(UCS) - 第1部 体系及び基本多言語面」となっている。また規格票の頁数は、第1次規格では全体で1036頁(うち解説149頁)、第2次規格では全体で1236頁(うち解説151頁)であったものが第3次規格では全体で166頁(うち解説21頁)、第4次規格では全体で178頁(うち解説27頁)となっている。
この規格のように、規格の「改正」にあたって規格番号の末尾の「-1」が付いたり取れたりするような「部編成が変わる」場合、内容的(実質的)には改正であっても形式的には前の規格を廃止し、新たな規格を制定したとして扱うように定められている。そのため、本規格においては第2次規格および第3次規格は形式的にはそれぞれ前の規格の改正ではなく新たな規格を制定したことになっている。ただし本規格の第2次規格以降の規格票の解説においては上記の説明を行った上で規格の内容の変遷については「改正」として説明を加えている。
日本文字部分レパートリ
[編集]付属書JAにおいて、以下の6つのレパートリを規定している[1]。
組番号 | 名前(レパートリ名) | レパートリ名称 | 総文字数 | JIS X 0208 漢字 |
JIS X 0212 漢字 |
JIS X 0213 漢字 |
---|---|---|---|---|---|---|
285 | BASIC JAPANESE | 基本日本文字集合 | 6884 | 6355 | 0 | 6355 |
371 | JIS2004 IDEOGRAPHICS EXTENSION | JIS2004拡張漢字集合 | 3695 | 0 | 2743 | 3695 |
372 | JAPANESE IDEOGRAPHICS SUPPLEMENT | 補助漢字集合 | 5801 | 0 | 5801 | 2743 |
286 | JAPANESE NON IDEOGRAPHICS EXTENSION | 拡張非漢字集合 | 631 | 0 | 0 | 0 |
287 | COMMON JAPANESE | 通用日本文字集合 | 609 | 0 | 279 | 276 |
JAPANESE NON IDEOGRAPHICS SUPPLEMENT | 追加非漢字集合 | 1457 | 0 | 0 | 0 |
補足
- BASIC JAPANESEに含まれるJIS X 0208漢字の数は参考資料では6356文字となっているが、「JIS X 0208#漢字集合」に記載の漢字数に合わせる。
- COMMON JAPANESEの総文字数は、COMMON JAPANESE(BASIC JAPANESE含む)の7493文字[2]からBASIC JAPANESEの6884文字を引いた数。
- JIS2004 IDEOGRAPHICS EXTENSIONとJAPANESE IDEOGRAPHICS SUPPLEMENTは2742文字を共有している[2]。
- 日本文字部分レパートリのうち、BASIC JAPANESE 及び COMMON JAPANESE は、それぞれを単独で又は他の日本文字部分レパートリと組み合わせて用いることを意図している[2]。
- 通用日本文字集合 (COMMON JAPANESE) にだけ含まれる漢字は34文字[3]。JIS X 0213、JIS X 0212に含まれない漢字を参照。
- 「仝」はJIS X 0208またはJIS X 0213では記号として扱われているがUnicodeでは漢字としての扱いである。
- JIS X 0212とJIS X 0213でUCS符号が一致しない文字がある。
レパートリの組み合わせ | BASIC JAPANESE | JIS2004 IDEOGRAPHICS EXTENSION | JAPANESE IDEOGRAPHICS SUPPLEMENT | JAPANESE NON IDEOGRAPHICS EXTENSION | COMMON JAPANESE | JAPANESE NON IDEOGRAPHICS SUPPLEMENT |
---|---|---|---|---|---|---|
単独1 | ○ | |||||
単独2 | ○ | |||||
組み合わせ1 | ○ | ○ | ||||
組み合わせ2 | ○ | ○ | ○ | |||
組み合わせ3 | ○ | ○ | ||||
組み合わせ4 | ○ | ○ | ||||
組み合わせ5 | ○ | ○ | ○ | |||
組み合わせ6 | ○ | ○ |
概要と履歴
[編集]Unicodeでは任意の部分集合による実装が認められているため[4]、送信した文字を受信側が正しく表示できる保証はまったくない。これに対してISO/IEC 2022では、適合を主張する実装は文字集合に対して1文字たりとも追加・削除・変更が許されないため[5]、文字集合に含まれる文字すべてを扱えることが保証される。この問題を補うため、ISO/IEC 10646では特定用途でよく使われる文字を集め、適合を主張する実装に対して構成する文字すべての実装を義務づける「組」(英: collection)を規定している。
しかしISO/IEC 10646には欧州で使われる文字を集めたMESなどの組はあるものの、日本語でよく使われる文字を集めた組は規定されていなかった。このためJIS X 0221では「日本文字部分レパートリ」という名の附属書を追加し、日本語でよく使われる文字を制限部分集合として独自に定めている。第1次規格では附属書1に以下の7種類を規定していた。
- 基本日本文字集合 (BASIC JAPANESE)
- ISO/IEC 646国際基準版、JIS X 0201、JIS X 0208に含まれる文字。
- 追加非漢字集合 (JAPANESE NON IDEOGRAPHICS SUPPLEMENT)
- JIS X 0212の非漢字および日本語で使われる記号類。
- 追加漢字集合 (JAPANESE IDEOGRAPHICS SUPPLEMENT 1)
- JIS X 0212の漢字のうち日本語での使用頻度が高いもの。
- 補助漢字集合 (JAPANESE IDEOGRAPHICS SUPPLEMENT 2)
- JIS X 0212の漢字のうち追加漢字集合に含まれなかったもの。
- その他の漢字集合 (JAPANESE IDEOGRAPHICS SUPPLEMENT 3)
- CJK統合漢字 (URO) のうち基本日本文字集合、追加漢字集合、補助漢字集合のいずれにも含まれないものすべて。
- 互換用全角英数字集合 (FULLWIDTH ALPHANUMERIC)
- いわゆる全角英数。
- 互換用半角片仮名集合 (HALFWIDTH KATAKANA)
- いわゆる半角カナ。
第2次規格ではレパートリの内容に変更はないが、JIS X 0221がISO/IEC 10646の国際一致規格であることとの整合性の問題を受け、附属書1は規定から参考に格下げされた。
第3次規格では附属書1は附属書JAに変更されて基本日本文字集合と追加非漢字集合以外のレパートリは廃止され、代わりに以下の4つが追加された。
- JIS2004拡張漢字集合 (JIS2004 IDEOGRAPHICS EXTENSION)
- JIS X 0213で拡張された漢字。
- 補助漢字集合 (JAPANESE IDEOGRAPHICS SUPPLEMENT)
- JIS X 0212の漢字すべて。改正前の追加漢字集合と補助漢字集合を併合したもの。
- 拡張非漢字集合 (JAPANESE NON IDEOGRAPHICS EXTENSION)
- JIS X 0213で拡張された非漢字。ただし符号位置の並びを要素として含む組を規定することはできないため[6]、アイヌ語用の半濁点付き仮名や声調の上下動を表す記号などの合成が必要な非漢字はこのレパートリに含まれていない。
- 通用日本文字集合 (COMMON JAPANESE)
- マイクロソフト標準キャラクタセットのUnicodeによる実装を事実上追認するもの。
これらは、ISO/IEC 10646:2003の追補2までの内容しか含まないJIS X 0221の第3次規格では依然として参考扱いであるが、追加非漢字集合以外の5つは2008年(平成20年)に制定されたISO/IEC 10646:2003の追補3で組として追加された[7]。
注釈・出典
[編集]- ^ JIS X 0221 漢字データベースプロジェクト
- ^ a b c JIS X 0221:2014 国際符号化文字集合(UCS)
- ^ スラド COMMON JAPANESE にだけ含まれる漢字
- ^ The Unicode Consortium (2006-11-03). The Unicode Standard, Version 5.0. Addison-Wesley Professional. p. 61. ISBN 978-0-321-48091-0
- ^ 7ビット及び8ビットの2バイト情報交換用符号化漢字集合 解説. 日本規格協会. (1997-01-20). p. 375
- ^ “Extended Collection definition” (2006年4月27日). 2008年4月27日閲覧。
- ^ Information technology -- Universal Multiple-Octet Coded Character Set (UCS) -- Amendment 3: Lepcha, Ol Chiki, Saurashtra, Vai and other characters. (2008-02-15). pp. 6-9
関連項目
[編集]外部リンク
[編集]- JISC 日本産業標準調査会 - JIS本文を閲覧できる。