2008.4.8
文字図形番号JIS化の必要性(意義、目的)およびそのための検討必要事項等について記述する。
文字コード規格はISO/IECおよびJIS等によって定められているが、その符号化文字には同じ文字を表現する複数の字体・字形が包摂(注1)されている。そのため文字コードだけでこれら包摂されている字体・字形を具体的に指定あるいは情報交換することができない。また符号化されていない文字(字体・字形)は文字コードによる指定や情報交換ができない。
戸籍(注2:戸籍における文字の扱い)、住基ネット(注3)など名前を扱う電子政府関連システムや印刷出版分野などでは、包摂された異体字や規格の符号化文字だけでなく、符号化されていない文字(字体)を一意に指定して処理することが必要である。しかしながら前述のとおりISO/IECおよびJISの文字コード規格においては、字体を一意に指定する方法が標準化されていないためメーカー付加外字や利用者が独自に用意した外字によって個々に処理せざるを得ないのが現状である。
この問題を解決するには、文字図形にユニークな番号(文字図形番号)を与えた標準を定め、その文字図形番号によって当該文字図形の指定や情報交換を行えるようにすれば、文字コード規格によって扱えないすべての文字図形をシステムや人に依存せずに扱うことが可能になる。これが今回の文字図形番号標準化の意義と目的である。
(1)JIS化の範囲
・ 文字図形集合(対象とする文字図形の種別、範囲等)
・ 文字図形番号とその付与規則
・ 「規格」以外に「参考」として併記する情報
(2)他の関連規格等との関連
・ ISO/IEC 10036:2001(JIS
X 4165:2002フォント関連識別子の登録手続き)(注4)との関連
・ 情報処理学会試行標準TS 0002:2004文字図形識別情報(注5)との関連
・ UCS/UnicodeにおけるIVS(Ideographic Variation Selector)(注6)との関連
・ JIS X 4166:2005 XML文書へのグリフ識別子の埋め込み(注7)との関連
(3)その他
・ 汎用電子情報交換環境整備プログラム 文字情報データベース(注8)における文字図形番号との関連
・ その他
注1:包摂とは
・ 複数の異体字に同一の区点位置(同一コード)を付与すること。例えばJIS X 0208では、「高」と「」、「社」と「![]()
」などは包摂している。(「富」、「冨」は包摂せず個別にコードが与えられている)
・ 包摂規準は規格毎に設定される。
・ UCS/Unicodeにおいては、字形の似たものがUnifyされ同一コードが与えられている。例えば「机」と中国語の機の簡体字「机」が同一コードである。
・ 包摂があるため、規格への異体字の追加には限度があり、その方法では異体字および外字の問題は解決しない。
注2:戸籍における文字の扱い
・ 戸籍法施行規則をベースに法務省民事局長から戸籍に使える文字の正字と漢字字典に典拠のある俗字などに関する通達がなされ、それに基づき処理が行われている。
・ また戸籍統一文字として約56,000字の漢字が収集され法務省のホームページで公開されている。
注3:住基ネット
・ H14/8から運用が開始された住民基本台帳ネットワークシステムで、21,000字の統一文字が決められ、これに基づき処理が行われている。
・ 戸籍統一文字との互換性はなく、例えば戸籍統一文字で別番号が振られている字体が住基ネットでは一つしかなかったり、逆に住基では別番号が振られている字体が戸籍ではないなど統一されていない。
注4:ISO/IEC 10036:2001(JIS
X 4165:2002フォント関連識別子の登録手続き)
・ 文字図形やピクトグラム等を登録機関に登録するための手続きについて定めたもの。同一文字図形が別々に登録されることがあるため、文字図形のユニーク性は確保できない。
・ 当初はAFIIが登録機関であったが、Unicodeコンソーシアムを経て現在はGLOCOM(国際大学グローバルコミュニケーションセンター)が登録管理を行っている。
注5:情報処理学会試行標準TS 0002:2004文字図形識別情報
・ 文字図形を他の文字図形と識別する方法とその定義情報を定めたもの。
・ 文字図形を分割できなくなるまで上下左右等に二分割を繰り返し、その結果得られる文字図形を構成する要素の図形を指示し、又、それら要素の図形の相対位置などを文字列によって記述する。
注6:IVS(Ideographic Variation Selector)
・ UCS/Unicodeにおいて異体字等を指定するための機能。IVSC(Ideographic Variation Selector Character)を使って、Base Character(UCS/Unicodeに登録されている文字)に対する異体字を指定する。
・
IVSCはUTF-16で拡張される第14面のU+E0100からU+E01EFまでの240ポジション。つまり一つのBase Characterに対して規格上は240字の異体字を指定できる
・ しかし、フォント仕様(OpenType等)の制限により240のバリエーションは使用できず、実質的には1〜2桁少なくなる。(フォントが一つの面につき65k字までしか表現できないので、仮にBMPの27,000字の漢字がIVSCを使うとすると65,000÷27,000≒2.4字となる)。また運用仕様が未熟で実用化までには時間がかかる。
・ UCS/Unicodeに登録されていない文字には使えない。
注7:JIS X 4166:2005 XML文書へのグリフ識別子の埋め込み
・ 旧TR X 0047 XMLによる画像参照交換方式のことで、通称EGIX(Embedding Glyph Identifiers in XML)と呼ばれる。
・ XMLにより記述される文書において、文字コードで表すことができない文字図形等をその識別子(その文字図形の名称あるいはそのデータが存在するURI等)により間接的に指定する方法。
注8:汎用電子情報交換環境整備プログラム 文字情報データベース
・ e-Japan戦略の一環として、電子政府用文字情報データベースの整備を目指したプロジェクト。経済産業省の委託事業として、日本規格協会、国立国語研究所、情報処理学会が共同受託し、平成14〜平成20年度実施。
・ 文字情報データベースには住基文字、戸籍文字が収録され、現在登記文字を追加作業中、利用方法については未定。
以上