Unicodeの標準化団体Unicode Consortiumと、ウェブ技術標準団体のW3C(World Wide Web Consortium)が、「Unicodeと、XML(Extensible Markup Language)との併用は、ブラウザの動作で問題が発生する可能性がある」として注意を呼びかけている。
Unicodeは、Unicode Consortiumが発行する標準文字セットで、チェコ語から中国語にいたるまで、あらゆる言語をパソコンで記述することを目的として、各言語の全ての文字に一意の番号を割り当てている。XMLはW3Cが定める仕様で、デジタルドキュメントのマークアップ追加、特定のタスクや業界向けの新たなマークアップ言語の作成に使用する。XMLはUnicodeをベースとしており、Unicodeの改訂バージョンに順次対応している。
しかし、Unicode Consortiumが発表した報告書、さらにW3Cの国際化に関する活動機関がほぼ同時に公開した勧告書によると、「Unicodeの一部の機能が、XMLアプリケーションやHTMLブラウザなどの動作を妨げる」という。
問題が生じる原因は、文字セットを定義するUnicodeと、ウェブ標準の基盤となるマークアップ言語では、基本的な考え方がまるで異なるためだ。Unicodeでは、ページ上の全ての文字が1対1の適合を原則としている。これに対し、XMLやウェブベースで用いる文字はUnicodeより融通性が高く、1つの文字、単語、あるいはページごとに異なるスタイルや機能属性を割り当てることができる。
例えば、Unicodeでは、上付き/下付きの数字や文字を含む「互換文字」が存在する。これに対してHTMLやXMLの場合、まず基本文字を利用し、上付き/下付きなどの形式は、別途スタイルで指定することになる。
W3Cの国際化に関する取り組みの責任者、Martin Duerstは「XMLを使用しているなら、XMLを有効にするためにマークアップ言語の手法を採用した方がよい」と勧告している。
この記事は海外CNET Networks発のニュースをCNET Japanが日本向けに編集したものです。
CNET Japanの記事を毎朝メールでまとめ読み(無料)
ものづくりの革新と社会課題の解決
ニコンが描く「人と機械が共創する社会」
ZDNET×マイクロソフトが贈る特別企画
今、必要な戦略的セキュリティとガバナンス