「XMLとユニコードの併用には注意」:ウェブ標準団体らが呼びかけ

 Unicodeの標準化団体Unicode Consortiumと、ウェブ技術標準団体のW3C(World Wide Web Consortium)が、「Unicodeと、XML(Extensible Markup Language)との併用は、ブラウザの動作で問題が発生する可能性がある」として注意を呼びかけている。

 Unicodeは、Unicode Consortiumが発行する標準文字セットで、チェコ語から中国語にいたるまで、あらゆる言語をパソコンで記述することを目的として、各言語の全ての文字に一意の番号を割り当てている。XMLはW3Cが定める仕様で、デジタルドキュメントのマークアップ追加、特定のタスクや業界向けの新たなマークアップ言語の作成に使用する。XMLはUnicodeをベースとしており、Unicodeの改訂バージョンに順次対応している。

 しかし、Unicode Consortiumが発表した報告書、さらにW3Cの国際化に関する活動機関がほぼ同時に公開した勧告書によると、「Unicodeの一部の機能が、XMLアプリケーションやHTMLブラウザなどの動作を妨げる」という。

 問題が生じる原因は、文字セットを定義するUnicodeと、ウェブ標準の基盤となるマークアップ言語では、基本的な考え方がまるで異なるためだ。Unicodeでは、ページ上の全ての文字が1対1の適合を原則としている。これに対し、XMLやウェブベースで用いる文字はUnicodeより融通性が高く、1つの文字、単語、あるいはページごとに異なるスタイルや機能属性を割り当てることができる。

 例えば、Unicodeでは、上付き/下付きの数字や文字を含む「互換文字」が存在する。これに対してHTMLやXMLの場合、まず基本文字を利用し、上付き/下付きなどの形式は、別途スタイルで指定することになる。

 W3Cの国際化に関する取り組みの責任者、Martin Duerstは「XMLを使用しているなら、XMLを有効にするためにマークアップ言語の手法を採用した方がよい」と勧告している。

この記事は海外CNET Networks発のニュースをCNET Japanが日本向けに編集したものです。

CNET Japanの記事を毎朝メールでまとめ読み(無料)

-PR-企画特集

このサイトでは、利用状況の把握や広告配信などのために、Cookieなどを使用してアクセスデータを取得・利用しています。 これ以降ページを遷移した場合、Cookieなどの設定や使用に同意したことになります。
Cookieなどの設定や使用の詳細、オプトアウトについては詳細をご覧ください。
[ 閉じる ]