絵文字が開いてしまった「パンドラの箱」第4回--絵文字が引き起こしたUnicode-MLの“祭り”

  • このエントリーをはてなブックマークに追加

普通では考えられない優遇策--「Google提案」を振り返る

 皆さんこんにちは、毎度おなじみ(?)文字コード漫談の時間がやってまいりました。前回が3月の掲載ですから3カ月ぶりですか。今まで3回にわたって絵文字をUnicode及びISO/IEC 10646(国際符号化文字集合)に収録しようという提案の動きについてご説明してきましたが、今回から2回に分けて完結編をお届けします。どうぞよろしくお付き合いください。

 ひさしぶりですから、ここまでのポイントを整理しておきましょう。前述した「提案」とは、もともとはUnicodeに収録するためにGoogleがAppleと共同で作成したものです。以下、主唱者の名前をとり「Google提案」と呼ぶことにします。これはこの2月に開かれた最高議決機関、UTC会議で承認されてUnicodeコンソーシアムの総意となりました。ついでGoogle提案はISO/IEC 10646への収録を目指して、3月5日にその提案書が公開されています(N3582N3583和訳文書)。

 UnicodeはISO/IEC 10646と文字集合を共有していますが、それはUnicodeが収録決定した文字を、無条件でISO/IEC 10646も収録することを意味しません。いくらUnicodeコンソーシアム(=アメリカ・ナショナルボディ)と言えども、ISO/IEC 10646を審議するWG2会議で参加各国の賛成を得なければならないのです。なお、両者の関係について詳しいことは前回の冒頭部分を参照してください。以下ではとくにISO/IEC 10646への提案を意味しない限り、規格名としては「Unicode」で統一して話をすすめます。

 次に前回のおさらいをしておきましょうか。Google提案の内容は自分が考えた絵文字を収録しようというのではなく、NTTドコモ、KDDI、ソフトバンクモバイルという3キャリアで使われている既存の絵文字との相互運用を至上目的とするものであること。ところがよく知られているように絵文字は「色と動き」を持っており、それらを符号化の対象としない文字コードの技術で互換を目指すのはむずかしいこと(本来これはファイルフォーマットの仕事)。そこでGoogle提案は「色と動き」は絵文字の本質ではないとして、これらを除いて符号化することにしたけれど、やはりどうも無理があること。

 さらに今までのUnicodeの原則では似たような字を1つに統合してしまうところを、絵文字については一切それはせず、3キャリアのレパートリを重複は除き1文字も欠けることなく収録する「ソース・セパレーション・ルール」(以下、ソース分離)を適用することにしたこと。これは普通では考えられない優遇策と言えます。

 それだけでなく、Google提案は現在行われている3キャリア間の変換サービスとなるべく同じ結果になるよう設計されていること。ところが現行の変換サービスというのは、1対1対応(往復の情報交換)が当然である文字コードの世界から見ると、1対多対応(片道だけの情報交換)を大量に許している「異常な世界」であること。しかし互換を目指す以上、このような悪い部分までGoogle提案は抱え込まざるを得なかったこと。

 だいたい、こんなところでしょうかね。たぶん前回まで読んだ人が、当然抱くであろう疑問は「では、なぜGoogleはそこまでして3キャリアとの互換にこだわるのか?」ということではないかと思うのですが、このあたりがオチになってくるので、ちょっと頭の隅において読んでくださいね。また勝手ながら以下、敬称を略させていただきます。

「Unicode-ML」で議論された絵文字

 ここまで読んで分かるように、Google提案はいささか強引と言うべきシロモノなのですが、昨年UTC会議への提案を前に一般へのパブリックレビューが発表されると、やはりというか当然というかすごい勢いで反対の声があがりました。

 絵文字についてインターネット上で議論された場所は2つに分けられます。1つはGoogleの『emoji4unicode』グループの「ディスカッション」(掲示板)。こちらはそもそもの発案者であるGoogleによる公式ページであり、パブリックレビューでもフィードバックの宛先はこのディスカッションのページが指定されています。しかし、ここでの議論は盛り上がったと言えるほどでなく、主な議論は公式ページではなく別のところでおこなわれたのです。それがUnicodeの公式メーリングリスト(以下、Unicode-ML)でした。

 これはUnicodeのイベントの案内だとか規格改訂など、何か新しい動きがあったときにここで告知したり討議したりするものです。国際標準化活動におけるメーリングリストとしては、代表的存在としてIETF(The Internet Engineering Task Force)のものが挙げられますが、Unicode-MLはそれと比べるとテーマごとに細分化されておらず、単一のメーリングリストの中に総てのスレッドが同居するイメージです。

 ではどんな人達が投稿しているのしょう。職業でいうと圧倒的多数を占めるのがソフトウェアの国際化に関わるエンジニア、居住地で言うと一番多いのはやはり米国、残りのほとんどが欧州諸国(たまに中国、インド、日本)と思われます。

  • このエントリーをはてなブックマークに追加