お使いのブラウザは最新版ではありません。最新のブラウザでご覧ください。

CNET Japan ブログ

セマンティックWebについての誤解と真実

2003/11/18 18:08
  • このエントリーをはてなブックマークに追加

先週末の11月14日、慶應義塾大学でWorld Wide Web Consortium (W3C)による技術カンファレンス「W3C Day 2003」が開催され、お馴染みのTim Berners-Lee氏が登場し、セマンティックWebについていつものように熱く語ったという。私は参加しなかったのだが、今回はこの「セマンティックWeb」を話題にしてみよう。

CNET Japan : 「セマンティックWebは着実に広がる」:ウェブの生みの親、ティム・バーナーズ・リーが来日

さてさて、セマンティックWebとは何ぞや。まずはW3C Semantic Webのサイトを見てみよう。そこには、

Definition: The Semantic Web is the representation of data on the World Wide Web. It is a collaborative effort led by W3C with participation from a large number of researchers and industrial partners. It is based on the Resource Description Framework (RDF), which integrates a variety of applications using XML for syntax and URIs for naming.

"The Semantic Web is an extension of the current web in which information is given well-defined meaning, better enabling computers and people to work in cooperation." -- Tim Berners-Lee, James Hendler, Ora Lassila, The Semantic Web, Scientific American, May 2001

とある。どうもこういうフワフワしたものは歯切れが悪いし本質がわかりにくい。なんだか煙に巻かれたような気がする。そういう居心地の悪さを感じているあなたには、以下を読んでスッキリしてもらいたい。

セマンティックWebとメタデータ

セマンティックWebのコンセプトは、少なくともその起源においては「Webサイトの属性を、ただのHTMLではなくコンピュータが扱いやすい形で提供するための仕組みを考えよう」というものである。

例えば「このサイトはオーナーが誰々で、最終更新日が云々で、連絡用メールアドレスは云々で、ミラーサイトが此処と此処で。。。」というようなメタデータを標準化しておけば、いまGoogleなどの一部のパワフルでノウハウ満載のエンジンに依存しているWebサイトの検索が、もっとライトな仕組みでも簡単に実現可能になるだろう、というWebコンテンツ利用者のメリットを追及するものだ。(ということは、Webコンテンツ提供者にとっては色々な意味においてデメリットでもありうるということなのだが、今回そこまでは踏み込まない)

ここで、「メタデータ」というのはデータ本体ではなくそれに付随するような情報のことである。判りやすい例で言えば、Windowsを使っているときのファイルはデータだが、ファイルのプロパティ(作成日やサイズ、パスなど)がメタデータである。今回の文脈だとHTMLがデータ本体で、そのHTML自身の属性をRDF (Resource Description Framework)という形式で切り出したものがメタデータである。HTMLを知っている人なら、METAタグというのが存在することを思い出すだろう。あれはまさにメタデータをHTML本体に永続化して埋め込むために作られたものである。

実はBlogの流行によって使われるようになってきたRSS (RDF Site Summary)は、このセマンティックWebのコンセプトに因っている。例えばこのBlogのRSS Feedも、一度ざっと見て欲しい。ここに記述されているようなものが、まさにメタデータだ。

RSS Feed - http://blog.japan.cnet.com/kenn/index.rdf -

さて、こうしたメタデータをあらゆるWebパブリッシャーの間で共通化することで、膨大なWeb空間を串刺しにして検索できるようにしてやろうというのがTim Berners-Leeの野望である。

標準化されたセマンティクスは表現の墓場

しかし、果たしてメタデータの共通化、すなわちセマンティクス(意味)の標準化など可能なのだろうか?

誰もが疑うように、この壁は高く厚い。意味とは、それ自身の定義により、生き物のようなものである。日々変化を繰り返し、それが通用する広さや共有される範囲によってコミュニティというものを定義する。

そして、コミュニティ内部の活性とエントロピーが高い場合、意味は受け手によってバラエティに富んだ解釈がなされる。HTMLをベースとした無秩序なWebの世界がものすごい勢いで広がっていったことは、表現の自由度や面白さを優先するのに寛容であったことと無関係ではない。

裏を返せば、解釈が一意に定まるような意味体系で満たされており、厳格に標準化され自動化されたコミュニティは、すでに人間性を失っている。いわば、セマンティクスの標準化というものは「表現の墓場」である。クリエイティブという単語の正反対に位置する、左脳的な世界なのである。

Webの世界が膨張を止め、静まり返った図書館のようになるその時まで、セマンティックWebとやらの出番はないのではないか?とあなたが感じているとしてもそれは不思議ではない。

定番のメタデータとは

しかし一方で、墓標入りしてもよかろうという中立性の高いメタデータもいくつか存在する。Dublin Core Metadata Initiativeで定められている15の要素集合(Dublin Core Metadata Element Set, Version 1.1: Reference Description)というのがそれだ。

この絞りに絞った15の意味定義についてさえ、実装に落とし込むには超えなければいけない壁が大きいことに気付くだろう。主に正規化に関する問題だが、CreatorやPublisherといった重要なデータ項目でさえ、コード化されていないため記述方法のブレが大きい。コード化という発想はコンピュータの原始時代からあったわけだが、Web時代ならではのアドバンテージといえば識別子にURI (Uniform Resource Identifiers)という信頼性・利便性の高いコード生成規則が使えるようになったことぐらいだろう。(ちなみにコードといえば、「ISO標準コードは最強最悪のサブマリン的・知的財産権となるか?」でも述べたように、広域に管理されているものが利用可能かどうかが重要である。セマンティックWebの目指す世界では独自のローカルコードは全く役に立たない)

また、コンテンツクリエイターの皆さんなら「5W1H」という金科玉条を思い出したかも知れない。昔から、「いつ(When)、どこで(Where)、だれが(Who)、なにを(What)、なぜ(Why)、どのようにして(How)をはっきりさせることで、伝わりやすい文章になる」と言われていたではないか。

この「5W1H」の中でも無機質で客観性の高いメタデータは「When」と「Where」と「Who」だ。とりわけ「When」は最も歴史ある世界標準のメタデータで、16世紀来普及を続けてきたグレゴリオ暦と時差の概念に準拠してさえいれば、英語や日本語といった言語の壁を越え、世界中のあらゆるコミュニティで受容可能である。ISO8601なんていう標準書式まで与えられているため実装にもブレはない。

また、先の話を振り返って欲しいのだが、そういえばWindowsなどのファイルシステムにおけるファイルの静的なメタデータ(プロパティ)といえば、やはりファイル名(What)、作成者(Who)、日付(When)、パス(Where)などであった。

どうやらこの「5W1H」あたりがセマンティックWebの世界でも重要なメタデータであるらしいことはわかってきた。(一般に言って、「What」や「How」はスコープやコミュニティを制限して明確にしなければ標準化が難しいことは容易に想像がつくだろう)

そろそろお気づきのことと思う。標準化が可能なメタデータなんていうものは、実は高々この程度しかないのだ。WhenやWhereなどの無機質なメタデータを、気宇壮大にセマンティクスなどとは普通呼ばない。その程度なら、もうRSSがあるではないか。そして、セマンティクスというものが人間の常識や感性に依存するものである限り、驚くようなテクノロジーによる解決なんてあり得ない。結論はほぼ見えているのではないか。

偉い人の言うことは正しいという民衆心理

Tim Berners-Leeの目指す世界は、不変の価値を持つコンテンツ(=リソース)に一意に識別子を与えて検索もできてみんなハッピーということらしいが、そもそも個人または少数によって生み出される雑多なコンテンツをリソースであるとみなすスタンスがバランスが悪いと言わざるを得ない。リソースとは本来、「常識」のように時間をかけて醸成され洗練されたものである。(という前提をここでは置く。そう定義しなければ話が進まないからだ)

コンテンツとは、言語や常識という潜在的で目に見えない人間内在型の柔らかい共有リソースを90%使いながら、10%程度の新しいエッセンスを味付けするという性質のものである。このバランスがおかしいと、感性の近いコミュニティにしか理解できなかったり、または他人には理解不能なゴミとなる。このような性質との兼ね合いでリソースとイベントの分離を考えるならば、コンテンツはどちらかといえばイベントである。(リレーショナル脳なあなたのために:リソースをマスターと呼ぶなら、イベントは明細である。マネー脳なあなたのために:リソースをストックと呼ぶなら、イベントはフローである)

しかしリソースとイベントの極端な分離はコンテンツの質(コンテンツの最終消費者である人間にとっての受容性)を下げてしまうし、一方でリソース自体も生き物であるから、イベントとしてのコンテンツも時とともに古くなる。従ってコンテンツは、手を変え品を変え少しだけ新しくなったリソースの埋め込み具合をバランスしながらプロデュースされ続けなければいけない。コンテンツがイベントである以上、これは宿命である。イベントはログに記録されるが、量が無秩序に増えるに従って質は相対的にどんどん減衰していく。(このBlogのエントリだって、いずれ価値を償却される運命のイベントデータに過ぎないわけだ)

Webの世界が膨張を続ける限り、そこにある大量のコンテンツはリソースとしての性質よりもイベントとしての性質を色濃くしていくというのは不可逆の傾向である。このような事実を踏まえると、RESTアーキテクチャ(吉松さんの記事「Webの『正しい』アーキテクチャ」が参考になる)のような理想は、URIの先にあるコンテンツの純度がどんどん下がっているという点を加味すると、それほど切実な問題ではないかも知れないのだ。むしろ、その過程のどこかにある折り返し地点から、思い切ってイベントログを捨てる勇気と技術の方が大切になってくる。

だからこそコンピュータによる検索が大事なのだ、と思ってしまう人は、たぶんここまでの論点をうまく消化できていないと思うので、一度「超整理法」(野口悠紀雄著)あたりをじっくり読んでみて欲しい。Googleで1000位にランクされたコンテンツを一度でも見たことがありますか?そしてそれはすごく価値のあるコンテンツでしたか?

セマンティックWebというコンセプトがずっと生き残っているのは、Webの世界で何かを成し遂げた偉い人たちの言うことだから正しいに決まっていると思い込みたがる民衆心理の亡霊のようなものだ。そんな価値は、少なくとも大々的に吹聴されているような次元では存在しないのである。そろそろ目を覚ましたほうがよい。

左脳的な課題が先決

しかし私自身も様々な標準化に携わる身の上であり、Webコンテンツのメタデータ標準という100年仕事にいずれ取り組んでもよいかなと思ってはいる。とはいえ、それは少なくとも明日のメシの種ではない。老後の楽しみに取っておいても十分間に合うだろう。

今はもっと左脳的な世界、例えば注文書や請求書といった大量のペーパーに記載されたセマンティクスの解釈に人間の脳を使っているというビジネス世界の果てしない無駄(無駄なものを無駄と思わずに忙しい、忙しいといっているのが世の常だが)を解決するための標準化が先行しているし、先にセマンティクスの標準化と実装が成功するのもこちらだろう。私としては、こういった左脳的な無駄をまず撲滅し、それから段階的に右脳的なものの標準化に「適切な度合いで」取り組む方が社会的意義が大きいし、そうしたいと考えている。

このような取り組みを日々行いつつ横目でチラとW3Cを見ていると、そろそろ彼等の時代とその役目の終焉は近いかもなぁと思えてならない。ドロドロしたセマンティックな世界での標準化作業は、論文と純潔の世界に生きる彼等にとっては少々荷が重過ぎるようだ。

さて、あなたはFlashで作られたクールなWebサイトを見て「検索しにくいイヤなサイトだ」と思ってしまう人ですか?
どんどん溜まるメールやブックマークを捨てられない人ですか?

♪ Doobie Brothers / What A Fool Believes

※このエントリは CNET Japan ブロガーにより投稿されたものです。朝日インタラクティブ および CNET Japan 編集部の見解・意向を示すものではありません。
運営事務局に問題を報告

最新ブログエントリー

個人情報保護方針
利用規約
訂正
広告について
運営会社