次のウェブをどう定義するか:構造化ウェブの始まり - (page 2)

文:Alex Iskold 翻訳校正:吉井美有2007年10月30日 08時00分

基本的な問題

 構造化されていない情報に関する基本的な論点を理解するために、次の例を考えて欲しい。HTMLで書かれた本とXMLで書かれた本の記述だ。ここに、ウェブページのソースでよく見られる典型的な表現を示す。

img

 これを、XMLよく使われる典型的な表現と比較してみる。

img

 HTMLは情報の構造を捉えておらず、情報と表現が混在している状態だ。一方XMLは、構造だけに焦点を当てており、その情報がどのように表現されるべきかについては何も示されていない。何十億という今日のウェブページが持っているのは、非構造化情報だ。人間にとっては、これは特に問題ではない。人間は意味を読み取るのに長けており、理解するのにXMLの原始的な注釈など必要ないからだ。しかしコンピュータにとっては、構造の欠如は根本的な問題だ。コンピュータは構造のない、標準化されていない情報を上手に解釈することができない。

構造化されていない情報の問題点

 人間がウェブを作るずっと以前に、リレーショナルデータベースが作られた。リレーショナルデータベースは、今日多くの企業やウェブサイトが基盤とするプラットフォームだ。リレーショナルデータベースが素晴らしいのは、情報を構造化された形で示してくれることだ。

 Structured Query Language(SQL)として知られるクエリ言語が、単一のデータベーステーブルに収められた情報を取り出すのを支援する。より重要なのは、SQLが複数のデータベーステーブルの情報を関連づけたりそこから選択したりするクエリもサポートしていることだ。単純に言えば、SQLはデータのリミックスを可能にする。これに対する唯一の前提条件は、データが構造化されていることだ。

img

 他方、情報が構造化されてない場合には、情報の格納は個別のサイロのなかで効率化される。サイロは外部に開かれておらず、また可搬性もない。こうした表現形式はクリエータ側には容易に理解されるが他のアプリケーションやWebサービスがデータを活用するのは容易ではない。ある意味では、ウェブ上の他のデータとリミックスすることができないのでかえって無駄が多いともいえる。

CNET Japanの記事を毎朝メールでまとめ読み(無料)

-PR-企画特集

このサイトでは、利用状況の把握や広告配信などのために、Cookieなどを使用してアクセスデータを取得・利用しています。 これ以降ページを遷移した場合、Cookieなどの設定や使用に同意したことになります。
Cookieなどの設定や使用の詳細、オプトアウトについては詳細をご覧ください。
[ 閉じる ]