構造化されていない情報に関する基本的な論点を理解するために、次の例を考えて欲しい。HTMLで書かれた本とXMLで書かれた本の記述だ。ここに、ウェブページのソースでよく見られる典型的な表現を示す。
これを、XMLよく使われる典型的な表現と比較してみる。
HTMLは情報の構造を捉えておらず、情報と表現が混在している状態だ。一方XMLは、構造だけに焦点を当てており、その情報がどのように表現されるべきかについては何も示されていない。何十億という今日のウェブページが持っているのは、非構造化情報だ。人間にとっては、これは特に問題ではない。人間は意味を読み取るのに長けており、理解するのにXMLの原始的な注釈など必要ないからだ。しかしコンピュータにとっては、構造の欠如は根本的な問題だ。コンピュータは構造のない、標準化されていない情報を上手に解釈することができない。
人間がウェブを作るずっと以前に、リレーショナルデータベースが作られた。リレーショナルデータベースは、今日多くの企業やウェブサイトが基盤とするプラットフォームだ。リレーショナルデータベースが素晴らしいのは、情報を構造化された形で示してくれることだ。
Structured Query Language(SQL)として知られるクエリ言語が、単一のデータベーステーブルに収められた情報を取り出すのを支援する。より重要なのは、SQLが複数のデータベーステーブルの情報を関連づけたりそこから選択したりするクエリもサポートしていることだ。単純に言えば、SQLはデータのリミックスを可能にする。これに対する唯一の前提条件は、データが構造化されていることだ。
他方、情報が構造化されてない場合には、情報の格納は個別のサイロのなかで効率化される。サイロは外部に開かれておらず、また可搬性もない。こうした表現形式はクリエータ側には容易に理解されるが他のアプリケーションやWebサービスがデータを活用するのは容易ではない。ある意味では、ウェブ上の他のデータとリミックスすることができないのでかえって無駄が多いともいえる。
CNET Japanの記事を毎朝メールでまとめ読み(無料)
ものづくりの革新と社会課題の解決
ニコンが描く「人と機械が共創する社会」
ZDNET×マイクロソフトが贈る特別企画
今、必要な戦略的セキュリティとガバナンス