セマンティックWeb技術・RSSを解説する - (page 4)

橋本大也(データセクション 代表取締役CEO)2003年04月22日 09時55分

―― RSS利用の最近の動向などについて教えてください

 RSSメタデータの動向は今一番ホットな話題かもしれません。Weblogの隆盛とともに、ニュース見出しフィードの機能がよく使われるようになって来ました。さらに高度な使い方が模索されています。

 ここでは、私と仲間がこの2年間でやっていたRSSデータの開発をご紹介し、このような発展の道もあるということで動向の一例とさせていただきたいと思います。

 2年前に筆者がRSSを使い始めた頃、まず最初に作ったのが海外の英語ITニュースサイトのヘッドラインを携帯でチェックするサービスでした。現在は放置気味なのですが、「散歩しながらニュースチェック」ということで、以下のような雰囲気のものを作っていました。

 これでRSS・RDFひいてはセマンティックWebの面白さに取り付かれた筆者らは、次にセマンティックWebをコンセプトに会社を立ち上げてしまいました。その会社では、まずメンバーの個人運営しているちょっとした人気サイトにCMS(コンテンツマネジメントシステム)を導入してRSSを出力させるようにしました。

 さてその後このRSSを見た友人が自分のサイトでこの技術を使えるのではないかと相談がありました。彼は今日の雑学+というサイトという6万人の会員がいるメールマガジンとWebサイトを一人で個人運営していました。彼は毎日メールマガジンを発行してはHTMLに変換してWebにコンテンツをアップロードしていたので、CMSを使ってHTMLを書かないでも簡単に更新できるようにしました。同時にこのCMSにはRSS・RDFの出力機能があったので、その機能をオンにしました。これでコンテンツを更新するとRSSが自動更新される仕組みができました。

 これだけでは面白くなかったので、もっと役立つように改善してみました。彼はもともと「雑学コラム」「コメントつきマーケティングリンク集」のふたつの内容をひとつにしたメールマガジンを6万部ほど発行していました。そのふたつのコンテンツを分けてコラムは「ざつがくどっとこむ」、リンク集は「4im.net」というふたつのサイトに記事を登録している作業をやっていたのです。

 この作業は大変でした。毎週2回メールマガジンを発行するたびに、ふたつのサイトに記事を分けて登録しなければなりません。なんという面倒な日常作業でしょう。

 そこでメタデータの利用を思いつきました。メールマガジンの読者リストにプログラムへデータを渡すための専用のメールアドレスを作成しました。このメールアドレスに入ったメールは、ふたつのコンテンツのパートに分割され、それぞれのRSSに変換されてWebサーバにアップロードされるように自動化しました。

 現在では、彼はメールマガジンを発行するだけで、ふたつのサイトを更新することができています。その上、4im.netの方からは、今日の雑学の見出しも見られるようになりました。

 メタデータはウェブマスターの作業効率化を促進する良い例だなと開発に携わった皆が納得しました。ところが、まだまだメタデータは使えるのではと仲間の一人の技術者が考え、もっと便利なセマンティックなやり方を考え、作りこみました。

 それが、現在の4im.netについている自動カテゴリ分類機能です。数万件の過去に配信したマーケティングリンク集のタイトルやコメントを「EC電子商取引」「ブロードバンド」「ユビキタス」といったカテゴリ単位で見ることができます。

 この分類は誰も編集作業を行っていないのです。

 メールマガジンからメタデータへ変換されて登録されるコンテンツの記事の内容を自然言語処理し、各カテゴリのパターン学習させたルールベースを使って、記事を内容でカテゴリのディレクトリに自動分類して表示しています。また、内容的に類似した情報を一覧することができます。

 裏側でRSSファイルは動的に生成するような仕掛けにしました。

  • 上記サイトのRSS

 なお上記、RSSサーバには、オプションがありまして、このURLの最後には last=nn号前のデータ。n=0が最新。 sentence=文章(日本語はURLエンコード必要) jcode=EUC,SJIS,JIS,UTF-8など出力文字コード id=Top 分類のカテゴリ構造へのアクセス(これは説明長くなるので略です)  など、さまざまな呼び出し方ができます。

例えばXML関連のサイト情報が欲しい場合、

 と、こんな感じで、メールマガジンの過去ログからいろんな知識をXMLメタデータという形で抽出できます。(ここでは弊社の独自拡張ですが、拡張方式としては、ダブリンコアの名前空間を使ったOpenDirectoryみたいなモデルや、Tim Berners-Lee提唱のNotation3みたいなものが存在しています)。

 メールマガジンを発行するだけで、ふたつのサイトが更新され、コンテンツが自動で分類され、関連記事も一覧できるようになりました。おかげでアクセスが倍増、運営者も少ないコストで情報を頻繁に更新できるようになったと喜んでいます。すべてはRSS、RDFのおかげ、なのです。

 ちょっと長くなりましたが、具体的に、私の開発経験をご紹介させていただきました。

データセクション 代表取締役CEO 橋本大也(はしもとだいや)

CNET Japanの記事を毎朝メールでまとめ読み(無料)

-PR-企画特集

このサイトでは、利用状況の把握や広告配信などのために、Cookieなどを使用してアクセスデータを取得・利用しています。 これ以降ページを遷移した場合、Cookieなどの設定や使用に同意したことになります。
Cookieなどの設定や使用の詳細、オプトアウトについては詳細をご覧ください。
[ 閉じる ]