企画特集
-
クラウド神話をリアルで読み解く
最新テクノロジ満載、「百度」の講演も!
TECHNOLOGY @WORK 東京 2012レポート -
百聞は一見で!日立のビッグデータ
JP1、Hadoop、QlickView "集計・分析"
データをクラウドに集約 ”蓄積・検索" -
クラウド意識調査結果を公開
率直な読者のご意見を全て公開
クラウドに対する疑問や実際の効果に迫る -
サーバ向けなのに、こんなに簡単!
ぜい弱性対策+ウィルス対策ソリューション
「あんしんパック」をインストールしてみた -
簡単に扱えないと意味がない!
【対談】安心・簡単なセキュリティが必要
--SMBの現場ニーズ vs トレンドマイクロ
注目コンテンツ
本日の主要記事

セマンティックWeb技術・RSSを解説する - (page 4)
―― RSS利用の最近の動向などについて教えてください
RSSメタデータの動向は今一番ホットな話題かもしれません。Weblogの隆盛とともに、ニュース見出しフィードの機能がよく使われるようになって来ました。さらに高度な使い方が模索されています。
ここでは、私と仲間がこの2年間でやっていたRSSデータの開発をご紹介し、このような発展の道もあるということで動向の一例とさせていただきたいと思います。
2年前に筆者がRSSを使い始めた頃、まず最初に作ったのが海外の英語ITニュースサイトのヘッドラインを携帯でチェックするサービスでした。現在は放置気味なのですが、「散歩しながらニュースチェック」ということで、以下のような雰囲気のものを作っていました。
これでRSS・RDFひいてはセマンティックWebの面白さに取り付かれた筆者らは、次にセマンティックWebをコンセプトに会社を立ち上げてしまいました。その会社では、まずメンバーの個人運営しているちょっとした人気サイトにCMS(コンテンツマネジメントシステム)を導入してRSSを出力させるようにしました。
さてその後このRSSを見た友人が自分のサイトでこの技術を使えるのではないかと相談がありました。彼は今日の雑学+というサイトという6万人の会員がいるメールマガジンとWebサイトを一人で個人運営していました。彼は毎日メールマガジンを発行してはHTMLに変換してWebにコンテンツをアップロードしていたので、CMSを使ってHTMLを書かないでも簡単に更新できるようにしました。同時にこのCMSにはRSS・RDFの出力機能があったので、その機能をオンにしました。これでコンテンツを更新するとRSSが自動更新される仕組みができました。
- ざつがくどっとこむ
- 上記サイトのCMSが出力するRDF
- 上記サイトがベースに使っているのはPHPweblog(RSS出力対応)
これだけでは面白くなかったので、もっと役立つように改善してみました。彼はもともと「雑学コラム」「コメントつきマーケティングリンク集」のふたつの内容をひとつにしたメールマガジンを6万部ほど発行していました。そのふたつのコンテンツを分けてコラムは「ざつがくどっとこむ」、リンク集は「4im.net」というふたつのサイトに記事を登録している作業をやっていたのです。
この作業は大変でした。毎週2回メールマガジンを発行するたびに、ふたつのサイトに記事を分けて登録しなければなりません。なんという面倒な日常作業でしょう。
そこでメタデータの利用を思いつきました。メールマガジンの読者リストにプログラムへデータを渡すための専用のメールアドレスを作成しました。このメールアドレスに入ったメールは、ふたつのコンテンツのパートに分割され、それぞれのRSSに変換されてWebサーバにアップロードされるように自動化しました。
現在では、彼はメールマガジンを発行するだけで、ふたつのサイトを更新することができています。その上、4im.netの方からは、今日の雑学の見出しも見られるようになりました。
メタデータはウェブマスターの作業効率化を促進する良い例だなと開発に携わった皆が納得しました。ところが、まだまだメタデータは使えるのではと仲間の一人の技術者が考え、もっと便利なセマンティックなやり方を考え、作りこみました。
それが、現在の4im.netについている自動カテゴリ分類機能です。数万件の過去に配信したマーケティングリンク集のタイトルやコメントを「EC電子商取引」「ブロードバンド」「ユビキタス」といったカテゴリ単位で見ることができます。
この分類は誰も編集作業を行っていないのです。
メールマガジンからメタデータへ変換されて登録されるコンテンツの記事の内容を自然言語処理し、各カテゴリのパターン学習させたルールベースを使って、記事を内容でカテゴリのディレクトリに自動分類して表示しています。また、内容的に類似した情報を一覧することができます。
裏側でRSSファイルは動的に生成するような仕掛けにしました。
- 上記サイトのRSS
なお上記、RSSサーバには、オプションがありまして、このURLの最後には last=nn号前のデータ。n=0が最新。 sentence=文章(日本語はURLエンコード必要) jcode=EUC,SJIS,JIS,UTF-8など出力文字コード id=Top 分類のカテゴリ構造へのアクセス(これは説明長くなるので略です) など、さまざまな呼び出し方ができます。
例えばXML関連のサイト情報が欲しい場合、
と、こんな感じで、メールマガジンの過去ログからいろんな知識をXMLメタデータという形で抽出できます。(ここでは弊社の独自拡張ですが、拡張方式としては、ダブリンコアの名前空間を使ったOpenDirectoryみたいなモデルや、Tim Berners-Lee提唱のNotation3みたいなものが存在しています)。
メールマガジンを発行するだけで、ふたつのサイトが更新され、コンテンツが自動で分類され、関連記事も一覧できるようになりました。おかげでアクセスが倍増、運営者も少ないコストで情報を頻繁に更新できるようになったと喜んでいます。すべてはRSS、RDFのおかげ、なのです。
ちょっと長くなりましたが、具体的に、私の開発経験をご紹介させていただきました。
データセクション 代表取締役CEO 橋本大也(はしもとだいや)
関連ホワイトペーパー (ZDNet Japan)
-
「ビッグデータ」を「スモールスタート」する段階的なシステム構築
資料提供:さくらインターネット株式会社 2012年04月26日
-
クラウド時代のネットワークとは ~HPが描くConverged Infrastructureの現実解
資料提供:日本ヒューレット・パッカード株式会社(クラウド) 2012年03月15日
-
ソフトウェア品質がビジネスの成否を左右する--いま取り組むべき6つの戦略とは
資料提供:日本アイ・ビー・エム株式会社(Rational) 2012年04月16日
-
機材は最新なのに… ローテクな情報共有がもたらした"IT院内感染"
資料提供:トレンドマイクロ株式会社 2012年03月14日
-
情報漏洩問題、まずは基本から固めませんか?「情報セキュリティハンドブック」
資料提供:日本オラクル株式会社 2012年05月21日
デジタル製品主要記事
レノボ、インテル製チップ搭載端末「K800」を間もなく発表か
米ヤフー、デジタルニューススタンド「Livestand」の提供終了を決定
プリンストン、Donna Karanらのアートワークを使用したiPhone用アルミバンパー
プリンストン、LEDバックライト採用の23型ワイド液晶モニタ
パナソニック、明瞭ボイスコントローラを搭載したスピーカシステム
KDDI、画面の振動で声を伝えるスマホ「URBANO PROGRESSO」
特集 by 楽天市場
CNET あとで読む




