お使いのブラウザは最新版ではありません。最新のブラウザでご覧ください。

CNET Japan ブログ

画像処理的アプローチによるWeb情報処理

2006/03/28 11:15
  • このエントリーをはてなブックマークに追加

プロフィール

sentan

インターネットの先端的な科学者・識者・ビジョナリーを招いてのセミナーの内容を、自身も自然言語処理というコンピュータの先端的な研究をしているヤフー・ジャパンの山下達雄氏がわかりやすく紹介します(このブログの更新は2006年3月28日で終了しました)。
ブログ管理

最近のエントリー

ヤフー社内で開催されているセミナーのレポート、今回で3回目です。
このブログをスタートしてから、先端的な技術情報や書籍を紹介しつづけている橋本大也さんのブログやブログマーケティングで活躍している29manさんのブログをはじめさまざまな分野のブログで取り上げて頂き、期待のほどがうかがえます。またソーシャルブックマークやトラックバックなどたくさんのフィードバックを頂きました。ありがとうございます。今後の参考にさせていただきます。

今回は、東京大学工学部教授(新領域基盤情報学)の相澤清晴先生のセミナーレポートです。

概要:
Webでの情報提供では,画像が多用され,デザインも複雑化し,Webページはとても視覚的なものになっている. 一方,Web情報の処理では,Webはテキストとして扱われ,画像としてのWebの扱いは積極的には行われてこなかった. Webの情報処理において,画像処理に利用についての検討を進めており,汎用的な”画像要素”の分類,Webの視覚的な分割,画像検索フィルタリングなどにいて紹介する.

東大相澤研究室は、ライフログ、3Dビデオ圧縮・検索、電子透かしなどの画像処理技術の研究室ですが、最近は「Web」も研究対象として扱うようになったそうです。

seminar0601-aizawa-ken.jpg

近年、Webページデザインが多彩になり、画像やフラッシュなどをふんだんに使ったページが増えてきています。
しかし、これまでのWebページ処理はHTML文書として扱われ、テキスト処理を行うのが基本でした。
とはいえ、ユーザから見ればそういう事情は関係ないわけです。
ブラウザを通せば、テキストやハイパーリンクのついた画像と言えます。

ということで、今回は相澤研で行われている、画像処理的アプローチによるWebの研究をいくつかご紹介していきます。

Web画像要素の分類と分類された画像要素を用いた要約・文書分類

Webページ上の画像の量が急激に増加しています。
写真だけではなくタイトル文字列も画像だったりすることがあります。
では、それぞれの画像にどういう意味づけがあるのでしょうか。

まずWebページに現れる画像を大きく3つ(全部で6つ)に分類します。

画像自体に内容があるもの ページ内コンテンツと関連 Photo, Illustration
  サイト自体と関連 Logo
  別ページ・サイト外と関連 Advertisement
他のコンテンツに対する見出し的なもの ページ内コンテンツに対する見出し Main Title, Section Title
  ページ外コンテンツに対する見出し Menu
その他   Icon, Others

そしてこれらをベースに自動的に画像要素を分類しました。
分類エンジンは SVMLight + RBF Kernel を使用。
SVM (サポートベクターマシン) は機械学習の手法の一つです。
あらかじめ与えられた正解例・誤り例から、何が正誤の判断の決め手になる要素なのかを自動的に学習し、その学習結果を用いて新たな事例に対して正誤の判断を与えます。
学習に使う特徴量(正誤判断の決め手となる要素の候補)として、ピクセル数・色数・DCT等の画像に基づくものと、周辺文字列・リンク有無等のテキストに基づくものを使用しています。

画像に基づく特徴量の一つとして、その画像に文字が含まれるか否かが重要です。
文字があれば見出しとして使われている画像の確率が高くなるわけですし。
ただし、OCRを用いても文字を認識するのは難しいので、「文字認識」ではなく画像パターンを用いての「文字を含むか否か」の判定だけを行います。

さて、これができるとどういうことができるでしょうか。
まずは、Webページの自動要約。見出しを取り出せば簡単そうです。
それからWebページの自動分類。実際に8カテゴリでの自動分類の実験を行い、テキスト情報だけを使うよりも、先の方法で認識した画像要素も同時に使った方が精度が上がることを確認し、実際に単語ベクトルのみで74.9%の正解率が82.3%に向上しました。

Web画像検索結果のフィルタリング

キーワードによる画像検索では一般にimgタグ周辺のテキスト情報を利用しており、ノイズが多くなってしまう宿命にあります。そこで画像情報を利用してノイズを減らすという研究も行われています。

例えば「机」でWeb画像検索すると検索結果に明らかに机と異なるものが大量に現れます。
そこで画像情報を用いて結果をクラスタリングして仲間はずれ画像をノイズとしてランキング外にするという処理をします。
クラスタリングに用いる画像特徴量は、1画素の集計であるカラーヒストグラム、隣同士の2画素の集計であるカラーコレログラム、3x3パターンの形状情報、DCTなどです。

例えば「グレープフルーツ」でWeb画像検索します。
すると、黄色く丸いあのグレープフルーツの画像だけでなく、農園のおじさん、木、果物屋、缶、ビンなどちょっと意図からはずれた物の写真も出てきます。
ここで各種画像特徴量を元にこれらの画像を自動でグループ分けします。
すると、

  • 正解である黄色く丸っぽい画像のグループ
  • 木や農園などの緑っぽい画像グループ
  • 果物屋の外観、缶、ビンなどの直線的な画像のグループ

などに分けられそうです。
そして小さなグループをノイズとして除去していけば最大グループである黄色く丸い画像は残ることになるので、より良い検索結果を提供できることになります。

結果はまだまだで、すごく良いとは言えないそうですが、今後に期待が持てます。

セミナーを終えて

紹介しきれませんでしたが、この他にも、「DOMだけでなく画像要素やテキストも併用したレイアウト解析」や「Webページを『画像』としての扱い、画像の類似度を用いるWeb類似検索」などの研究もありました。
これらの研究や、今回紹介した研究の詳細は相澤研研究紹介ページをご覧下さい。
総じて、現在および将来の弊社のサービスに適用できそうな実用的な研究でした。

※このエントリは CNET Japan ブロガーにより投稿されたものです。朝日インタラクティブ および CNET Japan 編集部の見解・意向を示すものではありません。
運営事務局に問題を報告

最新ブログエントリー

個人情報保護方針
利用規約
訂正
広告について
運営会社