Googleは、同社が「コンピュータビジョン」の分野において、飛躍的な前進を遂げたと考えている。
休暇中に旅行する場所をオンラインで検索しているときに、遺跡が立ち並ぶ欧州の景勝地の写真を見つけたが、一目見ただけではその場所がどこなのか分からない、という状況を想像してみてほしい。Googleは、ユーザーがその画像のURLをGoogleに渡して、4000万点以上のジオタグ付き写真が収められたデータベースからその画像に一致する検証済みのランドマークを検索し、次の旅行先に関する情報を入手できるようにする方法を開発した。
このプロジェクトはまだ研究が始まったばかりの段階だ、とGoogleのコンピュータビジョン研究部門を率いるJay Yagnik氏は述べた。Googleは、米国時間6月22日にマイアミで開催されるComputer Vision and Pattern Recognition Conferenceにおいて、この研究を詳細に説明する論文を提出し、まとまりのない膨大なデータ群を利用して個々の画像を正確に評価できることを証明する予定だ。
「これは、わたしたちのコンピュータビジョンの見方を、根本的に進化させるものだ」とYagnik氏は述べる。
Googleは「landmark recognition engine(ランドマーク認識エンジン)」を開発するに当たって、「Picasa」や「Panoramio」にアップロードされている、エッフェル塔などの有名ランドマークのジオタグが付けられた約4000万点の画像を利用した。さらにGoogleは、専門家による検証済みのランドマーク写真が掲載されている場所として、「Wikitravel」などの旅行ガイドサイトからも画像を収集した。
研究チームは、こうして集めたデータの中から、同様のアングルで撮影された画像をグループ化するクラスタリング手法を用いて、ランドマークの特徴をよく捉えた写真だけを見つける方法を発見した。この方法では、エッフェル塔の前で撮影されてはいるが、エッフェル塔の姿がよく見えない家族写真のような「紛らわしい」画像を排除することもできる。
その後、このシステムは、分析対象となる新しい画像を与えられると、ピクセルマッチング手法を使ってその画像内の細かいパターンを検出し、検証済みランドマーク写真群の中から同様のパターンを探す。Googleによると、システムは80%の確率で正確な結果を返すことに成功したという。システムは、ランドマークの正しい名前を挙げただけでなく、Googleがその場所に関する追加情報を提供できるようにもした。
Googleは、この研究を製品化する時期、あるいはそれが実現するかどうかについて、考えを決して明確にしていない。しかし、コンピュータを使ってインターネット上にある膨大なデータ群を処理し、画像に関する正確な情報を返す方法を発見したことについて、Googleは興奮している。なぜなら、同じことを文字情報で行うことによって、GoogleはGoogleになり得たからだ。
この記事は海外CBS Interactive発の記事をシーネットネットワークスジャパン編集部が日本向けに編集したものです。 原文へ
CNET Japanの記事を毎朝メールでまとめ読み(無料)
ZDNET×マイクロソフトが贈る特別企画
今、必要な戦略的セキュリティとガバナンス
住環境に求められる「安心、安全、快適」
を可視化するための“ものさし”とは?
ものづくりの革新と社会課題の解決
ニコンが描く「人と機械が共創する社会」