Googleが、音声認識技術を通じてビデオを検索可能にする取り組みを格上げした。この動きは、同社傘下のYouTube部門がより財務的に成功する可能性を予感させるものだ。
この音声認識技術は、2008年7月に提供開始された政治演説検索用オンラインアプリケーションに使われていた。同アプリケーションがこのほど、「Google Audio Indexing」(GAUDI)プロジェクトとして、Google Labsに正式なインターフェースを獲得した。
このサイトの検索ボックスには、「政治家の発言を検索」との説明がある。検索結果はYouTubeのビデオプレーヤーの左横に一覧表示され、各検索結果をクリックすると、ビデオがプレーヤーにセットされて、検索語が話された部分が示される。表示されるのは演説ビデオだけではない。たとえば、「bridge to nowhere」(どこにも行けない橋)で検索すると、John McCain氏とSarah Palin氏の選挙キャンペーンで使われた「Real Mavericks」(真の無派閥政治家)の広告が結果に表示された。
ビデオから検索語が抽出できれば、Googleはビデオに収録されているコンテンツの内容把握が容易になり、結果として、その隣にどのような広告を表示するのが最も適切か、判断しやすくなる。Googleにとって、YouTubeから収益を上げることが2008年の最優先課題だ。
音声テキスト変換はまた、Googleが関連ビデオを検索結果に挿入するのに役立つ可能性もある。現状では、ビデオの内容を知るのに最良の方法は、タイトルやキャプションなどの付属するメタデータを調べることだ。しかし、これで得られる情報は、ビデオの中で話されている内容のほんの一部にすぎない場合が多い。
そして、Googleが自社の翻訳技術を利用して、ビデオのテキストを他言語に変換する可能性もある。
明らかに、Googleは音声認識技術に大きな野望を抱いている。同社はGoogle Audio IndexingプロジェクトのFAQページで、次のように説明している。「Google LabsでGoogle Audio Indexingを提供する狙いは、(現状それをGoogleの『Elections Video Search』ガジェットと組み合わせている狙い)より大きなもので、米国の選挙は最初の一歩に過ぎない。当社はこれを実験プラットフォームとみている。そこでわれわれは、どんな機能によって、ウェブ上の音声コンテンツを探している人々に最高のユーザー体験を提供できるかを学べる」
Googleの説明によると、まず政治的な情報から取り組みを開始したのは、同社が民主主義的なプロセスで重要な存在になろうと試みているからであり、また、政治演説はたくさんの注目を集めているからだという。また、政治家は一般にわれわれより滑舌が良いと考えられ、音声認識技術で言葉を拾いやすいからでもある、とGoogleは述べた。
(この記事は「Google Operating System」の投稿を参考にした。)
この記事は海外CNET Networks発のニュースをシーネットネットワークスジャパン編集部が日本向けに編集したものです。海外CNET Networksの記事へ
CNET Japanの記事を毎朝メールでまとめ読み(無料)
地味ながら負荷の高い議事録作成作業に衝撃
使って納得「自動議事録作成マシン」の実力
ものづくりの革新と社会課題の解決
ニコンが描く「人と機械が共創する社会」
ZDNET×マイクロソフトが贈る特別企画
今、必要な戦略的セキュリティとガバナンス