本日、Google Labsにて、音声認識技術を使って動画コンテンツ内の音声を検索できるGAUDI: Google Audio Indexingベータ版が公開されました。
すでにBlinkxなど動画検索技術に特化した会社が行っていることと同様に、動画中で交わされている言葉をテキストに変換し、それを対象にキーワード検索ができるようにしたものです。検索対象の語句が出現する場所から再生することももちろん可能です。この分野でのGoogleはサービスリリースが遅れ気味でしたが結局他の会社を買収するのではなく自社開発で挑んできました。
動画検索技術はまだまだ解決しなければいけない課題が山積しています。動画制作者やユーザーが動画ファイルに追加するメタ情報やタイトル、説明文の情報ではユーザーが求める情報を探し出すには情報が限定的すぎて限界がありますし、ニコニコ動画の説明文やタグを見ればわかるようにユーザーが追加する情報などアテになりません。また、単に動画のありかを示すのではなく、ユーザーが求める情報について言及している場面をピンポイントで探し当てることが要求されますから、今回のGoogleやBlinkxが採用したアプローチのような、動画中の音声を解析するというアプローチが必然的に求められます。
しかしながら、ハイパーリンクで結ばれないコンテンツにおける動画ファイルの重要度や信頼度、新鮮さやキーワードとの関連性を判定するのは、なかなか困難なことです。また、今回のリリースが大統領選のコンテンツに限られているのは、おそらく動画中における話者が基本的に1〜2人で解析が行いやすいことも理由の1つと考えられます。というのは、発言者が複数存在する場合、音声がかぶって認識できない、誰が発話者なのかの判定ができないといった技術的な問題があるためです。