ウェブでの音声/映像検索技術はどこまで進んだか - (page 2)

Stefanie Olsen(CNET News.com)2004年06月14日 10時00分

 YahooとGoogleが抱える欠点は、より専門的な検索エンジンや、現状からの急速な技術的進歩が必要であることを明確に示しているのかもしれない。アクセス数の増加は広告収入増に直結することもあり、大手検索エンジン各社は、自社の検索ツールに毎日のように新機能を追加し、ウェブユーザーらの心をつかみ、クリック数を増やそうとしのぎを削っている。間近に迫るGoogleの新規株式公開(IPO)によって、検索エンジン各社の競争はさらに激化し、またYahooとGoogleのライバル関係もあらたな局面を迎える可能性がある。

 今日、YahooとGoogleが採用している技術は、インターネット上に存在するテキストのマイニングを行ない、キーワードに関連するコンテンツを探し出すことに主眼を置いている。その他の技術の中には、ウェブページ間の相関性を分析したり、あるページのヘッダやアンカーテキストを吟味し、ユーザーが検索語として入力した1つあるいは複数のキーワードに対応する適切なウェブページを、検索結果として表示できるようにするものもある。GoogleやYahooでは、(キーワードの代わりに)画像を手がかりにしたウェブ検索が行われるケースが増えているが、そういった画像も、それらの内容を説明するテキストと結びつけられている。

 同様に、一部の検索エンジンでは、マルチメディアファイルの内容を記述した、いわゆるメタデータと呼ばれるテキストやキーワードの分析を行っている。例えばSingingfishは、著者、ビットレート、ファイルの大きさなど、70項目におよぶ記述を頼りに、ファイル目録を作成しているが、同社はそのような情報の持つ欠陥に絶えず行き当たっている。

 他の検索エンジンでは、音声/映像の一部を文字に起こし、その言葉の持つ意味、話題、検索語との関連性を分析している。

 なかでも最も野心的な手法は、各ファイルの中身に検索をかけ、音声や映像の特徴を直接吟味することにより、意味や関連性を抽出するというもので、現在ごく少数の検索エンジンが熱心にこの開発に取り組んでいる。

余分な情報を取り除く

 StreamSageが昨年暮れに発表した音声/映像検索技術が、現在注目を集めている。ワシントンDCを拠点とする同社は、およそ3年間研究を重ね、音声認識技術を使って音声や映像を文字に起こすソフトを開発した。同ソフトは、音声/映像を文字に起こした後に、文脈分析を行ない、言語の判別や、コンテンツのテーマの解析を行う。それにより、各ファイルで議論されているトピックの、一種の目次が作成できるというわけだ。

 しかし、この手法の欠点は、100%正確な目次を作成することが極めて困難ということだ。実際、専門家らは、言語検出技術の精度は一般に80%しかないと指摘する。アクセント、専門語、方言といった言語にまつわる様々な障害が技術の精度を低下させているのだ。

 StreamSageは先ごろ、CampaignSearch.comという自社技術を紹介するためのサイトを立ち上げた。同サイトでは、大統領選の候補者らのクリップを集めたウェブ上の音声/映像ファイルを検索することができる。ここから検索可能なファイルには、Whitehouse.orgやCSPAN Voice of Americaといったサイト上のファイルも含まれている。

 StreamSage社長のSeth Murrayは同サイトについて、「これはStreamSageの技術をタイムリーに紹介するもの」と説明した。

 同サイトでは、例えば民主党の大統領候補であるJohn Kerryの1時間の演説の中から、保険医療について語っている4分間程度の部分だけを抜粋して視聴することも可能だ。

 StreamSageは過去4年間、研究開発に多額の資金を投じてながら、世間の目をうまく逃れてきた。同社の主任研究員、Tim Sibleyはコンピュータ言語学の研究で知られている。StreamSageは研究資金を獲得するため、米標準技術局(National Institute for Standards and Technology:NIST)の先進技術プログラム(Advanced Technology Program:ATP)などの研究助成金を受けてきた。またハーバード大では、StreamSageの技術を使って、医学生が過去に実施された関連科目の講義を検索できるシステムを構築した。さらに、AOLは同技術を使って、AOL Broadbandでストリーミング配信されている映像/音声の字幕サービスを提供している。

 NPRは、放送した音声番組がいち早く検索エンジンにリストアップされるよう、StreamSageの技術を使って文字に起こしている。NPRは多くの番組の文字起こしを外部委託しているが、従来の手作業による文字起こしではあまりに時間がかかり過ぎて、それらをタイムリーなニュースと関連付けて検索することは不可能だった。だが、音声認識技術を利用することにより、StreamSageは従来の手作業に比べはるかに短時間で音声の文字起こしを行ない、GoogleやYahooのリストに登録できるようになった。

 NPRのThomasによると、音声認識技術を利用した場合よりも、実際に人間が文字に起こした場合の方が、音声や映像の内容がより正確に反映されるため、同社ではいずれStreamSageが文字起こししたものから人間が行なったものに取り換えるという。StreamSageが文字に起こしたものは、番組の実際の内容を歪曲する場合があるのだ。

 またNPRはSingingfishの技術を使って、メタデータと呼ばれる関連情報を音声ファイルに細かくラベル付けする作業を行なっている。

CNET Japanの記事を毎朝メールでまとめ読み(無料)

-PR-企画特集

このサイトでは、利用状況の把握や広告配信などのために、Cookieなどを使用してアクセスデータを取得・利用しています。 これ以降ページを遷移した場合、Cookieなどの設定や使用に同意したことになります。
Cookieなどの設定や使用の詳細、オプトアウトについては詳細をご覧ください。
[ 閉じる ]