> >

IBM、未来派のマルチメディア検索技術「Marvel」を開発

Michael Kanellos（CNET News.com）2004年09月30日 19時57分

　IBMは、未来のユーザーが重要なニュース映像をアーカイブしたり、古いテレビ番組の場面を簡単に探しだせるようなインターネットの検索技術を開発している。

　同社の研究者らは、「Marvel」（開発コード名）という検索エンジンの開発を試みている。これは、現在インターネット上では簡単に見つけ出せないビデオ／オーディオデータを検索するための技術だ。

　この技術が目指す姿は次のようなものだ。ユーザーは、大統領候補同士の討論を示すサンプル画像をクリックしたり、「二人の男、壇上」のように場面を説明する言葉を入力したりするだけで、放送局や映画スタジオ、個人が生み出した数万時間におよぶオーディオ／ビデオデータのなかから、関連するデータを見つけ出し、これを観たり聞いたりすることができるようになる。

　GoogleやYahooのような現行の検索エンジンを使ってビデオクリップや画像を見つけ出すことは可能だが、これらの技術はファイルのなかに含まれる画像自体に検索をかけているわけではない。こうした検索エンジンは、ファイルの下に付けられたテキストを利用する仕組みになっており、そのためごく少数のファイルしか探し出せず、しかもこうしたファイルにはきちんとした記述が加えられている必要がある。

　「いまのところ、コンテンツのインデックスをつくり検索できるようにするには、あらかじめ対象となるコンテンツに手作業で注釈を付けておく必要がある」と、IBM Researchのインテリジェント・インフォメーション・マネジメント部門でシニアマネージャを務めるJohn R. Smithはいう。「我々はテキストや手作業の注釈付けなしでもコンテンツを検索可能にしようとしている」（Smith）

　手作業による注記作業はあまりに手間がかかり過ぎる。たとえば、30分のビデオに注釈を付けようとすれば、その解析と分類だけに5時間もかかることになりかねない。

　さらに困ったことに、分類されるべき情報量が爆発的に増えている。UCバークレーが実施した「How Much Information?」という調査によると、2002年に世界中のテレビ局が製作した番組は合わせて1億2300万時間分にもなるという。また、このうち3100万時間を占めたオリジナルの番組（新たに作られたもの）をデータに変換すると、情報量は7万テラバイトにもなる。しかも、このなかには監視カメラや家庭用ビデオカメラで写した映像は含まれていない。

　手作業による注釈付けと対照的に、Marvelはたとえば「屋外」「屋内」「街の風景」「エンジンのノイズ」など、内容を示す修飾語句を使って、ビデオクリップを自動的にカテゴリ分けするように設計されている。

　Marvelの開発に携わる研究チームは、現在各地の図書館や、CNNなどのいくつかの報道機関と協力し、あるプロジェクトに取り組んでいる。同チームは今年8月にケンブリッジ大学で開かれたカンファレンスで、この技術の初めてのプロトタイプを披露した。このプロトタイプでは、200時間を超えるニュース映像を納めたデータベースに検索をかけ、100の異なる記述語を使って、さまざまな場面を分類／特定することが可能だ。IBMでは来年4月までに、記述語の数を1000まで増やしたいと考えている。

　このプロトタイプでは、およそ2、3秒で検索結果が表示される。Marvelはデータ用のMPEG-7フォーマットをベースにしているが、標準的なものならどのフォーマットのビデオでも検索できる。（同社は検索結果の例を公開している）。

　IBMは、Marvelの製品化に関する可能性を説明していないが、まず手はじめに（消費者に向けて売り込むよりも）テレビ業界関係者に公開する可能性が高い。

この記事は海外CNET Networks発のニュースをCNET Japanが日本向けに編集したものです。

海外CNET Networksの記事へ

CNET Japanの記事を毎朝メールでまとめ読み（無料）