Googleの研究部門であるGoogle Researchは、複数の人が話すビデオから特定の1人の声だけ抽出する技術を開発した。人間が持つ能力“カクテルパーティ効果”を、ディープラーニング(深層学習)システムを使って実現させたもの。
カクテルパーティ効果とは、大勢の人がカヤガヤ話しているパーティ会場のような騒音に囲まれた環境でも、人間なら特定話者の声に集中して話している内容を確実に把握できる現象のこと。人間は苦もなく騒音のなかから必要な話し声を選択して理解するのだが、人工的な音声処理システムでは実現困難だという。
Google Researchは、人間の話すようすを撮影したビデオを利用することで、この問題の解決を図った。複数の人が話すビデオの音声データと映像データを並行して解析し、例えば話者の口の動きを参考にすることで該当する音声データの分離に成功した。複数の人が発声し、時には声が重なるような場面でも、聞きたい人の声だけを選んで再生することができる。
この技術と音声認識技術を組み合わせれば、話者ごとに分けたキャプションをビデオへ自動出力するシステムが構築できるだろう。会議や騒がしい環境での会話を撮影したビデオに対する後処理で活躍しそうだ。
CNET Japanの記事を毎朝メールでまとめ読み(無料)
住環境に求められる「安心、安全、快適」
を可視化するための“ものさし”とは?
ZDNET×マイクロソフトが贈る特別企画
今、必要な戦略的セキュリティとガバナンス
ものづくりの革新と社会課題の解決
ニコンが描く「人と機械が共創する社会」