logo

グーグル、カクテルパーティ効果を発揮するマシン--ビデオから特定話者の声だけ抽出

  • このエントリーをはてなブックマークに追加

 Googleの研究部門であるGoogle Researchは、複数の人が話すビデオから特定の1人の声だけ抽出する技術を開発した。人間が持つ能力“カクテルパーティ効果”を、ディープラーニング(深層学習)システムを使って実現させたもの。


カクテルパーティ効果を発揮するマシン(出典:Google)

 カクテルパーティ効果とは、大勢の人がカヤガヤ話しているパーティ会場のような騒音に囲まれた環境でも、人間なら特定話者の声に集中して話している内容を確実に把握できる現象のこと。人間は苦もなく騒音のなかから必要な話し声を選択して理解するのだが、人工的な音声処理システムでは実現困難だという。

 Google Researchは、人間の話すようすを撮影したビデオを利用することで、この問題の解決を図った。複数の人が話すビデオの音声データと映像データを並行して解析し、例えば話者の口の動きを参考にすることで該当する音声データの分離に成功した。複数の人が発声し、時には声が重なるような場面でも、聞きたい人の声だけを選んで再生することができる。

騒音に埋もれた重なる2人の発声を分離(出典:Google/YouTube)


音声データの分離は口の動きなどを参考にする(出典:Google)

 この技術と音声認識技術を組み合わせれば、話者ごとに分けたキャプションをビデオへ自動出力するシステムが構築できるだろう。会議や騒がしい環境での会話を撮影したビデオに対する後処理で活躍しそうだ。

-PR-企画特集