> >

グーグル、カクテルパーティ効果を発揮するマシン--ビデオから特定話者の声だけ抽出

佐藤信彦2018年04月12日 15時11分

　Googleの研究部門であるGoogle Researchは、複数の人が話すビデオから特定の1人の声だけ抽出する技術を開発した。人間が持つ能力“カクテルパーティ効果”を、ディープラーニング（深層学習）システムを使って実現させたもの。

カクテルパーティ効果を発揮するマシン（出典：Google）

　カクテルパーティ効果とは、大勢の人がカヤガヤ話しているパーティ会場のような騒音に囲まれた環境でも、人間なら特定話者の声に集中して話している内容を確実に把握できる現象のこと。人間は苦もなく騒音のなかから必要な話し声を選択して理解するのだが、人工的な音声処理システムでは実現困難だという。

　Google Researchは、人間の話すようすを撮影したビデオを利用することで、この問題の解決を図った。複数の人が話すビデオの音声データと映像データを並行して解析し、例えば話者の口の動きを参考にすることで該当する音声データの分離に成功した。複数の人が発声し、時には声が重なるような場面でも、聞きたい人の声だけを選んで再生することができる。