> >

グーグル、カクテルパーティ効果を発揮するマシン--ビデオから特定話者の声だけ抽出

佐藤信彦2018年04月12日 15時11分

　Googleの研究部門であるGoogle Researchは、複数の人が話すビデオから特定の1人の声だけ抽出する技術を開発した。人間が持つ能力“カクテルパーティ効果”を、ディープラーニング（深層学習）システムを使って実現させたもの。

カクテルパーティ効果を発揮するマシン（出典：Google）

　カクテルパーティ効果とは、大勢の人がカヤガヤ話しているパーティ会場のような騒音に囲まれた環境でも、人間なら特定話者の声に集中して話している内容を確実に把握できる現象のこと。人間は苦もなく騒音のなかから必要な話し声を選択して理解するのだが、人工的な音声処理システムでは実現困難だという。

　Google Researchは、人間の話すようすを撮影したビデオを利用することで、この問題の解決を図った。複数の人が話すビデオの音声データと映像データを並行して解析し、例えば話者の口の動きを参考にすることで該当する音声データの分離に成功した。複数の人が発声し、時には声が重なるような場面でも、聞きたい人の声だけを選んで再生することができる。

騒音に埋もれた重なる2人の発声を分離（出典：Google／YouTube）

音声データの分離は口の動きなどを参考にする（出典：Google）

　この技術と音声認識技術を組み合わせれば、話者ごとに分けたキャプションをビデオへ自動出力するシステムが構築できるだろう。会議や騒がしい環境での会話を撮影したビデオに対する後処理で活躍しそうだ。

CNET Japanの記事を毎朝メールでまとめ読み（無料）

グーグル、URL短縮サービス「goo.gl」終了へ--4月13日から新規短縮が一部不能に 2018年04月03日 11時43分
AbemaTV、GoogleのDaydreamに対応--VR空間内の大画面で動画視聴が可能 2018年03月29日 18時33分
「Google Home」、Bluetoothスピーカとペアリングして音楽再生が可能に 2018年03月29日 08時19分
Ziddyちゃんの「私を社食に連れてって」：Pivotalの朝食で1日のエネルギーをチャージ編 2018年01月26日 11時45分

-PR-企画広告

心と体をたった1分で見える化
働くあなたの心身コンディションを見守る
最新スマートウオッチが整える日常へ
プライバシーを守って空間を変える
ドコモビジネス×海外発スタートアップ
共創で生まれた“使える”人流解析とは
ひとごとではない生成AIの衝撃
Copilot + PCならではのAI機能にくわえ
HP独自のAI機能がPCに変革をもたらす

企画広告一覧

ZDNET Japan 注目ヘッドライン

編集部おすすめの記事

人気の記事

CNET Japan（Facebook窓）

このサイトでは、利用状況の把握や広告配信などのために、Cookieなどを使用してアクセスデータを取得・利用しています。これ以降ページを遷移した場合、Cookieなどの設定や使用に同意したことになります。
Cookieなどの設定や使用の詳細、オプトアウトについては詳細をご覧ください。
[ 閉じる ]