日立製作所中央研究所(福永泰所長)は4月20日、隣り合う人が同時に話す 音声を聞き分ける音声処理技術を開発したと発表した。
複数のマイクロホン(マイク)素子を使って音の発生位置(音源位置)を瞬 時に高い精度で測定する技術と、特定の方向からの音声だけを抽出する技術に よって実現したもの。この技術を用いることで、マイクから1-2m離れた複数の 人の音声を聞き分けたり、周辺の雑音を取り除いて特定の音声だけを抽出でき たりするので、テレビ会議での雑音の除去や、雑音の多い環境での音声認識精 度の向上のほか、複数のマイクで録音したビデオ映像の中から特定の人の音声 だけを抽出することが可能。
具体的には、一瞬で高精度に音源位置を測定する「近接音源定位技術」によ って、近接した音源に対して位置を推定する性能が向上した。また、突発的な 雑音を選択的に除去する「空間音声フィルタリング技術」は、音源位置の推定 結果から、雑音領域内に音源が存在した場合、その方向に物理的に音声の死角 を生成することで、雑音領域内で発生した音声を抑制する。
同社は、「近接音源定位技術」の性能を検証したところ、一般的なオフィス 環境で音源がマイクから1-2m程度の場所にある場合、水平・垂直方向ともに10度の間隔の音源位置を識別して測定できることを確認した。また、水平方向が 20度の間隔で2人が同時に発声した場合、各個人の発声内容だけを抽出できる ことが確認できたという。
CNET Japanの記事を毎朝メールでまとめ読み(無料)
ZDNET×マイクロソフトが贈る特別企画
今、必要な戦略的セキュリティとガバナンス
ものづくりの革新と社会課題の解決
ニコンが描く「人と機械が共創する社会」