マサチューセッツ工科大学(MIT)の研究チームは、種類の異なる複数の楽器が演奏されるビデオを解析し、特定楽器の音だけ抽出する技術「PixelPlayer」を開発した。
この技術は、チェロとギター、サクソフォーンとギター、トランペットとチューバ、ギターとバイオリン、ギターとクラリネット、フルートとマリンバなど、異なる楽器が同時に演奏されるモノラル録音ビデオを解析し、選択されたどちらか一方の音だけを出力する。
しかも、映像内で楽器の位置を認識しており、映像上でクリックされた楽器の音を抽出できる。以前紹介した、複数人の話すビデオから特定話者の声だけ抽出する技術の楽器版といえる。
デモンストレーション用システムには、あらかじめソロ演奏やデュエット演奏のビデオを大量に与え、楽器を区別できるよう学習させた。その際、楽器の位置や音に関する情報はシステムに与えない、いわゆる「教師なし学習」とした。
このシステムの動作は、PCのウェブブラウザで発表ページにアクセスすると、画面上で実際に確認できる。たとえば、チェロとギターが同時演奏されているビデオに対して、チェロの部分をクリックするとチェロの音、ギターの部分をクリックするとギターの音だけが再生される。
PixelPlayerの紹介ビデオ(出典:MIT/YouTube)
CNET Japanの記事を毎朝メールでまとめ読み(無料)
ZDNET×マイクロソフトが贈る特別企画
今、必要な戦略的セキュリティとガバナンス
ものづくりの革新と社会課題の解決
ニコンが描く「人と機械が共創する社会」