演技表現の再現を容易にする音声合成ツールの可能性--「Voice Track Maker」開発者に聞く

佐藤和也（編集部）2021年11月12日 08時30分

　東芝デジタルソリューションズが8月にリリースした、音声合成ツール「Voice Track Maker」。同ツールにおける開発の経緯や狙い、そして音声合成技術領域におけるこの先の展望などについて、立案者であり開発の中心人物である東芝デジタルソリューションズ ICTソリューション事業部リカイアス技術部参事の倉田宜典氏に聞いた。

　Voice Track Makerは、ゲームやコンテンツを制作するクリエーター向けの音声合成ツール。特徴となるのが、人の音声の抑揚とテンポの情報をその場で分析、合成音声に真似させて発声させることができる「韻律射影機能」を搭載していること。これにより、従来の音声合成技術における感情表現機能では難しいとされている、さまざまな演技表現を再現することが容易になるとうたっている。

「Voice Track Maker」

　倉田氏は長年ソニーに在籍し、エンターテインメントロボット「AIBO」や、対話可能な自律型二足歩行ロボットの試作機「QRIO」のアプリケーションディレクターなどを手掛けた経歴を持つ。2015年にソニー・ミュージックコミュニケーションズ（現ソニーソニー・ミュージックソリューションズ）からリリースしたAndroidアプリ「めざましマネージャー」シリーズの開発に参加し、キャラクターの声を、声優の声をもとにした音声合成技術を使って再現する取り組みを開始。「Xperia Ear」のボイスアシスタントにおける音声応答技術開発や、共同通信デジタルとソニーが共同開発した、バーチャルアナウンサー「沢村碧」が喋る情報読み上げ動画作成システム「アバターエージェントサービス（現CHELULU Lite）」における企画・技術開発も手掛けていた。

　倉田氏はこれまでも、東芝デジタルソリューションズのRECAIUS音声合成ミドルウェア「ToSpeak」を活用してアプリやツールなどを開発しており、今度は提供側に移って手掛けたのがVoice Track Makerとなる。

東芝デジタルソリューションズ ICTソリューション事業部リカイアス技術部参事の倉田宜典氏

Voice Track Makerで入れたかった“演技っぽい”喋りをする機能

　開発の背景として、まず過去にキャラクターの声を合成音声化する際、キャラクター要素がなく喋るのとは違い、イメージを損なわない“キャラクターらしさ”が求められるため、多大な労力がかかったことを振り返る。そこは制作側もこだわりや“キャラ愛”で乗り越えたところもあるが、ビジネスとするためには労力の低減が必要と考えていたという。こと、コンテンツ業界は“好き”で支えられている状況が少なからずあり、そこを解消したいという思いが根底としてあるという。

　また、当時から東芝デジタルソリューションズ側とも話し合いながら活用していたが、調整したい箇所があってもできない、“かゆいところに手が届かない”状況もあったという。そしてそれは技術革新を待つまでもなく、ツールなどをしっかり作って提供すれば可能と倉田氏は考えていたが、外部の立場から要望してもその声の少なさから取り入れられなかったという。

　そして入社後にVoice Track Makerの企画を立ち上げ、ツールの仕様周りについても倉田氏が中心として決めていく形で、開発が進められたという。

　導入したかった機能のひとつに、前述した韻律射影機能がある。倉田氏によれば、そもそも人の声の韻律を利用して合成音声の表現を調整する技術自体は、2000年代初頭からあったと話す。ただ、当時は韻律の分析と、波形の確認はできるが、合成音声を自動であわせこむことはできず、目視でラベリングをして、調整を行っていたという。Voice Track Makerでは、新たにAIを活用して開発した機能によって、ガイドとなる韻律に自動で近付けることが出来るため、“表現真似”や“演技っぽい”ことが簡単にできるようになったという。

Voice Track Makerによる合成音声に演技要素を加える手法

　「例えば焦っているときの喋り方や、元気がないときの喋り方は、喜怒哀楽などで分類される感情表現とは微妙に異なったりする。わかりやすい喜怒哀楽の感情表現を付けられる音声合成システムは、自社を含めてあるが、会話の流れのなかで違和感のない音声を合成する場合は、実際にはもっと複雑なパラメーターをうまくコントロールをしないと、期待した音声にはならない。アナウンサーが読むニュースであっても単に1文1文をきれいに読んでいるわけではなく、前後関係や残り時間などを瞬時に考え、聞いている人が理解しやすいように、始まりや終わりにキーを少し上げたり強めの抑揚を付けることがある。そういった細やかな表現をするために、さまざまなタグを使って調整するのは大変であるし、そのようなTPOに合わせた合成音声を自動生成するのは難しく、現在のAIの技術を駆使したとしても実現まではもうしばらく時間がかかる。それであればガイド音声のようなイメージで、人が喋って真似させる形にすれば、短時間で思い通りの合成音声表現を容易に制作できるようになる」（倉田氏）