「声の装い」は社会課題の解決--AI活用で自分の声を変換するDeNA「七声ニーナ」誕生秘話 - (page 2)

佐藤和也（編集部）2021年06月25日 10時00分

“アウトプットの話者性”であるキャラクターの声で発声することの難しさ

――七声ニーナもまだプロトタイプとしていますが、今回の音声変換の取り組みでの苦労点、現状においての課題と感じているところはありますか。

遠藤氏：音声変換で目指すところは、肉声に近い音声を発するというものになりますが、今できているところは、読み上げるような感じとなっています。丁寧に活舌よく話した時には、綺麗に変換されているのですけど、イントネーションなどはまだまだ上手く出せてないところがあります。「はし」（※「箸」と「橋」など）のアクセントの違いとか、感情表現についても、まだまだ棒読みに近いですね。そこに喜怒哀楽が入って表せるようになると、使う用途が増えていくかなと感じています。また、笑い声や泣き声のような、言語的に言葉にしにくいものの表現は、音声変換として弱いところがありますね。

竹村氏：録音環境に左右されているところも課題としてあります。ノイズがひどい環境ですとうまく変換できなところがあります。扇風機やエアコン、あとPCのファンの音というのも、うまく変換できない要因です。ノイズ環境における耐性は、今後の課題ですね。

遠藤氏：今後に向けては、チャットなどではタイムラグがあると会話としてやりにくいところもありますので、リアルタイムに変換して再生することの重要性も増していくでしょう。ただ、処理を早くすれば品質とのトレードオフになりますので、リアルタイム化しつつ品質の担保を図るところを頑張っています。ボイスチェンジャーは単純な信号処理なので、タイムラグはほとんどありません。七声ニーナは、相応に蓄積されたデータを活用するので、処理にかかる時間はどうしても発生します。そのさじ加減が難しいところです。

岩朝氏：七声ニーナに関しては、比較的コストを抑える観点でのアーキテクチャとなっています。10秒分の音声をいただいて10秒分の音声を変換するという仕組みにして、コストをかけず、長く運用するというスタイルです。リアルタイムで本気を出すということは、AIのパフォーマンス向上はもとより、ウェブアプリやクライアントアプリとしての総合的なパフォーマンス最適化が必要になってきます。

　今回の七声ニーナでの取り組みでわかってきたこともそうですし、DeNAであればライブストリーミングサービスもありますし、Mobageやゲームアプリのような大量のトラフィックをさばく技術もありますので、そこを上手く活用しつつ技術的な発展を遂げてリアルタイムな音声変換のハードルを超えていきたいですし、DeNAであれば超えるための材料は揃っていると思います。

――音声変換が、単なる変換ではなくキャラクターの声として発声することの難しさもあると思います。

遠藤氏：音声変換にいろんな手法があるなかで、話している人のイントネーションを残す手法もあるのですが、私たちとしては、目的としている“キャラクターが喋っている”という感覚を出すために、新しい手法を考案することでやっていきました。入力音声の情報が残りすぎて、それに引きずられると話している人のことがわかってしまう。それを極力消すようなパラメータ調整を、トライアンドエラーを繰り返しながらやってきましたね。

岩朝氏：そうですね。“インプットの話者性”と“アウトプットの話者性”のいいとこどりをしつつ、ターゲットとしているアウトプットの話者性を再現するということに相当苦労していました。それがテクニカルな苦労ですね。

　あと七声ニーナが喋っていると感じられる工夫としては、UX面での工夫の力を借りているところもあります。本来であれば、ボイスコンバーターやボイスチェンジャーのアプリで、キャラクターが喋ってるときに表情やしぐさを変える必要性はありません。でも、可能な限りキャラクターが話しているというユーザー体験の見せ方にこだわって、キャラクターが表情をコロコロ変えたり、しぐさを見せるものにしました。

七声ニーナをタップ（クリック）すると反応するほか、サイトを開いたままでもさまざまな反応を示す

――七声ニーナをタップ（クリック）すると反応もするなど、システマチックなテストサイトというよりは、インタラクションがあるエンタメ体験も提供しているように思います。

岩朝氏：七声ニーナがあなたの声を聞いて、そして喋ってくれて、それであってますか？と問いかけて、さらにGOODやBADの反応もある。現状の音声変換の品質が悪く出てしまうところもあるのですけど、それで七声ニーナが「あなたが悪いんじゃないの」ぐらいのことを言わせて、ちゃんとしゃべらないといけないと気づかせる。そして上手くしゃべってくれて、GOODがあると喜ぶ。こういったインタラクションがあることで、音声変換の体験をシステマティックなものではなく、前向きに楽しんでもらえるものになると思います。

こちらから喋るときは、耳を傾けてくれる

変換した音声を再生するときも、七声ニーナがしゃべっているようなしぐさを見せる

変換した音声再生後は、それが「GOOD」か「BAD」か問いかける

――その音声変換をしたあと、GOODやBADをユーザーが評価するところもありますが、このデータは取得しているのでしょうか。

岩朝氏：取得しています。実際、BADが多いのが事実としてあります。ただ過去の経験においては指標として2つがあると考えてます。まずは品質の指標として、こういった体験が一般化してないことと、自分が認識した音声の精度を図るものがないため、ショックを受けたことを含めてBADをつけてしまうことがあります。もうひとつは納得度です。自分がうまく喋って音声変換もうまくいったと感じたとき、サービスの質ではなく、自分がうまく使いこなしたという意味でのGOODをつけます。今の段階ではまだ日が浅いのでBADが多いのですけど、自分自身が慣れてきてGOODが増えていくと思って数値を見ています。

「GOOD」か「BAD」を選択すると、それに応じた反応を示す

七声ニーナは「プロトタイプだからポンコツ」--キャラとしての整合性

――キャラクターとしての七声ニーナについては、どのような考えがあって生み出されたかを教えてください。

岩朝氏：そもそもAIが完璧なもので、魔法レベルな完成度だとどんなキャラクターでもマッチすると思います。でも「ハッカドール」（※かつてDeNAが提供していた、アニメやゲームに特化したニュースアプリ。岩朝氏は同サービスの起案者で初代プロデューサー。キャラクター設定なども担当）のときもそうでしたけど、まだ不完全な状態があるという前提としたとき、キャラクターとして整合性を持たせるとなると、ポンコツな感じじゃないとマッチしないだろうと。

　ハッカドールのときには「ポンコツだけどオタクだから許して」みたいなスタンスだったのですけど、七声ニーナは「プロトタイプだからポンコツ」というスタンスにしてます。実際に成長もしますから。ハッカドールの流れを引き継いでいますけど、プロトタイプだから上手くいかないこともある、それが許容されるキャラクター性が根幹にあります。

　性格については、現状では抑揚表現が凄く小さいこともあって、低体温気味なキャラにするとマッチするかなと考えました。喜怒哀楽がハッキリしすぎてくると、音声変換後に出てくる声の表現の幅が合致せず整合性がとれなくなるので、ロボっぽい女の子がいいということになりましたね。そして、カラーリングやデザインモチーフもハッカドールを多少なりとも引き継いだほうがいいだろうと。そこでキャラクターのイメージは固まりました。

七声ニーナ

タップ（クリック）したときには、こうした反応も

――七声ニーナのキャラクターボイスとなっている、声優の高田憂希さんを起用した理由はありますか。

岩朝氏：声優に関しては、まず甲高い声になってしまうと音声出力の段階でミスをしている感覚が出やすくなるというのがありました。なので若々しくて元気過ぎない、透明感のある声がいいという考えがあって。さまざまな話し合いのなかで、高田憂希さんがいいのではと。これまで演じられたキャラクターは、比較的等身大の女の子としての声幅で、さらに声優らしい透明感があると感じています。

　こうした合成音声や音声変換に関するボイスについては、声優の方や事務所が難色を示すこともあるのですけど、幸い高田さんの所属事務所の方とはDeNAとしてもやり取りをさせていただくことがあり、お互いにIT業界を理解してくださっていることもあって、快諾をいただきました。

――収録はどの程度かかったのでしょうか。また、そこでの苦労点はありましたか。

岩朝氏：現時点で組み込まれているのは2000ワードぐらいで、AIチームから可能であれば欲しいと要望されたワード数です。ただ、表現の検証や将来的な発展も含めて、実際にはより多くのワード数を収録していて、時間もかけました。

　ディレクションについては、アニメらしい感情表現がはっきりした喋り方ではなく、国語の教科書朗読しているような、一般人の芝居の幅の感覚にしつつ、あまり棒読みにならないようにしてほしいとお伝えしました。少し気持ちがのるけど、そこまで思いきった感情表現にはならないというのが、普通のユーザーの感情表現の幅だと思っていたので。「感情を抑えて」と言ったり、抑えすぎると「もう少し出して」と言ったり……と、何度も指示をだしていたので、すごく苦労されていましたし、この場を借りてご苦労をおかけしましたとお伝えしたいです。