「声の装い」は社会課題の解決--AI活用で自分の声を変換するDeNA「七声ニーナ」誕生秘話

佐藤和也（編集部）2021年06月25日 10時00分

　音声変換による“声の装い”は、社会的課題の解決に向けた意義とニーズがある--ディー・エヌ・エー（DeNA）が5月に一般公開した、AIの活用による音声変換サービスのプロトタイプ「VOICE AVATAR 七声ニーナ」の狙いとして語られた。

　七声ニーナは、DeNAが取り組んでいるAIを活用した「音声変換AI」のトライアルとしてリリース。PCやスマートフォンのブラウザ上で、自分の声で話しかけて音声を入力すると、その音声が七声ニーナ（CV：高田憂希）の声に変換されるというもの。最大10秒間の音声に対応している。入力されたユーザーの音声から、話者に依存しない音の情報を抽出し、それをもとにキャラクターの音声を生成。これにより、事前にユーザーの音声を収録をしたり、文字起こしをしたりすることなく、誰の声であっても自然なキャラクターの声に変換することができるとうたっている。

「VOICE AVATAR 七声ニーナ」

　音声変換に関する取り組みや七声ニーナの経緯、またDeNAとしてAIに取り組む理由などを含めて、VOICE AVATARのプロデューサーを務めるゲームエンターテインメント戦略室の岩朝暁彦氏に加え、開発に携わるシステム本部データ統括部AI基盤部の竹村伸太郎氏と、システム本部データ統括部AI研究開発部第二グループの遠藤俊樹氏に聞いた。

DeNAがAIに取り組む根底の意識

――DeNAとして、かねてからAIに関して力を入れて取り組んでいるように感じられますが、その経緯や理由はありますか。

岩朝氏： AIは、インターネットが日本で広がった2000年代と同じぐらいの爆発的なゲームチェンジとなりうるテクノロジーであると、当時の社長（※前代表取締役社長の守安功氏）が考えていて、具体的なゴールの見極め前から、AIに対してしっかりと取り組むという意思決定はありました。そこで仲間づくりをしていって、ビジョンを土台にスタートしたところはあります。

遠藤氏： AIについては、2010年ぐらいにディープラーニングなど出てきたところから、爆発的に進化したので、これを活用することで新しい価値と質を提供できると思って取り組んでます。すでに機械学習はゲームなどに活用されていますし、音声に関わることに関しても音声変換だけではなく、テキストから音声を作るような音声合成の技術も取り組んでまして、その領域でも事業化を図っている段階です。

岩朝氏：映像音声データの機械学習は、これまでの取り組みから、少しずつ形になってきました。事業に直接結びついているものもあれば、前段階の基礎研究として取り組んでいるものもさまざまです。たとえば、映像のところでは、アニメの中割を研究している方がいて、アニメの労働集約的な産業を変えるブレイクスルーと信じて取り組んでいる方もいますし、音声面は、遠藤や竹村のチームが音声合成のところからチャレンジしていました。

　音声技術の領域では、自分の喋る声が美少女の声になるといいというようなニーズがあるはずと思っていて、音声の変換が役立つであろうと、研究開発とサービス化を進めている段階です。技術開発にあたっては、膨大なデータを用いた機械学習をフルに取り入れています。ツールありきではなく、課題や実現したい姿などのビジョンがあって、そこにAIをうまく活用していく、それがDeNAがAIに取り組む根底の意識にあると思います。

ゲームエンターテインメント戦略室の岩朝暁彦氏

「従来型のTTSでは限界がある」--音声変換技術を独自開発した理由

――AIと音声に関わるものでは、表に出ているものに「バーチャル警備システム」（※セコムを中心に開発した、AIの活用による警戒監視などの警備や受付業務ができるシステム）の音声合成技術もあるかと思います。

「バーチャル警備システム」イメージ

遠藤氏：そうですね。音声合成技術を活用して、3Dで映る警備員の音声発話をしています。

竹村氏：バーチャル警備システムに関しても、今回の七声ニーナに活用されているような音声変換の技術が使われています。

――音声認識や発話に関わる技術について、ミドルウェアなどを活用しているのでしょうか、あるいは独自開発なのでしょうか。

竹村氏：音声変換や音声合成については、独自開発です。音声変換のアプローチのひとつとして、クラウドベンダが提供しているような音声認識APIを用いて、音声を文字起こしをしてから、他の話者の声で音声合成するというものがあります。バーチャル警備システムで用いられる、音声合成の品質は成熟しており、期待通りの音声品質は得られるでしょう。ですが、このアプローチでは、前段の音声認識が失敗すると、音声変換そのものがうまくいかなくなるなど課題が多い。そこで、バーチャル警備システムでは、さまざまな工夫によりリアルタイムの音声変換を実現しています。

　原理としては、音声認識をしてからTTS（※「Text-to-Speech」。テキスト（文章）を音声に変換するシステム）相当のことを違うロジックで行ってます。例えば、文字起こしというよりは音符起こしのようなものであるとか、いろんな違いがあります。それをいかに高速で処理しているか、そこが工夫のポイントです。

　今回の七声ニーナはリアルタイム変換をしていませんが、サーバー側で、それぞれの変換処理を受け持つプロセスを一定数事前に用意しておく形式ですと、その数を超えた処理が要求された際に待ち時間が発生するだけでなく、ユーザーが利用されない時間であっても、クラウドのコストがかかります。当初はモバイルアプリでのリリースも検討したのですが、より多くの方に手軽に利用いただける提供形態としてウェブサービスにしました。それにより、10秒という短い時間で準リアルタイムという形でも、高速に七声ニーナの声に置き換わる体験を低コストでお届けできたと思っています。

システム本部データ統括部AI基盤部の竹村伸太郎氏

岩朝氏： SNS上での感想では、TTSを活用していると思われているところもありますし、そちらのほうが、品質が良くなるところもあるにはあります。ただ、七声ニーナについては、音声変換をしても感情表現を感じられるようなもの、そしてまだまだ先ですけど歌うこともできるというような、高い目標を掲げています。それでいくと、従来型のTTSでは限界があるのです。

遠藤氏：音声認識を使ってしまうと、その認識性能の制約に囚われてしまうことを懸念していました。ですので、どんな内容を話しているかだけでなく、どのように話しているか、という情報も処理できるように、単純な音声認識ではないものを使っています。

岩朝氏：普通の言葉使いであれば、音声認識からのテキスト化、そしてTTSを活用する形でも十分です。それとは違うロジックでやっているので、当たり前のことを実現するための苦労というのもありました。でも、新しい技術を持って当たり前にできることを超えて、さらにその先まで目指すために、だいぶプレッシャーをかけてしまったところはあります。当初4月頭にリリースする計画はあったのですけど、品質検証をしてみて、もう少しなんとかしようと。それでリリースが5月になってしまいました。相当苦労をかけたと思っています。

音声データの周波数スペクトル解析図

“声の装い”というニーズと社会課題の解決

――今回の七声ニーナのプロジェクトはどのように立ち上がったのでしょうか。

竹村氏： Delight Boardという部署横断型のプロジェクトのなかで、さまざまなアイデアを募るものがありまして、1000人を超える社員投票により自分の案が採択されたことがそもそものきっかけです。採択された当時は入社1年目だったこともあって、社内での人脈も信用貯金も何もない自分にとっては、大変なところもありましたけど、大きなチャンスでもありました。

岩朝氏：もともとAIチームと一緒に動くビジネスプロデューサーとして、どういう技術があるかは把握してましたし、いろいろな相談も受けていました。そして竹村とDelight Boardの事務局のメンバーから相談を受けたときに、キャラクターIPの立ち上げをやりたいという話があったんです。実際に聞いてみると、AIのエンジニアの2人が頑張っている状態で、AIを活用したIPをやってみたいと。そこで音声技術のなかでも、テキストから音声を作るものもあれば、音声変換もあるし、何をキーフィッターにするか、というところから参画した形ですね。

竹村氏： AIのエンジニア2人だけで、ビジネスプロデュース経験が無い人でスタートしてしまったんですね。そこは本当に岩朝さんに助けられました。

岩朝氏： ……と言ってますが、たぶん大変な人をプロデューサーに迎えてしまったと思われてます。高みを目指すためのプレッシャーをかけ続けたので（苦笑）。

――音声に関わる取り組みを以前からしていたと思いますが、こうした音声変換というものに対して、ニーズがあるというのは感じていたのでしょうか。

遠藤氏：かねてからライブ配信系のサービスが世に出て広まってきているなかで、顔出しして喋ることをいとわない方もいらっしゃいますが、自分で自分の声を聞くことに慣れてなくて、好きになれない方は少なくないです。そこで綺麗な声だったりキャラクターの声に変えたいというニーズは感じられていましたし、そこに音声変換のサービスはマッチするのではないかと。その後に新型コロナの流行によってビデオ会議が多く行われるようになって、そのニーズはより高まったと感じています。

システム本部データ統括部AI研究開発部第二グループの遠藤俊樹氏

岩朝氏：エンジニアとして研究されている方は、そのニーズを敏感に感じていたんです。キーワードとしては“装い”にあると。特に女性であれば化粧をして、理想的な顔の形を見せるという、装いという概念がルックスにあって、自己表現にもなります。でも、声を装うというものが、世の中にないんです。ボイスチェンジャーは匿名性を出すためのフィルターであって、装いではないですよね。

　声の装いというものが、ライブ配信やビデオ会議などのユースケースで求められることは容易に想像できます。不特定多数の人と広く話す機会が増えている現状において、装える手段を提供することは、大きな社会的課題としての意義とニーズがあると。また、エンタメでも活用できると思ってます。VTuberでは声のギャップがかえって魅力という場合もありますけど、その見た目にあわせた声に装いをしたいというものありますし、ゲームでボイスチャットをしているとき、プレイヤーの喋る声がそのキャラクターだと、なおいいじゃないですか。

　今声優の方が人気があって、さまざまなシーンへ活躍の場が広がっているのも、そういった声そのものに対して根源的な魅力があるからだと思うのです。そういった魅力的な声を手に入れる手段があるとするならば、人はそこに対してお金や時間を使うのではないかと推察します。

　DeNAは、技術を活用してエンタメも社会課題解決も取り組む企業でありますから、音声の変換や、音声に対してAIを活用することによる新しいユースケースを生み出すことは、会社のミッションとして重要ですし、ミッションの実現という点で、やるべきことが明確になったのかなと思います。