演技表現の再現を容易にする音声合成ツールの可能性--「Voice Track Maker」開発者に聞く - (page 2)

佐藤和也（編集部）2021年11月12日 08時30分

ゲームへの合成音声は、主役クラスは難しくともNPCでは活用できる可能性

　倉田氏はこれまでのコンテンツ業界における音声合成技術は、イノベーター層向け産業の領域にあったと振り返る。たどたどしい音声であっても、技術の目新らしさや製品としての立ち位置が新しくてイノベーティブだから、という理由で使われてきたと説明する。しかしながらこの10年の経過するなかで、自身の印象としても、業界的な空気としても合成音声は当たり前のものとして受け入れつつあり、その先を見据えた取り組みを行うタイミングが今としている。

　「すでに情報伝達を目的とした合成音声であれば、違和感なく聴くことができるレベルにある。例えば目の見えない方や、声が出せない方といった音声を必要不可欠なものとされる方向けに提供するというところから、次の進化が求められているタイミングにある。合成音声にしてキャラクターの声に似ていて驚く、というところにとどまるのではなく、そのキャスト（声優）の代わりに、ときどき働いて助けてあげるぐらいの状況にならないと、コンテンツ業界において、本当の意味で合成音声が使われていると言える状況にならない」（倉田氏）

　実際にゲーム会社などの関係者にヒアリングを行うと、魅力的なキャラクターを届けることを重視してビジネスしていることから、合成音声を使う意味が見出せなければ使わないという話しになるという。

　「話をしていて実は重要だとわかったのは“短時間で制作できるか？”ということ。金銭的に最初は多少コストがかかっても、そのあと短い時間でどれだけ新しいセリフが制作できるかが重要。人間の声で収録したほうが、魅力的になって早いとなれば採用されないのは明白。そこを乗り越える必要がある」（倉田氏）

　一方で、例えばゲームの進化によって、メインとなるキャラクターだけではなく、多数のNPC（ノンプレーヤーキャラクター）がしゃべるようになってきているが、その台詞ひとつひとつを大人数の声優で収録する労力を削減したり、ガイドアナウンスやナレーションのような領域で活用していくことは考えられる余地もあるという。特に、小規模のインディーゲームであれば予算を音声収録にかけにくいこともあるため、今の段階でも需要が見込めるところがあるという。

　「声優が全力で演技をする主役クラスでの活用は、まだまだ難しいのが本音。ただメインキャラクターは人間だけど、周囲のキャラクターを合成音声で発声させる可能性は、今の段階でも十分にある。そのため新しい技術やツールの開発をVoice Track Makerを含めて各社が頑張って、クリエーターが求めているレベルにたどり着こうとしている」（倉田氏）

音声合成技術の進化にともなう“声の権利”や声優への配慮も考える時期

　音声合成技術の進化が今後も進んでいくことを考えたとき、“声の権利”と呼ばれるものや、いわゆる“声優の仕事を奪うのではないか”という不安にも配慮していく必要があるという。倉田氏は、これまでは声優や事務所に対して、音声合成技術では演技ができないため仕事には干渉しないという説明をしていたというが、そのままでは活用シーンが限られるうえ、その先の発展も抑制することになると指摘。

　Voice Track Makerでは、声の素と言える「声辞書」について、販売や製品に組み込むといった場合に「声辞書貢献分」と呼ばれる、活用された度合いに応じて、声の素となった人（声優など）に、売り上げを分配するスキームを構築。そのプロセス作りには、デジタルボイスパレット（※電通と声優プロダクションの81プロデュースが、2018年に設立した一般社団法人。音声合成技術の活用促進にあたり、人が自身の声を発することに対して権利を有することを証明する“発声権”の普及や整備などを目的としている）とも相談しながら進めているという。

　「Voice Track Makerでは“演技っぽいことをする”というところまで踏み込んでいることもあり、関係者への事前説明や契約も丁寧に行う必要があると考えている。我々が商売したら誰かが困る、奪っていくということがないように、関係者とのコミュニケーションが重要となってくる。将来的には権利や環境整備などアップデートされていくものだと思うが、プロの声優が、はるかに高いレベルにあって代替できない存在であるのは当然という一方で、現在はスキマである合成音声のビジネス領域が将来大きくなった際、気が付いたら仕事がAIに奪われているこということがないように、ちゃんと考える必要がある」（倉田氏）

東芝デジタルソリューションズ ICTソリューション事業部リカイアス技術部参事の倉田宜典氏

話題性よりも、こだわりを持った作り手から選ばれて使われるツールに

　倉田氏は、近年においてYouTubeをはじめとした動画配信にコンテンツ消費の中心軸が変化していること、それにあわせて動画の制作や編集に取り組む人が劇的に増えていると推察。そうしたところに音声合成技術は、必要な道具になりえる可能性を秘めているという。

　そして、使い手となるようなクリエーターが面白がって新しいものを生み出してくれるかどうか、そしてその作品を超えようとするクリエーターが現れる循環が必要とも語る。歴史的に見ると歌声の領域でボーカロイドがそれを実践してきたが、歌と喋りは技術的にも活用領域的にも異なっている。そんななかでも、今までなかった音声合成技術の市場や価値を生み出せるまで高められるかが勝負とし、クリエーターの思いをのせられる道具を提供していきたいと語る。

　「バーチャルアナウンサーを作って、合成音声で喋るということでネットニュースで話題になって、Twitterでもトレンドに載ったのが5年前。でも多数のVTuberが存在する今ではバーチャルなキャラクターを出しても珍しくなく、音声合成技術も“ゆっくり”（※音声合成ソフトを活用してテキストを読み上げ、「東方Project」のキャラクターがゲーム実況や解説を行う動画のこと）で若年層にもなじみがある。そうした状況の変化を前提に、Voice Track Makerは一過性の話題よりも、きちんと使われるツールであること、こだわりを持った方が普通に使ってもらえるものであることをゴールにしたい」（倉田氏）

　東芝デジタルソリューションズは、BtoBのソリューション中心に、基本は“お堅い”法人同士のビジネスを行っているが、Voice Track MakerはBtoBtoCで、クリエーターやその先にあるユーザーに近い立ち位置にあるため、個人領域の顧客でも入手できる環境をできるだけ整えたという。さらに今後は、倉田氏自らエバンジェリスト的な立ち位置で表に立ち、リアルな場はもちろんのこと、YouTubeやTwitterやオンラインコミュニティを通じてクリエーターに訴求、適切なコミュニケーションを取ってサポートをしていきたいとしている。

　「例えるなら、3DCGが黎明期に多大なコストをかけて制作されていたものが、今は生身と人間と区別がつかないクオリティのものを個人レベルのクリエーターがロープライスで制作できるようになったことで、当たり前の存在になってきた。合成音声がそこまでの領域までたどり着けるかどうかはさておき、同様の進化の過程を追いかけているのが声の領域だと思う。そしてその階段を、弊社も含めていろんな会社が挑戦しているのが今の状況。Voice Track Makerはそこに一石を投じるものであるし、普及を図りつつ、さらなる挑戦もしていきたい」（倉田氏）