何度も挫折を乗り越えて「声」に辿りついたコエステ金子氏--東芝から合弁会社を立ち上げ - (page 2)

藤井涼 (編集部) 日沼諭史2020年12月24日 08時00分

東芝の「外に出す」ために上層部全員を説得

——コエステというサービスについて改めて教えていただけますか。

 コエステは、声の主となる人にいくつかの文章を読んでもらうと、それを元にAIが声の特徴を学習して、あとはテキスト入力するだけでその声で何でもしゃべらせることができるという技術を活用した声の新しいプラットフォームです。音声合成というと、どうしてもロボットのような無機質な、片言で抑揚もないイメージがありますが、ベースとなっている東芝の「似声」の技術ではそういう不自然さがなく、感情表現まで可能です。

 人の声の特徴をAIが学習すると「声のもと」みたいなものができあがります。僕らはそれを「コエ」と呼んでいるんですが、そのコエさえできてしまえば、あとはそれを音声合成のエンジンにセットするだけ。一般人から有名人まで多くの人の声を集めて、それを音声合成のツールとコエの“利用権”をセットにして企業に提供し、利用料をいただくというビジネスモデルです。

キャプション
キャプション

 タレントさんのコエを作る場合は、3時間ほどスタジオにこもっていろいろな文章を読んでいただきます。その作業が終われば声のもとができあがるので、以降は本人が稼働する必要はありません。コエが利用された分だけ、その声の主であるタレントの方にも売上が還元されるので、タレントさんにとっては自分のデジタルボイスという新しい価値を生みだしてそれをライセンスする新たなビジネスになります。

——コエステの技術は、具体的にどのような用途で活用できるのでしょうか。

 わかりやすいところではカーナビ、スマートスピーカー、オーディオブックなどです。好きなアイドルがカーナビでナビゲーションしてくれる、ということが簡単に実現できるようになります。デフォルトの音声は無料だけど、200円課金すれば好きな人の声が選べます、みたいなビジネスも考えられますよね。

 また、「コエステーション」というiPhoneアプリで誰でも簡単に自分の声を登録できます。たくさんのコエが集まっていくことで、いずれはおじいちゃんが毎朝のニュースを孫の声で聞きたいなと思ったときにそれが実現できたり、ゲームの主人公を自分の声でしゃべらせたり、SNSで届いたメッセージを相手の声で読み上げたり、といったことも可能になります。

キャプション

 3〜4人でテキストチャットしていたとしても、イヤホンを装着すればそれぞれのメッセージを本人の声で読み上げて、画面を見ずに会話を把握することも可能になるでしょう。普通の音声合成だと、いちいち「誰々さんからのメッセージです」という一言が必要になりますが、コエステなら全部本人の声なので説明不要ですよね。音声インターフェースの世界はこれからも広がっていくでしょうし、その時にみんなの声を持っていることがすごく重要になってくる気がしています。

——コエステを立ち上げるまでにはいろいろと苦労もあったかと思いますが、どのようなステップを踏んできたのか教えてください。

 2016年6月ごろに企画の骨子がある程度固まってきたところで、課長にまずプレゼンをし、部長にプレゼンし、事業部長にプレゼンし、隣の事業部長に話をし、統括技師長に話をし、社長に話をし、ようやく全員から承認をもらえて開発費が出る、というプロセスを数カ月かけて突破しました。

 その中でも企画自体をブラッシュアップできたので良かったなと思うのですが、結局開発に着手できたのは2016年の年末でした。ただ、最初のころから「この事業を展開するのであれば東芝の社内に置いているとうまくいかないから外に出したいです」とずっと言っていました。

 理由の1つは、東芝は技術は持っているけれどエンタメ分野に強みやノウハウがあるわけではないからです。コエステを流行らせるためには有名人の声をたくさん集めて、それを流通させられる体制を作っていかなければなりません。でも、そのパイプがあるわけでもないので、得意なところとタッグを組みたいと思っていました。

 もう1つは、東芝が非常に品質基準の高い会社であることです。原子力発電所や、証券会社の基幹システムを作っていたりするので、基本的な品質基準はそれに寄っているんですね。ISO認証も取得しているので、コエステだけ治外法権で軽くやる……ということはできないんです。

 品質基準が高いのはいいことですが、コエステのようなサービスにはマッチしません。東芝が40年以上前から研究開発している音声合成のコア技術をベースにするので、知財の観点からはやすやすと外に出せないといった事情もありましたが、東芝の社外に事業を出すことを前提で立ち上げていこう、という大方針を握ることはなんとかできました。

 そうしてエイベックスという、エンタメに強みもあり、芸能系とのコネクションもあり、さらにオープンマインドを持つ会社と一緒に立ち上げられることになりました。新しいことにもすごく積極的な会社で、意気統合でき、2020年2月に合弁会社を設立することができました。

——合弁会社として異なる文化の企業社員が一緒になるにあたり、新たな気づきや障害になったことはありましたか。

 現在、メインメンバーは10人ほどで、半分が東芝からの出向、半分がエイベックスからとなっています。エイベックスからのメンバーが新規事業担当だったこともあって、ITリテラシーは高いですし、思ったほど文化や知識範囲の違いは感じていないですね。むしろ東芝よりスピード感をもって取り組む下地があるので、すごくいい環境だと思っています。

 東芝からの出向メンバーは主に技術面を担当しているのですが、そういう技術側からすると思いつかないようなエンタメでの活用方法がエイベックス側のメンバーだと発想できたり、すぐにエイベックスの別の部署に話をつけて進めてみる、みたいな動きがポンポン出てきたりします。

 もちろん東芝側の技術がなければスタートできないことではあるのですが、エイベックス側からすると、そういった技術の“タネ”がなかったから思いついていなかっただけで、“タネ”さえあればいろいろなアイデアがどんどん出てくる感じがある。テクノロジーとエンタメがきれいに融合しているなと思いますね。

キャプション

声のもとで別言語もしゃべらせられる「クロスリンガル」も目指す

——実際に、コエステの技術を活用したサービスや事例などがあれば教えてください。

 シャープマーケティングジャパンさんが「コエ付きプリント」を10月にローンチしました。もともとシャープさんは全国のコンビニにマルチコピー機を納入していて、そこでアイドルのブロマイドを印刷できるサービスを提供されているんですが、その発展形としてブロマイドに音声メッセージも付けられるといいよね、ということで始まったものです。

 ブロマイドをコンビニのマルチコピー機で印刷するとQRコードも出力されて、そのQRコードをスマートフォンで読み取ると、自分の名前で呼びかけてくれるメッセージを音声で聞けるというものです。やろうと思えば店舗や季節によってメッセージ内容を変えることも可能ですし、コンプリート欲が湧いて全部回ってみようかな、と思ってもらえるかもしれませんね。名前を呼んだり店舗や季節によってメッセージ内容を変えたりすることは、収録音声では実現困難なことであり、コエステならではの強みをうまく使った好事例だと思います。

 あとはコロナの影響もあって、接客を無人にしたい店舗からのニーズが高くなってきています。店内放送やeラーニングも多いですね。社内研修であっても人を集めることができないのでeラーニング化が進んでいて、とはいえただテキストが流れるだけでは集中してもらえない。そこでeラーニングに動画をつけようとしたときに、ナレーションでコエステを利用できないかといった相談をとても多くいただきます。

 今、表に出ているその10倍の数の案件が水面下で動いているような状況です。

——事業が順調に拡大しているわけですね。ちなみにコエステでは声の主のしゃべり方の癖や方言も再現できるのでしょうか。

 ニュースキャスターがニュースを読み上げるような感じで淡々としゃべらせる分には、もう相当なレベルになっていると思っています。僕が講演で2つの音声を流して、どちらがコエステの音声合成で、どちらが生声かを当ててみてください、と参加者に問いかけても半々に分かれるくらいには違和感がありません(サンプルはこちら)。

 感情表現についても世界トップレベルかなと思うのですが、それでもまだまだ声優さんや俳優さんの演技のレベルには届いていないですし、どうしてもぎこちなくなります。そこはこれからも発展の余地があるところですね。自然にしゃべらせるだけじゃなく、感情表現をはじめさまざまに表現の幅を広げる方向でも研究しているところです。

——そのほか、今後の計画として話せるところがあれば教えてください。

 音声合成の質を高める活動は粛々とやりつつも、優先度が高いのは海外展開ですね。コエステの技術は言語依存が大きくて、言語ごとにしっかりモデルを作らないとならないですから、海外展開がすぐにできるものではありません。コエステのコア技術は11言語に対応しているのですが、日本語以外の言語では使えない機能などもあるので、まずは今の日本語のレベルに他の言語を引き上げようとしています。

 まだ研究段階なのですが、「クロスリンガル」もいずれは可能になると考えています。現在は日本語の声のもとで日本語をしゃべらせることができるし、英語の声のもとで英語をしゃべらせることもできますが、クロスリンガル技術が確立すれば日本語の声のもとを使って他の言語でしゃべらせられるようになります。

 日本の声優さんが日本語で声のもとさえ作ってしまえば、その声でドイツ語でも中国語でもフランス語でもしゃべらせられるんですよ。そこまでいくとまたもう一段面白いことができるなと。演技のレベルという意味ではまだアニメは難しいんですが、将来的には人気のアニメ声優のそのままの声で全世界に展開することも容易になるかもしれません。

CNET Japanの記事を毎朝メールでまとめ読み(無料)

-PR-企画特集

このサイトでは、利用状況の把握や広告配信などのために、Cookieなどを使用してアクセスデータを取得・利用しています。 これ以降ページを遷移した場合、Cookieなどの設定や使用に同意したことになります。
Cookieなどの設定や使用の詳細、オプトアウトについては詳細をご覧ください。
[ 閉じる ]