rinnaは12月1日、同社が開発を進めているAIチャットボットにおいて「多話者多言語音声合成」を実現したと発表。この技術を使って合成したAIの音声データを、12月18日公開予定の映画「劇場版 仮面ライダーゼロワン REAL×TIME」にて採用されたこともあわせて発表した。
rinnaは、MicrosoftのAI&リサーチ部門で、AIチャットボットの研究を行っていたチームがスピンアウトして6月に設立したAI開発企業。AIチャットボット「AIりんな」を手掛けたことで知られている。ディープラーニング技術を活用し、AIが文脈に応じた会話文を自動生成して人間と自然に会話する「共感チャットモデル」や、AIが話し声や歌声で豊かな感情表現を可能にする「音声合成システム」などの技術を発表している。
今回実現した多話者多言語音声合成は、AIキャラクターの音声表現の多様性を高める新技術として開発されたもの。1つのAI(音声合成モデル)から、複数話者と複数言語の音声を合成する技術となっている。rinnaでは、日本語話者の音声と英語話者の音声を学習データとし、最先端のディープラーニング技術を用いることにより、多話者多言語音声合成システムを構築した。
従来では、AIキャラクターの音声合成を実現するために、対象の話者の音声を大量に収録する必要があった。新たに開発した多話者多言語音声合成では、複数の話者の音声を用いて、1つの音声合成モデルを学習することで、複数の話者・言語の音声を合成することが可能となる。また、対象の話者の少量の音声からでも、その話者のキャラクター性を持った音声を合成することができるという。
さらに、日本語と英語といった複数の言語の音声も含めて1つの音声合成モデルを学習することにより、英語がしゃべれない話者のキャラクター性を保ったまま、英語の音声を合成することも可能となる。
この最新事例として「劇場版 仮面ライダーゼロワン REAL×TIME」において、日本語と英語のAIによる音声が採用。ニュースを読み上げる場面で活用されるとしている。あわせて、「ゼロワン診断」でキャラクター診断コンテンツも提供するとしている。
同社では、人とAIのインタラクションを通じて人と人のコミュニケーションを次のフェーズへ進化させるべく、「すべての組織とすべての人にAIキャラクターを」をビジョンに、これから多様な個性を持ったAIキャラクターを世に生み出していくとしている。
CNET Japanの記事を毎朝メールでまとめ読み(無料)
ものづくりの革新と社会課題の解決
ニコンが描く「人と機械が共創する社会」
ZDNET×マイクロソフトが贈る特別企画
今、必要な戦略的セキュリティとガバナンス