NTTは1月17日、少量の対話データから個人の口調や発話内容の特徴を反映して対話を生成する「個人性再現対話技術」と、少量の音声データから個人の声色を反映した音声を合成する「Zero/Few-shot音声合成技術」を開発したと発表した。
ともに大規模言語(Large Language Models:LLM)モデル「tsuzumi」の拡張技術で、本人のデジタルの分身を作成する際のコストを抑えることができる。
NTTは、光を中心とした革新的技術を活用して高速大容量通信や膨大な計算リソースなどを提供できる、端末を含むネットワーク・情報処理基盤「IOWN」を構想、推進している。その柱のひとつであるデジタルツインコンピューティング(DTC)において、本人のように行動して経験を共有する分身のようなAIエージェント「Another Me」の研究開発を進めている。
また、優れた文章生成能力を持つLLMは、対話を集めた大量のデータで学習させ、雑談や議論といった人の自然な会話を生成する対話技術にも適用できる。しかし、従来の対話技術の研究は、既に学習してあるLLMを別の比較的小規模なデータで学習させて微調整する“ファインチューニング”により個人性を再現しており、コストが高かったという。
NTTはこういった課題に対し、事前学習済みモデルのパラメータを固定したまま効率的に追加学習する“アダプタ技術”に、居住地や趣味などのプロフィール情報によりプロフィール情報に合わせた人格で発話を再現する“ペルソナ対話技術”を組み合わせる、個人性再現対話技術を活用。
少ないデータで効率的に学習できるほか、アダプタの学習データに含まれるものとは全く異なるような対話においても、ペルソナを反映した妥当な応答を返すことで、個人の再現性を高められるという。
なお、tsuzumiのアダプタ技術を個人性の再現に適用した“個人アダプタ”では、エピソードを交えた発話や口癖など、対象の個人に特化した発話生成が可能。個人ごとに追加されるモデルのサイズは小さく、動的に切り替えることができるため、多人数の対話の再現を効率的に実現できるという。
加えて、従来の技術では、声を作りたい話者・口調ごとに数十分程度の音声データを用意する必要があった。収録に要する時間はその数倍となることもあるため、万人の音声の再現やキャラクターの多彩な口調の実現にも課題があったという。
この課題に対し、より少ない音声データから高品質かつ多様な表現の生成を可能にする、「Zero-shot音声合成技術」と「Few-shot音声合成技術」を開発。
Zero-shot音声合成技術では、話者の数秒程度の音声から声色の特徴を抽出。音声合成モデルを学習せず、特長を再現した音声を再現できる。Few-shot音声合成技術では、再現したい口調の音声を含む数分〜10分程度の音声データから音声合成モデルを学習。著名人や有名キャラクターなどの声色・口調を、より高い再現度で反映させるという。
これらの技術の実現には多くのパラメータを持つ深層学習モデルが必要となるが、演算処理を高速化することで一般的なスペックのCPUでの動作に成功。Zero/Few-shot音声合成技術を用いた音声合成サービスの運用コストを低く抑えることができるという。
個人性再現対話技術、Zero/Few-shot音声合成技術により、自分の代わりに他人とコミュニケーションをする“デジタル分身”を誰もが持てるようになる。
NTT人間情報研究所 デジタルツインコンピューティング研究センタアナザーミーグループ グループリーダーの深山篤氏は、今回の技術を活用することで、「データが少なくても、本人らしい発話内容や音声を生成できる。学習データの蓄積がない一般のユーザーでも、自分に変わってその人らしくコミュニケーションを取ってくれるデジタル分身を持てる」と話す。
例えば、メタバースのようなサービスでユーザー自身がログインしていなくても自律的に活動するNPC(Non-PlayerCharacter)としてデジタル分身を存在させ、他のユーザーとのコミュニケーション内容をユーザー本人に持ち帰って共有する、といったことが可能となる。全く知らない人に話しかける心理的障壁や仕事・家事などの時間的制約に縛られず、興味関心や気心の合うユーザーと友達になるきっかけになるほか、趣味や関心が共通する人々のコミュニティに分身が代理参加、ユーザーに橋渡しすることで、コミュニティ活動の活性化もできる。有名人やインフルエンサーのデジタル分身をサービス内に常時配置すれば、ファンコミュニティの拡大・活性化も期待できる。
NTTは、ユーザーのデジタル分身を通じた人間関係の創出効果に関して2023年度中に、NTTドコモのメタコミュニケーション「MetaMe」上でのフィールド実験を開始する。
さらに、tsuzumiによる個人性再現機能の提供に向け、2024年度中に技術の精度向上を図る。これにより、特定の領域に関する高い専門的な言語能力を有しながら、親しみやすい個性を持ち顧客や社員などとの関係性を築けるデジタルヒューマンやチャットボットの実現を目指す。
CNET Japanの記事を毎朝メールでまとめ読み(無料)
ZDNET×マイクロソフトが贈る特別企画
今、必要な戦略的セキュリティとガバナンス
ものづくりの革新と社会課題の解決
ニコンが描く「人と機械が共創する社会」