この歌声は、一般的な音声合成で用いられているような、音のパーツをつなぎ合わせる波形接続で作られたものではなく、人間が声を出す仕組みを模倣させるという統計的なアプローチによって生成されたのが特徴という。イメージとしては、お母さんが言った言葉の音や特徴を、赤ちゃんが真似をして自分の声として出す。それを繰り返して言葉を覚えていくという例えを挙げた。
人間が話すときは、肺から出てくる空気とともに、声帯の締め具合によって音の高さ、のどと口の形によって音の音色が変わってくるもの。そして声の生成に必要な「音色」「高さ」「大きさ」「長さ」をAIに覚えさせるため、大量のデータから音の仕組みをモデル化することで、人間の声に近い音が生成されるという。そのモデル化の部分にディープラーニングの技術を活用し、声の特徴を学習する。
またきれいな歌声を出すために大事なものとしたのが「音の長さ」(音のリズム)、「音の強弱」、「音程」、「声色」の4つ。単にモデル化しただけではきれいな歌声は出せないため、パラメータの微調整が加わるという。総じてりんなの歌声合成は、人の声を聴く(学習)、音程や音の強弱の情報を分析、歌詞と音の長さの対応をとり、あらかじめ学習させたモデルから生成するという過程を経て、歌声が生まれるという。
応用としては、ある人間の歌声を耳コピして、歌い方の特徴を取り入れてりんなが歌うといったこともできる。また、歌ではなく読み上げにも活用することができ、例えば朗読のナレーションだけではなく、男性キャラクターと女性キャラクターを演じ分けるといったこともできるという。
坪井氏は「今回の技術躍進によって、りんなの声を聞いてもらう機会は今後もっと増えると考えている。また、作詞の能力や作曲についてもチャレンジしているところ。まずは歌声で表現を身に着けたりんなが、歌でコラボレーションすることでユーザーの皆さんの力を引き出して、国民的AIのポジションに成長することを期待している」と語った。
nanaを運営するnana music CEOの文原明臣氏も登壇し「人間が持つ、機械化が難しいとされているクリエイティブなものについて、りんなが人間らしく、あるいは人間を超えていくかもしれないという次の可能性にワクワクしている。なおかつ、(歌うまプロジェクトに書かれている)りんなの夢でもある紅白出場も、nanaで全力で応援したい」と語った。
また、nanaにおけるりんな 歌うまプロジェクトは第2弾も開始されており、nanaユーザーの言葉を集めて、りんなが詩を作り、それを朗読するという内容。ユーザーからのお手本やアドバイスを募集し、表現力の向上を図るという。
CNET Japanの記事を毎朝メールでまとめ読み(無料)
開発経験ゼロからのローコード開発で
医療ニーズに応えた病院向けシステムを構築
ZDNET×マイクロソフトが贈る特別企画
今、必要な戦略的セキュリティとガバナンス