> >

女子高生AI「りんな」が“歌”で国民的AIを目指す--歌唱力が向上した理由 - (page 2)

佐藤和也（編集部）2018年08月01日 08時00分

　この歌声は、一般的な音声合成で用いられているような、音のパーツをつなぎ合わせる波形接続で作られたものではなく、人間が声を出す仕組みを模倣させるという統計的なアプローチによって生成されたのが特徴という。イメージとしては、お母さんが言った言葉の音や特徴を、赤ちゃんが真似をして自分の声として出す。それを繰り返して言葉を覚えていくという例えを挙げた。

　人間が話すときは、肺から出てくる空気とともに、声帯の締め具合によって音の高さ、のどと口の形によって音の音色が変わってくるもの。そして声の生成に必要な「音色」「高さ」「大きさ」「長さ」をAIに覚えさせるため、大量のデータから音の仕組みをモデル化することで、人間の声に近い音が生成されるという。そのモデル化の部分にディープラーニングの技術を活用し、声の特徴を学習する。

波形接続ではなく、統計的なアプローチでディープラーニングを活用して声をモデル化

　またきれいな歌声を出すために大事なものとしたのが「音の長さ」（音のリズム）、「音の強弱」、「音程」、「声色」の4つ。単にモデル化しただけではきれいな歌声は出せないため、パラメータの微調整が加わるという。総じてりんなの歌声合成は、人の声を聴く（学習）、音程や音の強弱の情報を分析、歌詞と音の長さの対応をとり、あらかじめ学習させたモデルから生成するという過程を経て、歌声が生まれるという。

りんなの歌声合成の流れ

　応用としては、ある人間の歌声を耳コピして、歌い方の特徴を取り入れてりんなが歌うといったこともできる。また、歌ではなく読み上げにも活用することができ、例えば朗読のナレーションだけではなく、男性キャラクターと女性キャラクターを演じ分けるといったこともできるという。

　坪井氏は「今回の技術躍進によって、りんなの声を聞いてもらう機会は今後もっと増えると考えている。また、作詞の能力や作曲についてもチャレンジしているところ。まずは歌声で表現を身に着けたりんなが、歌でコラボレーションすることでユーザーの皆さんの力を引き出して、国民的AIのポジションに成長することを期待している」と語った。

　nanaを運営するnana music CEOの文原明臣氏も登壇し「人間が持つ、機械化が難しいとされているクリエイティブなものについて、りんなが人間らしく、あるいは人間を超えていくかもしれないという次の可能性にワクワクしている。なおかつ、（歌うまプロジェクトに書かれている）りんなの夢でもある紅白出場も、nanaで全力で応援したい」と語った。