音楽業界に参入するにあたって大きな障壁となるのは、制作コストだ。また、アーティストが資金集めに成功したとしても、自分のニーズに合った音楽プロデューサーやスタジオを見つけるのはかなり難しい。しかし、ボタンを押すだけで自分が思い描いていたビートを作るようコンピューターに命令できるとしたらどうだろうか。Googleが開発した「MusicLM」モデルなら、テキストから音楽を生成する未来が実現するかもしれない。
Googleは米国時間1月26日、文章の指示に従って曲を生成するこのジェネレーティブ人工知能(AI)モデルに関する学術論文を公開した。MusicLMは、ユーザーが指示した内容に従って、短いオーディオクリップから数分に及ぶ楽曲まで、さまざまな楽曲を作れる。
論文によれば、このAIモデルでは文章に細かい指示を含めることができるという。たとえば、「印象的なサックスのソロとソロシンガーによる魅惑的なジャズ」や、「低音と強烈なビートが利いた90年代のベルリンテクノ」といった具合だ。同社はさまざまな指示の内容と結果のサンプルをウェブサイトで公開している。
Yesterday, Google published a paper on a new AI model called MusicLM.
— Product Hunt (@ProductHunt) January 27, 2023
The model generates 24 kHz music from rich captions like "A fusion of reggaeton and electronic dance music, with a spacey, otherworldly sound. Induces the experience of being lost in space." pic.twitter.com/XPv0PEQbUh
Googleは楽曲を作るために、ラベル付けされていない楽曲で構成された28万時間分のデータセットを用いて、長くてまとまりのある楽曲を24kHzで生成できるようにMusicLMをトレーニングしたと、同論文には書かれている。
MusicLMは、Googleにとっても業界にとっても、AI作曲システムの実現に向けた初の試みではない。対話型AIの「ChatGPT」や画像生成AIの「DALL・E」を開発したAI研究組織のOpenAIは、まだ一般公開していないものの、「Jukebox」という独自のシステムを持っている。また、サウンドのイメージから音楽を生成する「Riffusion」と呼ばれるニューラルネットワークがすでに公開されている。もっとも、Googleによれば、同社のシステムはこれまでになく優れたものだそうだ。
ただしGoogleは、この種のモデルによってクリエイティブなコンテンツが不正流用されるリスクがあることを、論文の中で認めている。また、トレーニングに内在するバイアスによって、そのトレーニングで過小評価されている文化が影響を受け、ひいては盗用されるリスクがあることも指摘している。そのため、現時点でモデルを公開する予定はないという。
実際、AIモデルがGoogleの指摘したリスクをもたらしている事例が、このところ相次いでいる。例えば、「Lensa AI」や「AI Time Machine」といったAIアート生成モデルが公開された後、アーティストらは、自分たちの作品がクレジットや報酬なしにAIアートモデルに盗用されているとして非難の声を上げた。
その一方で、ChatGPTなどのAIツールに対する関心の急速な高まりを受け、GoogleがAIベースの製品のリリースを早めることを検討しているとも報じられている。
この記事は海外Red Ventures発の記事を朝日インタラクティブが日本向けに編集したものです。
CNET Japanの記事を毎朝メールでまとめ読み(無料)
ものづくりの革新と社会課題の解決
ニコンが描く「人と機械が共創する社会」
ZDNET×マイクロソフトが贈る特別企画
今、必要な戦略的セキュリティとガバナンス