音声生成AI「Stable Audio 2.0」が公開、最長3分の曲を作成可能に

Sabrina Ortiz (ZDNET.com) 翻訳校正: 編集部2024年04月04日 12時52分

 最近の人工知能(AI)業界では音声生成AIモデルが広く注目を集めており、OpenAIも自社の新たな音声生成モデル「Voice Engine」を発表している。Stable AIもその流れに乗り、最新の音声生成モデルを公開した。

Stable Audio 2.0の画面
提供:Sabrina Ortiz/ZDNET

 画像生成AIモデル「Stable Diffusion」で一躍有名になったオープンソースAI企業であるStability AIは米国時間4月3日、「Stable Audio 2.0」を発表した。この新モデルは、同社の前モデルである「Stable Audio 1.0」を大幅にアップグレードしたもので、テキスト以外の情報から曲やサウンドを生成する機能も追加されている。

 Stable Audio 2.0は、音声から音声を生成する機能を持っており、ユーザーは音声のサンプルをアップロードして、自然言語のプロンプトを使ってさまざまな曲やサウンドを作成できる。またスタイル転換機能を使えば、生成された音声やアップロードされた音声を、特定のスタイルやトーンに修正することもできる。

 創作物の完全性やアーティストの権利を保護するため、Stable Audio 2.0にアップロードされる情報には著作権を侵害する内容が含まれていてはならない。同社は、著作権侵害を未然に防ぎ、ユーザーがルールを順守していることを確認するため、Audible Magicが提供するコンテンツ認識技術を使用している。

 Stable Audio 1.0と2.0は、「AudioSparx」の80万件以上のデータでトレーニングされている。AudioSparxを利用するアーティストは、Stable Audioのトレーニングでの使用をオプトアウトする選択肢が与えられているという。

 また新しいモデルでは、44.1kHzステレオ音声で3分までの長さの曲を作成できるようになった。前回のモデルでは45秒までの曲しか作成できなかったことを考えれば、大幅な機能向上だ。生成される音声は、メロディー、伴奏、効果音などさまざまだ。

 このモデルはすでにStable Audioのウェブサイトで無償で公開されている。サイトにアクセスしてStable AIのアカウントかGoogleアカウントでログインすれば、簡単に試すことができる。

この記事は海外Red Ventures発の記事を朝日インタラクティブが日本向けに編集したものです。

CNET Japanの記事を毎朝メールでまとめ読み(無料)

-PR-企画広告

このサイトでは、利用状況の把握や広告配信などのために、Cookieなどを使用してアクセスデータを取得・利用しています。 これ以降ページを遷移した場合、Cookieなどの設定や使用に同意したことになります。
Cookieなどの設定や使用の詳細、オプトアウトについては詳細をご覧ください。
[ 閉じる ]