最近の人工知能(AI)業界では音声生成AIモデルが広く注目を集めており、OpenAIも自社の新たな音声生成モデル「Voice Engine」を発表している。Stable AIもその流れに乗り、最新の音声生成モデルを公開した。
画像生成AIモデル「Stable Diffusion」で一躍有名になったオープンソースAI企業であるStability AIは米国時間4月3日、「Stable Audio 2.0」を発表した。この新モデルは、同社の前モデルである「Stable Audio 1.0」を大幅にアップグレードしたもので、テキスト以外の情報から曲やサウンドを生成する機能も追加されている。
Stable Audio 2.0は、音声から音声を生成する機能を持っており、ユーザーは音声のサンプルをアップロードして、自然言語のプロンプトを使ってさまざまな曲やサウンドを作成できる。またスタイル転換機能を使えば、生成された音声やアップロードされた音声を、特定のスタイルやトーンに修正することもできる。
Introducing Stable Audio 2.0 – a new model capable of producing high-quality, full tracks with coherent musical structure up to three minutes long at 44.1 kHz stereo from a single prompt.
— Stability AI (@StabilityAI) April 3, 2024
Explore the model and start creating for free at: https://t.co/E9ZIGagmPf
Read the… pic.twitter.com/rFGb0KpdeX
創作物の完全性やアーティストの権利を保護するため、Stable Audio 2.0にアップロードされる情報には著作権を侵害する内容が含まれていてはならない。同社は、著作権侵害を未然に防ぎ、ユーザーがルールを順守していることを確認するため、Audible Magicが提供するコンテンツ認識技術を使用している。
Stable Audio 1.0と2.0は、「AudioSparx」の80万件以上のデータでトレーニングされている。AudioSparxを利用するアーティストは、Stable Audioのトレーニングでの使用をオプトアウトする選択肢が与えられているという。
また新しいモデルでは、44.1kHzステレオ音声で3分までの長さの曲を作成できるようになった。前回のモデルでは45秒までの曲しか作成できなかったことを考えれば、大幅な機能向上だ。生成される音声は、メロディー、伴奏、効果音などさまざまだ。
このモデルはすでにStable Audioのウェブサイトで無償で公開されている。サイトにアクセスしてStable AIのアカウントかGoogleアカウントでログインすれば、簡単に試すことができる。
この記事は海外Red Ventures発の記事を朝日インタラクティブが日本向けに編集したものです。
CNET Japanの記事を毎朝メールでまとめ読み(無料)
ZDNET×マイクロソフトが贈る特別企画
今、必要な戦略的セキュリティとガバナンス
ものづくりの革新と社会課題の解決
ニコンが描く「人と機械が共創する社会」