Meta Platformsは米国時間8月1日、テキストから「質の高いリアルな」音楽を生成できる生成人工知能(AI)ツール「AudioCraft」を発表した。
AudioCraftは、Metaの3つの生成AIモデル、「MusicGen」「AudioGen」「EnCodec」で構成されている。MusicGenとAudioGenは、いずれもテキストからサウンドを生成するもので、MusicGenは音楽を、AudioGenは特定の音や効果音を生成する。
「HuggingFace」で公開されているMusicGenにアクセスすれば、デモを再生できる。プロンプトには、聴きたいと思うあらゆる時代のあらゆる種類の音楽を記述できる。Metaは、「バックグラウンドでドラムとシンセサイザーが強く響く、80年代風の迫力あるポップソング」などの例を公開している。
Today we’re sharing details about AudioCraft, a family of generative AI models that lets you easily generate high-quality audio and music from text.https://t.co/04XAq4rlap pic.twitter.com/JreMIBGbTF
— Meta Newsroom (@MetaNewsroom) August 2, 2023
EnCodecは、オーディオを圧縮して入力信号を再構築するニューラルネットワークで構成されたオーディオコーデックだ。プレスリリースによると、Metaは、ノイズが少なく質の高い音楽生成を可能にする、改善されたバージョンのEncodecをリリースしたという。
Metaは、事前にトレーニングされたAudioGenモデルもリリースした。ユーザーは、犬の吠える声や床のきしむ音のような環境音や効果音を生成できる。
Metaはさらに、研究者や専門家が他のモデルをトレーニングするために利用できるよう、3つのオープンソースモデルすべてのウェイトとコードを公開した。
「さらにうまく制御できれば、MusicGenは新種の楽器になれるだろう――初めて登場した時のシンセサイザーと同じように」とMetaは述べている。
Metaのプレスリリースこの記事は海外Red Ventures発の記事を朝日インタラクティブが日本向けに編集したものです。
CNET Japanの記事を毎朝メールでまとめ読み(無料)
ものづくりの革新と社会課題の解決
ニコンが描く「人と機械が共創する社会」
ZDNET×マイクロソフトが贈る特別企画
今、必要な戦略的セキュリティとガバナンス