「ChatGPT」やGoogleの「Bard」などの生成人工知能(AI)は、自然言語処理と機械学習を利用して、クエリに対する回答となる特定のテキストを生成する。Metaの新しい生成AI「Voicebox」は、それとは少し異なり、オーディオクリップを生成する。
「Facebook」を運営するMetaが米国時間6月16日に発表したVoiceboxは、2秒の音声サンプルを基に音声のスタイルを合わせて、テキストから音声を生成したり、外部ノイズで中断されるなどした音声の一部を再現したりできる。
また、音声サンプルを基に、英語、フランス語、ドイツ語、スペイン語、ポーランド語、ポルトガル語のいずれかで書かれたテキストを他の言語で読み上げることも可能だ。これにより、実際には話せない言語を自分の声で話し、自然な意思疎通ができるようになる可能性がある。
Metaは、バーチャルアシスタントやメタバースのノンプレイヤーキャラクターに自然に聞こえる音声を与えるためにVoiceboxが使用できると述べている。メタバースとは、人々が働き、遊び、共に過ごすために集まるデジタル空間だ。視覚障害がある人向けに、メッセージを友人の声で読み上げるために使用できる可能性もある。
Voiceboxはまだ開発中で一般提供されていない。同社は、このAIが危害を与えるために悪用される可能性を認識しているとして、本物の音声とVoiceboxによって生成された音声を区別するための有効な方法の構築に取り組んでいると述べた。
この記事は海外Red Ventures発の記事を朝日インタラクティブが日本向けに編集したものです。
CNET Japanの記事を毎朝メールでまとめ読み(無料)
ZDNET×マイクロソフトが贈る特別企画
今、必要な戦略的セキュリティとガバナンス
ものづくりの革新と社会課題の解決
ニコンが描く「人と機械が共創する社会」