生成型の人工知能(AI)は、テキストやアート、画像、そして音声までをも含むさまざまなタイプのコンテンツを生成できる。
AI分野の新興企業であるElevenLabsは、テキストから音声への変換と、音声クローニングを実現する機能のベータ版を1月から提供しており、その登録ユーザー数は100万人を超えるまでになっている。
同社は米国時間6月20日、シリーズAラウンドで1900万ドル(約27億円)の資金を調達したことと、同社のプラットフォームをアップデートしたことを発表した。このアップデートには、音声クローニングで大きな物議を醸している問題への対策も含まれている。
同社の音声生成技術が公開されて以来、同技術の肯定的な面と否定的な面の双方に対して注目が高まっている。
肯定的な面として同社が挙げている例には、「独立系の著作家によるオーディオブックの制作や、ビデオゲームの開発者によるキャラクターボイス(CV)の作成、視覚障害者によるオンライン上のテキストコンテンツへのアクセス、世界初となるAIラジオ局の実現」が含まれている。
こうした例は、さまざまな業界における業務プロセスの向上を可能にするものの、その一方で有害な利用例も見受けられる。
ある人物の音声の断片を入力するだけで、その人がしゃべってもいない内容の音声を作り出せるという音声クローニング技術は、有名人が恐ろしく差別的な発言をしているように思わせるといった、悪意ある目的で用いられている。
ベータ版のリリースから数週間後、ElevenLabsは「音声クローニングの悪用」に対処していくとTwitter上で発表した。同社はこの問題と戦っていくための手段として、アカウント認証の追加や、音声の著作権の検証、さらには各リクエストに対する手作業での検証などを示唆した。
ElevenLabsは同日、この問題に対する同社の対応策とみられる「AI Speech Classifier」を一般公開した。このツールに音声データをアップロードすると、それにElevenLabsのAIによって生成されたものが含まれているかどうかを判定できる。
ElevenLabsは今回の発表に「AI Speech Classifierのリリースは、透明性に向けた最新の対策であり、生成型メディアの安全な世界を作り出すというコミットメントの土台となるものだ」と記している。
このツールに関する15日の発表によると、同ツールは99%を超える精度で音声の真正性を判定できるという。
ただし、生成された音声のコーデックが変換されたり、リバーブ(残響)効果が施されている場合、精度は90%を超える程度となるなど、音声コンテンツへの加工が増えるほど、その精度は低下していくという。
この記事は海外Red Ventures発の記事を朝日インタラクティブが日本向けに編集したものです。
CNET Japanの記事を毎朝メールでまとめ読み(無料)
ZDNET×マイクロソフトが贈る特別企画
今、必要な戦略的セキュリティとガバナンス
ものづくりの革新と社会課題の解決
ニコンが描く「人と機械が共創する社会」