人が実際とは違うことをしたり言ったりしているように見せかけるディープフェイクは、深刻なセキュリティ上の懸念となっている。だがスタートアップのDescriptは、人工知能(AI)技術をよりシンプルなものに利用しようと努めている。ポッドキャストの編集だ。Descriptは米国時間9月18日、同社のポッドキャスト用ソフトウェア「Descript」の新たな機能のベータ版をリリースした。「Overdub」と呼ばれるこの新機能は、ユーザーが数分間の音声をアップロードすることで、自分の声を使ったリアルなテキスト読み上げモデルを作成できるよう設計されている。
同社のパートナー企業Lyrebirdが開発したこの技術は、ポッドキャスト配信者が音声に間違いや変更がある場合に再録音や編集をせずに済むことを意図している。ユーザーが録音音声に加えたい言動を文字で入力すれば、Overdub機能によってその言動が自分の声で述べられているように聞こえる。
Descriptの最高経営責任者(CEO)であるAndrew Mason氏のブログ投稿によると、これは決してディープフェイクの作成を意図したものではない。音声モデルの訓練のために、ユーザーはランダムに生成された文章を話している音声を録音する必要があるため、既存の録音音声を使って他人の音声によるモデルを作成することはできないとしている。
だがDescriptは同社の倫理声明にあるFAQ(よくある質問とその回答)で、同社の技術は独自のものだが、基礎研究はすでに広く行われており、他社の今後の製品は使用上の制約が同じではない場合があると述べている。
「だからこそ、制御された環境でテクノロジーを世界に紹介することがわれわれにとって重要だ」と、Lyrebirdの共同創業者のJose Sotelo氏は米CNETへの電子メールで述べ、「そうすれば世界は潜在的な悪意のある攻撃に対し、より適切に対処できる体制を整えられる」とした。
Descriptはテキスト読み上げモデルの作成に使われる録音音声を保存している。だがユーザーは録音音声をいつでも消去できるとSotelo氏は述べた。
これまでに、Facebook最高経営責任者(CEO)のMark Zuckerberg氏や俳優のTom Cruiseさん、Vladimir Putin露大統領などがディープフェイクの対象となっている。米議員らはディープフェイクについて、「米国の公共の議論や国家安全保障に脅威を与える可能性がある」と述べている。
この記事は海外CBS Interactive発の記事を朝日インタラクティブが日本向けに編集したものです。
CNET Japanの記事を毎朝メールでまとめ読み(無料)
ものづくりの革新と社会課題の解決
ニコンが描く「人と機械が共創する社会」
ZDNET×マイクロソフトが贈る特別企画
今、必要な戦略的セキュリティとガバナンス