クローズドキャプション(表示・非表示を切り替えられる字幕)は、今やテレビや映画を観る時に欠かせない機能となっている。キャプションがあれば、セリフが聞き取れずに困ることはない。聴覚に障害がある人にとっては、コンテンツを利用するための必須機能だ。しかし、この機能は完璧ではない。そこでテクノロジー企業や映像制作会社はAIの力を借りて、キャプションの改善に取り組もうとしている。
テレビ番組や映画のキャプションは、今も大部分を人間が作成している。言葉やニュアンスを正しく捉え、文字情報に転換するためには人間が必要だ。しかし課題もある。例えば生放送のイベントをクローズドキャプション付きで観たことがある人なら知っているだろうが、画面上で実際に話されている内容にキャプションが追いつかなかったり、時間に余裕がないためにキャプションに間違いが生じたりすることがある。台本がある番組なら丁寧に作業し、ミスを減らす余裕もあるが、それでも多くの労働力を要することに変わりはない。つまり、映像制作会社の側からするとコスト面の負担が大きい。
2024年9月、Warner Bros. DiscoveryはGoogle Cloudと提携し、クローズドキャプションの作成にAIを活用していくと発表した。ただし「品質を保証するために、並行して人間による監視も行う」予定だ。プレスリリースによれば、AIを活用することでキャプション作成に要するコストは最大50%減少し、時間は最大80%短縮されたという。専門家によれば、これは未来の始まりにすぎない。
Global Accessibility Awareness Dayの創始者の1人で、ウェブアクセシビリティを推進するJoe Devon氏は、キャプション作成にAIを「活用しない企業は取り残されるだけだ」と語る。現在の人間によるキャプション作成の質は「玉石混淆で、改善の余地があることは間違いない」と同氏は言う。
AIが世界を大きく変えつつあるなか、アクセシビリティに対する企業のアプローチも変わりつつある。例えばGoogleの「Expressive Captions」機能はAIを使って、動画に含まれる感情やトーンが伝わるようなキャプションを作成する。Appleの「iOS 18」にも、音声録音やメモの内容を文字起こしする機能が追加された。この機能は音声コンテンツのアクセシビリティ向上にも寄与している。また、GoogleとAppleは聴覚に障害のある人々がデバイス上の音声コンテンツを利用できるように、リアルタイムでキャプションを作成するツールを用意している。Amazonは「Alexa」に読み上げ機能とキャプション機能を追加した。
変化はエンターテインメントの世界でも起きている。Amazonは2023年に「Amazonプライム・ビデオ」に「Dialog Boost」機能を実装した。この機能を使うと、背景の音楽や効果音のせいで聞き取れない恐れがあるセリフをAIが自動で識別し、音量を大きくしてくれる。2025年3月にはAIを使って、「他に吹き替えを提供する方法がない」映画やテレビ番組に自動で吹き替えを追加するプログラムのテストを開始すると発表した。キャプションに頼る視聴者が増えていることを示す動きは他にもある。例えばNetflixは2025年4月、効果音や音楽などの情報は表示せず、セリフのみに字幕を付けるオプションを追加した。
AIが進化を続ける一方、大小さまざまなディスプレイで消費されるコンテンツは増え続けているため、キャプション作成にAIを活用することを検討する映像制作会社やテレビ放送局、テクノロジー企業が増えるのは時間の問題だ。重要なのは、その過程でクローズドキャプションの本来の目的が忘れられないようにすることである。
米国では1970年代にアクセシビリティの向上を目的としてクローズドキャプションの提供が始まった。ライブ放送から大作映画まで、あらゆるコンテンツを幅広い視聴者が平等に楽しめるようにする上でクローズドキャプションは大きな役割を果たした。しかし聴覚に障害がなくても、映画やテレビ番組をキャプション付きで観たいと考える人は多い。特に、セリフが聞き取りにくい時はキャプションが役に立つ。キャプションは「字幕(subtitle)」とも呼ばれるが、subtitleは本来、文字起こしではなく、翻訳されたセリフに関連している。
2024年に語学学習サイト「Preply」が実施した調査では、米国人の半数が普段からキャプションの表示を有効にした状態でコンテンツを視聴していると回答した。また、全回答者の55%が映画や番組のセリフが聞き取りにくくなったと回答した。これは高齢者に限った話ではない。例えば「YouGov」の2023年の調査では、テレビを字幕付きで観たいと回答した人の割合は、65歳以上では30%だったのに対し、30歳未満の成人では63%に上った。
「キャプションを聴覚に障害がある人のためのものだと考えている人は多い。コンテンツ制作者ですらそうだ」と指摘するのは、Disability Belongsの最高経営責任者(CEO)、Ariel Simms氏だ。しかし実際には、キャプションは誰にとっても情報の理解と記憶に役立つ。
AIを利用することでキャプションの作成速度を上げられれば、テレビ番組や映画、ソーシャルメディアの動画といったコンテンツにより多くの人がアクセスできるようになるとSimms氏は言う。ただし、初期の段階では品質が問題になるかもしれない。
「障害者コミュニティでは、AIが生成したキャプションを『craption(ごみキャプション)』と呼ぶことがある」とSimms氏は笑う。
現在の自動キャプション機能は、まだ句読点や文法、固有名詞などをうまく扱えないことが多い。AIは、アクセントや方言、話し方の違いなどを人間ほど正しくは認識できない。
AIをキャプション作成に活用するなら、キャプションの正確さや質を担保するために、AIをサポートする人間を配置することが望ましいとSimms氏は言う。また、AIを使うことでアクセシビリティが損なわれることのないように、映像制作会社やテレビ放送局は障害者コミュニティと連携していく必要がある。
「おそらく完全に人間を排除することはできない」とSimms氏は言う。「もちろん技術は進化し続けるだろう。しかし障害者コミュニティと連携しない限り、アクセシビリティツールの重要性が十分に理解されない恐れがある」
映像制作を手がけるWarner Bros. DiscoveryやAmazonは、AIを使って作成したキャプションや吹き替えの正確性を担保するためには人の関与が欠かせないと強調する。
「AIが粗製濫造したキャプションを垂れ流すだけでは、会社の評判に傷がつく」とDevon氏は言う。「だからこそ、人間の関与が欠かせない」
しかし技術は急速に進化しているため、いずれ人間の関与が不要になる可能性はあるとDevon氏は言う。
「映像制作会社や放送局は、何であろうと、最もコストがかからない方法を選ぶだろう」と、Devon氏は言う。しかし、「もし技術によってアクセシビリティを改善できるなら、それを邪魔する人はいない」
AIがキャプション機能を強化しているのはテレビや映画の世界だけではない。自動キャプション機能は「TikTok」や「Instagram」といったソーシャルメディアにも広がり、コンテンツのアクセシビリティを高めている。
通常、キャプションはプレーンテキストとして表示されることが多いが、編集工程でキャプションに視覚効果が加えられることもある。その典型が「カラオケ」スタイルだ。つまり、発話に合わせてキャプション内の該当する文字の色が変わり、今どこが読まれているのかを強調して表示する。しかし、こうした派手な表現は人目を引く反面、読みやすさを損なう可能性がある。視聴者は自分のペースで読むことができず、色や動きが多すぎて集中できない。
アクセシビリティマーケティングのコンサルタントで、自身も聴覚障害者であるMeryl K. Evans氏は、「すべてのユーザーを満足させるキャプションはない。しかし、カラオケスタイルを好む人、このスタイルの恩恵を受ける人は少ない」と言う。Evans氏自身、動的なキャプションの付いた動画は何度も見直さなければ内容を理解できないと言う。「理解しやすいキャプションは地味だ。脇役に徹し、あくまでも動画を主役に据える」
しかしキャプションの簡潔さを保ちながら、有益な文脈情報を伝える方法も登場しつつある。GoogleのExpressive Captionsは、スマートフォンで再生されている動画の内容をユーザーが理解しやすいように、AIを使って特定の音を強調する機能だ。例えば「HAPPY BIRTHDAY!(お誕生日おめでとう)」という言葉はすべて大文字で表記することで興奮を伝え、スポーツの試合の実況中にアナウンサーが会心のショットを伝える声は「amaaaazing shot!(見事なショット!)」のように母音を重ねることで熱狂を表す。拍手、息をのむ声、口笛といった音もラベル表示される。文字はすべて画面上に白黒で表示されるため、気が散ることはない。
Expressive Captionsは、基本的にはアクセシビリティの向上を目的とした機能だが、GoogleのプロダクトマネージャーのAngana Ghosh氏によれば、開発チームはこの機能が聴覚に障害がないユーザーにも役立つ可能性を理解していたという(例えば、周りに大勢の人がいる場所でヘッドホンをつけずにビデオを見ている時、画面上で何が起きているのかを知りたいと思ったことがある人は多いだろう)。
「アクセシビリティに取り組むことは、誰にとっても使いやすい製品の開発につながる」とGhosh氏は言う。
とはいえ、もっと動きのあるキャプションを好む人もいるかもしれない。2025年4月に広告代理店のFCB Chicagoが発表した「Caption with Intention」は、アニメーションや色、さまざまなスタイルのフォントを使うことで、話者の感情やトーン、テンポを表現するAIベースのプラットフォームだ。キャラクターごとにセリフの色を変え、発話に合わせて、今話されている文字がディスプレイ上でハイライトされていく。文字のサイズや太さを変えることで、声の大きさや抑揚を表す。このプラットフォームは、スタジオや制作会社、配信プラットフォーム向けにオープンソースで提供されている。
FCB Chicagoは、聴覚障害者やその家族を支援する組織Chicago Hearing Societyと提携し、聴覚に障害がある人々と共同でさまざまなキャプションの開発やテストを実施した。FCB Chicagoのエグゼクティブ・クリエイティブ・ディレクターのBruno Mazzotti氏は耳が聞こえない両親のもとで育った。この経験がCaption with Intentionの開発に役立ったと言う。
「クローズドキャプションは生活の一部だった。家族で何を観るかを決める時は、キャプションを表示できるかどうかが決め手になった」とMazzotti氏は振り返る。「幸い私は耳が聞こえたので、問題が起きればすぐに気づくことができた」と同氏は言う。例えば、画面上で進んでいる会話にキャプションが追いつかず、実際のセリフとずれてしまったり、複数の人が同時に話す場面で、どれが誰のセリフか分からなくなったりすることがある。「主な目標は、より多くの感情、テンポ、トーン、そして話者が誰かを視聴者に伝えることだった」
Mazzotti氏によれば、最終的な目標は視聴者がキャプションの強さを調整できるように、さらなるカスタマイズの選択肢を提供することだという。しかし、表現をより動的にすると一部の視聴者にとっては目障りになり、画面上の出来事を追いにくくなる可能性もある。結局は個人の好みに帰着する。
米ギャローデット大学テクノロジーアクセスプログラムのディレクターであるChristian Vogler氏は「だからと言って、こうした手法を頭ごなしに否定すべきではない」と述べた。「しかし、聴覚に障害のある視聴者と共に慎重に検証し、総合的に有益となることを確認する必要がある」と続けた。
Vogler氏によると、現時点で欠点はあるものの、AIは最終的にキャプションの提供範囲を広げ、より高度なカスタマイズを可能にする助けになるかもしれない。
YouTubeの自動キャプションは、その荒削りなスタートにもかかわらず、AIが映像コンテンツをよりアクセシブルにできることを示す例となっている。技術が進歩すれば、読むスキルや速度に合わせてキャプションが調整される未来もあり得る。セリフ以外の情報も、単に「不気味な音楽」といった汎用のラベルではなく、雰囲気をより正確に伝えるものになるかもしれない。
しかし、Vogler氏は「AIによるキャプションは、テレビや映画でもよくあるように、特に音質が悪い場合、優れた人間のキャプション制作者と比べて依然として劣っている」と語った。さらに、ハルシネーションによって不正確なキャプションが生成され、聴覚に障害のある視聴者を疎外しかねないと指摘した。そのため、キャプション制作の工程には人間が関与し続けるべきだとした。
トロント州立大学Inclusive Media and Design CentreのディレクターであるDeborah Fels氏は、今後は仕事が変化していくだろうと語る。AIがかつて手作業だった作業を担い、人間のキャプション制作者がそれを監督するようになると同氏は予測している。
Fels氏は「したがって、キャプション制作には別の種類の仕事が必要となっている」と言う。「人間の方が、ミスの発見やそれをどう修正するかの判断において、はるかに優れている」
キャプションのためのAIはまだ黎明期にあり、わずかな企業に限られているものの、そのような状況も長くは続かないだろう。
「どの企業もその方向へ向かっている」とFels氏は述べ、「時間の問題だ──しかも、そう長くはかからない」とした。
この記事は海外Ziff Davis発の記事を朝日インタラクティブが日本向けに編集したものです。
CNET Japanの記事を毎朝メールでまとめ読み(無料)
働くあなたの心身コンディションを見守る
最新スマートウオッチが整える日常へ
イノベーションの「種」から社会実装へ--
社会課題の解決に挑む各社の挑戦
すべての業務を革新する
NPUを搭載したレノボAIパソコンの実力