Googleは米国時間12月5日、自動で生成された字幕の表現をよりリアルなものにする新機能「Expressive Captions」を米国で提供開始した。この機能では、動画やライブ配信で誰かが話している内容だけでなく、その人が「どのように」話しているかも伝えることができる。
例えば、誰かが興奮して「HAPPY BIRTHDAY!(誕生日おめでとう!)」と言うと、字幕はすべて大文字で表示される。拍手や音楽など周囲の音も描写され、その場の様子がより鮮明に伝わる。ため息やうめき声、息をのむような音なども文字に起こして表現する。
この新機能は、動画、電話、音声メッセージなどにリアルタイムで字幕を自動生成する「Live Caption(自動字幕起こし)」の一部だ。この機能は「Android」OSに組み込まれており、スマートフォンのアプリ全体で使えるため、ソーシャルメディアのライブ配信や動画メッセージなど、ほとんどの視聴コンテンツに対応する。字幕はデバイス上で生成されるため、機内モードでも、インターネット接続がなくても利用できる。
従来、字幕は耳が不自由な人がテレビ番組の内容を理解するのに使ってきた。しかし近年では、例えば地下鉄で音を出さずに動画を視聴したり、映画やテレビ番組の内容をよりよく理解したりするために、さまざまな層の人々が利用している。オンライン語学学習サイトPreplyによると、米国ではZ世代ユーザーの70%が頻繁に字幕付きでテレビを見ているという。一方、ライブ配信やSNSコンテンツ、友人や家族からの動画には、キャプションがあらかじめ含まれていないことが多い。
Expressive Captionsは、米国で5日から提供される。Android 14以降を搭載し、自動字幕起こしに対応するデバイスが対象で、英語で利用できる。
Googleはこのほか、目の不自由なユーザーが物体を識別したり、周囲の情報を得たりするのに役立つアプリ「Lookout」もアップデートした。画像に関する追加の質問ができるQ&AモードにAIモデル「Gemini」を採用し、回答を強化した。
また、同社はAndroidのGeminiに拡張機能を追加し、ユーティリティ、Spotify、メッセージ、電話などのアプリにGeminiから簡単にアクセスできるようにした。
「Pixel」デバイスには、Geminiに関心や好みを記憶させる機能なども追加されている。
Android’s Expressive Captions uses AI to bring emotion to captions
高コスパなシャオミのPD対応モバイルバッテリー(価格をAmazonでチェック)
この記事は海外Ziff Davis発の記事を朝日インタラクティブが日本向けに編集したものです。
CNET Japanの記事を毎朝メールでまとめ読み(無料)
すべての業務を革新する
NPUを搭載したレノボAIパソコンの実力
日本のインターステラテクノロジズが挑む
「世界初」の衛星通信ビジネス
地味ながら負荷の高い議事録作成作業に衝撃
使って納得「自動議事録作成マシン」の実力
NTT Comのオープンイノベーション
「ExTorch」5年間の軌跡
先端分野に挑み続けるセックが語る
チャレンジする企業風土と人材のつくり方