> >

「Android」の自動字幕、「周りの音」「ため息」なども表現可能に

Abrar Al-Heeti （CNET News）翻訳校正：編集部2024年12月06日 10時23分

　Googleは米国時間12月5日、自動で生成された字幕の表現をよりリアルなものにする新機能「Expressive Captions」を米国で提供開始した。この機能では、動画やライブ配信で誰かが話している内容だけでなく、その人が「どのように」話しているかも伝えることができる。

提供：Google
※クリックすると拡大画像が見られます

　例えば、誰かが興奮して「HAPPY BIRTHDAY！（誕生日おめでとう！）」と言うと、字幕はすべて大文字で表示される。拍手や音楽など周囲の音も描写され、その場の様子がより鮮明に伝わる。ため息やうめき声、息をのむような音なども文字に起こして表現する。

　この新機能は、動画、電話、音声メッセージなどにリアルタイムで字幕を自動生成する「Live Caption（自動字幕起こし）」の一部だ。この機能は「Android」OSに組み込まれており、スマートフォンのアプリ全体で使えるため、ソーシャルメディアのライブ配信や動画メッセージなど、ほとんどの視聴コンテンツに対応する。字幕はデバイス上で生成されるため、機内モードでも、インターネット接続がなくても利用できる。

提供：Google/Jeffrey Hazelwood/CNET
※クリックすると拡大画像が見られます

　従来、字幕は耳が不自由な人がテレビ番組の内容を理解するのに使ってきた。しかし近年では、例えば地下鉄で音を出さずに動画を視聴したり、映画やテレビ番組の内容をよりよく理解したりするために、さまざまな層の人々が利用している。オンライン語学学習サイトPreplyによると、米国ではZ世代ユーザーの70％が頻繁に字幕付きでテレビを見ているという。一方、ライブ配信やSNSコンテンツ、友人や家族からの動画には、キャプションがあらかじめ含まれていないことが多い。

　Expressive Captionsは、米国で5日から提供される。Android 14以降を搭載し、自動字幕起こしに対応するデバイスが対象で、英語で利用できる。

　Googleはこのほか、目の不自由なユーザーが物体を識別したり、周囲の情報を得たりするのに役立つアプリ「Lookout」もアップデートした。画像に関する追加の質問ができるQ&AモードにAIモデル「Gemini」を採用し、回答を強化した。