大日本印刷(DNP)とNHKテクノロジーズは8月24日、映像と音声をAI(人工知能)で解析し、内容や感情に合わせた最適なイメージのフォントで字幕を表示する「感情表現字幕システム」のプロトタイプを、共同で開発したと発表した。
このシステムは、2018年にDNPが開発した、文章の内容に合うフォントを自動で判別して表示する「DNP感情表現フォントシステム」を活用したもの。これにより、耳の不自由な方や音が出せない環境でも、番組の臨場感を伝えることができるとしている。
録画やライブ(生放送)の音声を解析し、リアルタイムで字幕を自動的に付与するというもの。その際、字幕の内容や発話者の表情を解析して感情を把握し、その感情の表現に最適なフォントを12種類の中から自動で選んで字幕に使用する。例えば、楽しい内容は丸みのあるフォントで、怒っている内容は角ばったフォントで表示するといったことにより、直感的に内容を伝える。また、映像内の発話者を特定し、自動的にその口元の近くに字幕を表示することが可能。複数の人物が登場する映像でも、誰が何を話しているかを直感的に伝えることができる。
開発の背景として、NHKテクノロジーズが行った、2018年度に「多様な視聴者が番組やコンテンツを楽しめる」をテーマに、聴覚に障がいのある方とディスカッションで「これまでの字幕放送はフォントに抑揚が無い」、「タイミングがずれることがある」、「発話者がわかりにくい」といった課題が挙がり、一方で、映像効果としてテロップに使われるユニークなフォントは印象深くなるという意見も挙がったという。また、制作側では番組に字幕を入れる作業が大きな負荷になっており、自動的に精度の高い字幕を付与できる技術が求められていたと、開発の背景を説明している。
今後両社は感情表現字幕システムの開発を継続し、字幕放送(オープンキャプション)での実用化を目指す。さらに音声認識や感情認識のAIの精度を向上させるほか、リアルタイム性の向上も進め、生放送やインターネット同時配信サービスの字幕(クローズドキャプション)への展開も目指すとしている。そしてDNPは、デジタルサイネージなどの動画の字幕に応用するほか、誰でも利用できる映像編集用ソフトウェアとして提供する計画としている。
CNET Japanの記事を毎朝メールでまとめ読み(無料)
ZDNET×マイクロソフトが贈る特別企画
今、必要な戦略的セキュリティとガバナンス
ものづくりの革新と社会課題の解決
ニコンが描く「人と機械が共創する社会」