ビー・ユー・ジーはこのほど、音声を字幕に変換するサービスを開始した。
通常の音声認識技術では、話者の特徴をコンピュータに記憶させることで認識率を高めるが、同社のサービスは逆の発想で作られたシステム。話者の話す内容を同時に特定の人が復唱することによって音声の特徴を揃え、認識率を高めるという。これまでの試験運用の結果を生かし、事業として本格的に取り組む。
音声同時字幕サービスは、話した言葉をコンピュータを使って音声認識し、同時に文字データを出力するもの。 同社のサービスでは、アナウンサーなど特定の訓練をした人が話者の話す内容を同時に復唱し、コンピュータに認識させて認識率を高める。さらに、コンピュータから出力された文字データは、同時修正者によって誤認識された箇所を直ちに修正することで精度の高い文字データを作成できるという。
字幕精度は93%〜98%程度で、平均的には95%。発話から字幕表示までの遅延時間は7秒〜20秒で、平均は12秒程度という。復唱者の数は、今後増やしていくとしている。
同サービスは、ビー・ユー・ジーが東京大学先端科学技術研究センターと共同研究し、経済産業省の2005年度地域新生コンソーシアム研究開発事業に採択されて研究開発を進めてきたもの。4月23日からサービスの提供を開始しており、同社の所在地である札幌市内と東京都内を中心に、講演会や展示会、セミナーなどでの利用を見込んでいくという。
CNET Japanの記事を毎朝メールでまとめ読み(無料)
ZDNET×マイクロソフトが贈る特別企画
今、必要な戦略的セキュリティとガバナンス
ものづくりの革新と社会課題の解決
ニコンが描く「人と機械が共創する社会」