logo

SpeechRecに世界最高レベルの音声認識技術を搭載

~コンタクトセンターや対話ロボットなどのAIビジネスを加速~

NTTテクノクロス株式会社(以下、NTTテクノクロス 本社:東京都港区港南、代表取締役社長:串間和彦)は、高精度音声認識ソフトウェア「SpeechRec」をバージョンアップし、2017年6月22日から提供します。

SpeechRecは、NTTメディアインテリジェンス研究所が開発した最先端の音声認識エンジン「VoiceRex」を搭載した高精度音声認識ソフトウェアです。VoiceRexは、NTTグループが推進しているAI技術「corevo®」を支える重要な技術の一つであり、世界最高レベルの音声認識精度を達成したCNN-NIN*1技術を採用しています。今回のSpeechRecのバージョンアップでは、新しいVoiceRexを採用することで音声認識率の向上を図るとともに、10言語の多言語化と高精度な言語識別を実現し、さらに多様な周囲雑音がある環境下での発話であっても精度良く検出できるようになりました。バージョンアップしたSpeechRecを利用することにより、コンタクトセンターにおける音声認識精度の向上や、様々な環境に置かれた対話ロボットでの高精度な音声認識など、多様な用途でご利用いただけます。

■背景
近年、音声認識が利用されるシーンが多く見られるようになっています。スマートフォンやタブレット端末のアプリでの利用、対話ロボットといった新たな分野や屋内屋外を問わず様々なシーンでの利用が盛んになっています。また、訪日外国人の増加もあり、外国語に対応した音声認識のニーズも高まっています。
NTTテクノクロスでは、NTT研究所において永年取り組んできた音声認識技術をタイムリーに製品化し、コンタクトセンターやIVR*2などの電話音声認識や対話ロボットなどへの導入を進めてきました。利用分野が多様化するにつれ、更なる認識精度の向上や多様な周囲環境でも利用可能なシステムの要望が高まってきました。
今回、従来のSpeechRecにNTT研究所が開発した新たなVoiceRexを搭載することで音声認識の精度向上と多言語化対応するとともに、多様な周囲環境への対応を図ったうえでの認識精度の向上を実現できるようバージョンアップしました。

■特長
SpeechRecはサーバ・クライアント型の構成となっており、お客様はクライアントアプリ開発用のSDK(Software Development Kit)を利用してアプリを開発することが可能です。各構成部分について、今回、下記に示す性能向上を達成しました。

(1)世界最高レベルの精度を達成した最新のDNN*3技術を採用
CHiME-3(音声認識の技術評価国際イベント)において、NTT研究所が開発した最新のDNN技術が、参加25機関中トップの精度を実現*4しました。この技術をSpeechRecに採用することにより従来に比べ、さらに高精度な認識率を達成しました。音声エージェントとの対話を想定した発話(例:「横浜から大手町まで」)の評価において、誤り改善率が約20%(例えば、認識率90%から92%に向上)に達することを確認しました。

(2)多言語対応
主に訪日外国人向けのアプリやサービスへの導入を想定し、アジア系言語を中心に10言語に対応しました。対応言語は、日本語、英語、中国語(北京、広東、台湾)、韓国語、タイ語、ベトナム語、マレーシア語、インドネシア語となっており、日本語と英語については、コンタクトセンターなどでの自然な会話の認識も高精度に行うことが可能です。

(3)高精度な言語識別機能
多言語に対応したアプリやサービスにおいて、話す言語を特に指定しなくても、自動的に言語を判断することができれば使い勝手が非常によくなります。今回、自動的に言語を識別する機能を採用し、平均5秒程度の発話から99.5%の精度で言語識別が可能な世界最高レベルの性能を実現しました。

(4)音声区間検出雑音抑圧エンジン
実際に人が発話し始めることにより自動的に音声認識を開始し、話し終わると同時に自動的に音声認識を終了することで使い勝手が良くなり、発話前後の余計なデータを送らないことで効率的に認識できます。また、音声以外の周囲雑音を抑圧することで音声認識率を高める処理が効果的です。今回新たに、DNN技術をベースとした音声区間検出雑音抑圧エンジンを搭載したことで、車内や駅などの周囲雑音が大きい環境においても従来型よりも平均で約2%の認識率の向上が確認できました。

■利用シーン
○コンタクトセンター
NTTテクノクロスでは、オペレータとお客様の通話をSpeechRecで音声認識し、大量のデータから様々な分析を行う音声マイニングソリューションとして「ForeSight Voice Mining」を提供しています。今回のバージョンアップにより、コンタクトセンターでの音声認識率がさらに向上し、ForeSight Voice Miningの有効性がさらに高まります。また、多言語対応や言語識別機能により、外国人向けの自動応答を実現する可能性が高まります。
○スマートフォン、タブレット端末など
雑音環境下での認識精度向上や多言語対応により、音声認識を活用した様々なアプリへの活用が期待されます。
○業務端末
設備点検や日報の入力など、業務用データ入力として音声による入力を活用するシーンが増えています。音声認識率が大きく低下する高騒音下の場合でも、NTTテクノクロスのインテリジェントマイク技術*5と組み合わせることで音声認識率の低下を抑えることができます。工場などこれまで音声認識が不可能であった場所においても音声認識による業務効率化が可能となります。
○対話ロボット、サイネージ
AIを活用した対話型システムが活発に開発されています。多言語に対応し、周囲雑音に強く、高精度な音声認識が可能なSpeechRecを利用することにより、対話型システムの価値がさらに高まります。

■提供形態
オンプレミス型:サーバソフトウェアとクライアントSDKを提供。
クラウド型:クラウドサービスとして提供予定。時期は未定。
*日本語と英語以外の言語については、お客様のご要望により、個別対応いたします。

■価格
実際の利用環境などにより構成や価格が変わるため、詳細はお問い合わせください。

このプレスリリースの付帯情報

SpeechRecの構成イメージ

(画像をクリックすると拡大画像をご覧いただけます。)

用語解説

*1:CNN-NIN(Convolutional Neural Network and Network In Network)
CNN-NINは新しいNeural Netrork技術で、従来に比べ精度の高い学習ができる。

*2:IVR(Interactive Voice Response、音声自動応答装置)
電話の応答と音声による情報の入出力や対話をコンピュータにて行う装置。

*3:DNN(Deep Neural Network)
機械学習の一種であるNeural Networkの階層を深くしたアルゴリズムで、画像認識や音声認識等の分野で活用されている。

*4:NTT研究所が開発した最新のDNN技術が、参加25機関中トップの精度を実現
2015年12月14日 日本電信電話株式会社報道発表
「公共エリア雑音下でのモバイル音声認識の国際技術評価で、世界1位の精度を達成」
リンク

*「corevo®」は日本電信電話株式会社の商標です。(リンク) 
*「SpeechRec」「ForeSight Voice Mining」はNTTテクノクロス株式会社の登録商標です。
* その他記載されている商品名・会社名などの固有名詞は一般に該当する会社もしくは組織の商標または登録商標です。

本プレスリリースは発表元企業よりご投稿いただいた情報を掲載しております。
お問い合わせにつきましては発表元企業までお願いいたします。