2000時間の録音データから3秒で検索--日立が大規模音声検索技術

  • このエントリーをはてなブックマークに追加

 日立製作所は10月6日、大規模な録音データの中から任意のキーワードを含む音声を高精度かつ高速に検索する技術を開発したと発表した。

 この技術は、録音データを音素(音声の基本単位)記号処理を用いてインデックス検索した上で、音声特徴量を用いたより精緻な再検索により、段階的に精度を高めながら音声を検索するというもの。

 インデックス検索では、音素がどのタイミングで出現するかをインデックスとして保存し、検索する。このインデックス処理を最適化し、不要なインデックスを削減することで任意のキーワードを含む音声の高速検索ができるとのことだ。

 一方音声特徴量を利用した検索では、処理を2段階にわけて、段階的に精度を高めることで、検索速度を損うことなく、高精度検索ができるという。

 こうした検索技術により、2000時間の録音の中からでも約3秒でキーワードを含む音声の検索が可能。音声付き映像コンテンツの検索をはじめ、コールセンターなど顧客の生の声を迅速に検索し、商品やサービスの向上に役立てるなど、幅広い応用に活用できるという。

 従来の音声検索技術には、録音データを音素の記号列に変換し高速にキーワードを照合する方式と、録音データの音声特徴量を解析し高精度で照合する2方式があった。しかし前者には検索精度に、後者には照合処理に膨大な時間がかかるという問題があった。同社では今回2つの技術を組み合わせることで、高速かつ正確な音声検索が実現したとしている。

  • このエントリーをはてなブックマークに追加