Googleは、インターネットに接続していなくても、「Nexus 5」で「リアルタイムより高速に」動作するほど容量の小さな音声認識システムを開発した。
離れた場所にあるデータセンターでの演算処理が不要なこの新システムを使えば、安定したネットワーク接続が必要であるという条件にとらわれることなく、スマートフォンやスマートウォッチなど、メモリに制約のあるいかなるガジェットでも音声認識を利用できる可能性がある。
Googleの研究チームが新たな論文で示した概要によると、目的は、ローカルで動作する軽量だが正確な組み込み型の音声認識システムを開発することだという。
研究チームの言う軽量とは、容量20.3Mバイトのシステムのことだ。これを2.26GHzのCPUと2GバイトのRAMが搭載されたNexus 5でテストすると、自由に記述するディクテーション(口述)作業で単語誤り率13.5%を達成した。
当然のことながら、Googleによる最近の多くの研究と同様、このシステムも機械学習技術を基盤としている。この場合は、「『Connectionist Temporal Classification』(CTC)および『state-level Minimum Bayes Risk』(sMBR)という技術で訓練した『Long Short-Term Memory』(LSTM)のリカレントニューラルネットワーク(RNN)」だ。
システム要件を切り詰めるため、研究チームはディクテーションと音声コマンドという2つのまったく異なる領域に対して単一のモデルを開発した。さまざまな技術を使って、音響モデルを元のサイズの10分の1に圧縮している。
研究チームが述べているように、オフラインで動作する組み込み型の音声認識システムはすでに、「Darnica Cumberlandさんに『スケジュール変更できる?』というメールを送信して」といったコマンドを、ユーザーに気づかれないよう、即座に文字化して後から実行するという形で処理できるようになっている。ただし、正しく文字化するには、連絡相手の氏名などの個人情報を組み込む必要がある。
この問題に対する研究チームの回答は、デバイスの連絡先リストをモデルに組み込むことだった。
音響モデルを訓練するため、研究チームはGoogleの音声検索トラフィックから2000時間分に及ぶ300万種類の音声を抽出した。さらに、モデルをより確固としたものにするため、YouTubeの動画からノイズサンプルも取り込んだ。研究チームが開発した元の音響モデルの容量は約80Mバイトだった。
この記事は海外CBS Interactive発の記事を朝日インタラクティブが日本向けに編集したものです。
CNET Japanの記事を毎朝メールでまとめ読み(無料)
「ゲームチェンジ」でITを核にした時代へ!
アジャイルな組織と開発体制を識者が語る
クラウド活用と合わせて考えたい
「ガバナンス強化策」のポイント
働き方改革の目的は「生産性向上」。未来を
切り開くためのカギは「デジタル導入」を
VMware提供、HCIベースのインフラの威力!
「VMware Quick Win Solution」の事例増加