> >

音声をテキスト化する精度を試す--ジャスト「ドラゴンスピーチ」最新版レビュー

Emi KAMINO2012年11月16日 09時00分

　インタビューや講演録など録音したいわゆる“テープ起こしの作業”に日ごろから手を焼いている人も多いだろう。私の場合、ICレコーダーに録音したファイルをパソコン上で再生しながら、文字に書き起こすのにかかる時間はだいたい録音時間の2.5～3倍程度。音声ファイルを止めたり再生したりしながらざっくり書き起こしをして、最後にもう一度聞き直して細かいところを修正するという大変骨の折れる作業だ。この作業をいかにして効率よく行い、効率よくできるかは積年の課題のひとつでもある。

「ドラゴンスピーチ11J」

　そんな矢先、目に止まったのがジャストシステムが10月19日に発売した「ドラゴンスピーチ11 J」だ。2005年の旧製品から、7年ぶりという実に久しぶりのバージョンアップという。私は以前にもこの手の音声認識ソフトを試したことがあるが、認識精度の低さに実用に耐え得るものではないと判断し、以来、ずっと手を出さずに来た。ユーザーレベルとしては入門者と言っていい。

　発売元によると、旧製品との違いは、音声認識辞書が約50万語から100万語に倍増したことにある。コンピュータが音声認識の際に参照するボキャブラリーが増えたことにより、認識精度は最高99％を達成したとしている。99％と言うと、細かなミスを覗けばほぼ完ぺきに近いレベルだ。いったいどの程度なのかさっそくインストールしてみた。

インストールと“トレーニング”

「プロファイルの作成」画面。最初に起動すると表示される。後から追加、削除、変更したりできる

　インストールの前に、まずは動作環境を確認しておこう。CPUは1.8GHzのIntel Dual Core プロセッサまたは同等のAMDプロセッサ、メモリはWindows 7の場合で4Gバイトを推奨している。また、必要なハードディスクの空き容量は2.8Gバイトと意外にキャパシティーを占めるソフトだ。

　マシンにインストール後、起動するとまずは“プロファイル”の作成が求められる。これは、ユーザーの声を拾うマイクのボリュームや音質を設定する作業で必ず必要となる。

　次の過程として、旧バージョンでは必須だった“トレーニング”を実施する。ユーザーの声の質や話し方の特徴などを登録する作業で、認識精度を上げるためには行ったほうがいいものだが、今回からはこれを省略しても音声認識ができるようになっている。画面上の文章を読み上げるだけの地味な作業とはいえ、それなりに時間を取られてしまうので省けるものなら省けたほうがありがたいのは確かだ。

2、3秒遅れでテキスト化されるが、正確--コツは抑揚をつけないこと

　次にいよいよ音声認識を実施。同梱のヘッドセットマイクに向かって文章を読み上げてみたところ、ほぼ正確に読み上げから2、3秒遅れでテキスト化された。2、3秒遅れと言ってもほぼリアルタイムのスピードなので、タイピングで入力するよりも断然速く、しかも正確で十分に実用に耐えられるレベルだ。驚くのが同音異義語の変換認識で、まるで文章の中身をマシンが理解して選択しているかのような正確さだ。読み方や速度によって認識率に多少の上下があるものの、コツとしてはあまり抑揚をつけずにハキハキとしていないほうが正確に認識してくれる傾向にあった。

プロファイル用の言語と年齢グループを選択。言語は日本語以外にも英語にも対応。年齢は年齢層によって分かれているが、性別の設定はない。男女の中間レベルのサンプルを参照するという
入力デバイスを選択。マイクを使用する場合や音声データを読み込む場合とでそれぞれ個別に設定をする必要がある
マイクの音量を設定。表示された文章を読み上げ「チェック完了」が表示されたらオーケー

オーディオの音質をチェック。音量設定同様に表示された文章を読み上げ、「成功」が表示されたら完了
プロファイルの作成後は約4分間の音読をすることにより、話し方の特徴をソフトに学習させる“トレーニング”を実行。認識精度向上のためにしたほうがいい機能だが、今回からは省略が可能になっている
プロファイルの作成が完了。音声認識が利用可能になる

付属のUSBマイクでウェブの文章を読み上げた音声入力結果。“Windows8”の「エイト」のみ認識せず、日本語で「ハチ」と読み上げ直したが、それ以外はほぼ正確。改行や句読点も音声コマンドとして認識し、実行してくれる
ICレコーダーで同じ文章を読み上げ、音声ファイルを読み込みテキスト化した結果。USBマイク入力より精度は下がったものの、合格レベル
音声入力のモードは、標準の他、ディクテーション、コマンド、数字、つづりモードを切り替えられる。それぞれ適したモードを選ぶことでより認識精度が高まる