インタビューや講演録など録音したいわゆる“テープ起こしの作業”に日ごろから手を焼いている人も多いだろう。私の場合、ICレコーダーに録音したファイルをパソコン上で再生しながら、文字に書き起こすのにかかる時間はだいたい録音時間の2.5~3倍程度。音声ファイルを止めたり再生したりしながらざっくり書き起こしをして、最後にもう一度聞き直して細かいところを修正するという大変骨の折れる作業だ。この作業をいかにして効率よく行い、効率よくできるかは積年の課題のひとつでもある。
そんな矢先、目に止まったのがジャストシステムが10月19日に発売した「ドラゴンスピーチ11 J」だ。2005年の旧製品から、7年ぶりという実に久しぶりのバージョンアップという。私は以前にもこの手の音声認識ソフトを試したことがあるが、認識精度の低さに実用に耐え得るものではないと判断し、以来、ずっと手を出さずに来た。ユーザーレベルとしては入門者と言っていい。
発売元によると、旧製品との違いは、音声認識辞書が約50万語から100万語に倍増したことにある。コンピュータが音声認識の際に参照するボキャブラリーが増えたことにより、認識精度は最高99%を達成したとしている。99%と言うと、細かなミスを覗けばほぼ完ぺきに近いレベルだ。いったいどの程度なのかさっそくインストールしてみた。
インストールの前に、まずは動作環境を確認しておこう。CPUは1.8GHzのIntel Dual Core プロセッサまたは同等のAMDプロセッサ、メモリはWindows 7の場合で4Gバイトを推奨している。また、必要なハードディスクの空き容量は2.8Gバイトと意外にキャパシティーを占めるソフトだ。
マシンにインストール後、起動するとまずは“プロファイル”の作成が求められる。これは、ユーザーの声を拾うマイクのボリュームや音質を設定する作業で必ず必要となる。
次の過程として、旧バージョンでは必須だった“トレーニング”を実施する。ユーザーの声の質や話し方の特徴などを登録する作業で、認識精度を上げるためには行ったほうがいいものだが、今回からはこれを省略しても音声認識ができるようになっている。画面上の文章を読み上げるだけの地味な作業とはいえ、それなりに時間を取られてしまうので省けるものなら省けたほうがありがたいのは確かだ。
次にいよいよ音声認識を実施。同梱のヘッドセットマイクに向かって文章を読み上げてみたところ、ほぼ正確に読み上げから2、3秒遅れでテキスト化された。2、3秒遅れと言ってもほぼリアルタイムのスピードなので、タイピングで入力するよりも断然速く、しかも正確で十分に実用に耐えられるレベルだ。驚くのが同音異義語の変換認識で、まるで文章の中身をマシンが理解して選択しているかのような正確さだ。読み方や速度によって認識率に多少の上下があるものの、コツとしてはあまり抑揚をつけずにハキハキとしていないほうが正確に認識してくれる傾向にあった。
CNET Japanの記事を毎朝メールでまとめ読み(無料)
ものづくりの革新と社会課題の解決
ニコンが描く「人と機械が共創する社会」
ZDNET×マイクロソフトが贈る特別企画
今、必要な戦略的セキュリティとガバナンス