rinnaは12月7日、大規模言語モデルGPTを活用した日本語音声認識モデル「Nue ASR」を開発したと発表した。同モデルは、商用利用可能なライセンスとして公開されている。
同社によると、AI技術の進歩により、従来では困難であった処理もAIで実現可能となりつつあるという。
こうした飛躍的な進展は、大量のデータから事前学習された基盤モデルを活用することで達成。特に、テキストを処理するための基盤モデルである大規模言語モデルGPTは、自然言語による人間とコンピュータのインターフェースを実現し多くのサービスで利用されるようになっている。
テキストだけでなく、画像や音声の処理においても、タスクに適した基盤モデルを活用することで、高い性能が達成できることが報告されているという。
同社は、日本語の処理に適したGPT・BERT・HuBERT・CLIP・Stable Diffusionなど、テキスト・音声・画像に関する事前学習済み基盤モデルの公開により、日本語のAI開発を支えている。
2021年4月から公開してきたrinnaモデルのダウンロード数は累計440万を超え、多くの研究・開発者が利用しているという。
最近では、事前学習された基盤モデルを組み合わせ、さまざまなタスクをこなすAIが開発されている。
そこで今回、これまでに開発・公開してきた日本語に特化したテキスト基盤モデルGPTと、音声基盤モデルHuBERTを統合した音声認識モデル「Nue ASR」を開発。Hugging Faceに、商用利用可能なApache-2.0 Licenseで公開した。
日本語音声認識モデル「Nue ASR」は、テキスト基盤モデルGPTと、事前学習済みの音声基盤モデルHuBERTの間に畳み込み層を挟んで統合したモデル。モデル名の由来は、妖怪の「鵺(ぬえ)」。
事前学習済みの基盤モデルを活用することで、音声認識モデルの学習コストを軽減できるという。また、音声認識モデルの学習データには、約19,000時間からなる日本語音声コーパスReazonSpeechコーパスを用いている。
なお、テキスト生成の分野でデファクトスタンダードとなっているGPT構造を用いており、活発に開発されている最先端の手法を容易に導入可能だという。
例えば、GPTの高速推論手法であるDeepSpeedを導入することで、リアルタイムファクタ(認識時間/音声の長さ)は、0.22から0.15に短縮した。CSJの学習セットを用いたドメイン適応のためのファインチューニングにより、CSJ Eval1テストセットの文字誤り率は30.93%から5.43%に改善している。
認識率や処理速度は、利用条件によってはOpenAI WhisperシリーズやReazonSpeechモデルに匹敵する性能を達成。デファクトスタンダードであるGPTを利用したNue ASRは、より高性能な事前学習済みGPTへの置き換えや、日々開発されるGPTのための手法を導入するなど、改良のための選択肢が多くあり、今後の性能改善も期待できるという。
同社は、人間とAIのコミュニケーションのために大規模言語モデルを用いたテキスト生成や音声合成の研究・開発・提供を実施。今回の音声認識モデルの開発により、音声対話に必要となる音声認識・テキスト生成・音声合成の実験を一通り遂行できたと考えているという。
これまでの実験で得られた多くの知見を生かし、大規模言語モデルの次の活用方法である音声対話の研究・開発・提供を進め、AIの社会実装を行っていくとしている。
CNET Japanの記事を毎朝メールでまとめ読み(無料)
住環境に求められる「安心、安全、快適」
を可視化するための“ものさし”とは?
ZDNET×マイクロソフトが贈る特別企画
今、必要な戦略的セキュリティとガバナンス
ものづくりの革新と社会課題の解決
ニコンが描く「人と機械が共創する社会」