logo

富士通、手書き文字を高精度で認識するAIモデル開発

  • このエントリーをはてなブックマークに追加

 富士通研究開発中心有限公司(FRDC)と富士通研究所は11月8日、手書き文字列での画像認識において、信頼性の高い認識結果を出力できる人工知能モデルを開発したと発表した。中国語の手書き文字列の認識性能としては世界最高精度の認識率96.3%を達成した。

 中国語での単一の手書き文字では、深層学習をベースとしたAIモデルが、すでに人間の認識能力を超えている。しかし、手書きの文字列に適用した場合、1つの文字の区切りを正しく判別できず、部首やつくりなど文字ではない画像も検出してしまい、文字の区切りを判別できない課題があった。

従来深層学習モデルの文字列認識結果
従来深層学習モデルの文字列認識結果

 AIを活用した従来の手書き文字列の認識は、文字の教師サンプルを用いて、人間が認識するときに使う多数の文字パターンの特徴を学習する。次に文字列の空白部分から、部首とつくりのように複数領域に分割し、その領域が1つの文字を表す場合と、隣り合う領域を組み合わせて1つの文字になる場合に分けて、候補となる文字と信頼度を算出する。

 最終的に平均信頼度の最も高い組み合わせを選択することで文字列の認識結果として出力される。今回、部首やつくりなどのパーツや、文字にならないパーツの組み合わせからなる非文字の教師サンプルによる異種深層学習モデルにより、正しい文字のみに高い信頼度が出力される技術を開発した。

 なお、異種深層学習モデルには、従来の文字の教師サンプルと、非文字の教師サンプルの2種類が含まれる。中国語文中で隣り合って現れやすいパーツの組み合わせを、非文字の特徴として記憶させて重みづけすることで、非対称な構造の深層学習モデルに対しても、効果的に学習できるようになった。

異種深層学習モデルの訓練と認識処理
異種深層学習モデルの訓練と認識処理

 今回の認識技術により、中国科学院自動化研究所「Institute of Automation, Chinese Academy of Sciences」 が2010年に公開し、学会で標準として用いられている手書き中国語データベースのベンチマークにおいて、従来技術に比べて5%上回る96.3%の最高精度を達成している。

異種深層学習モデルの文字列認識結果
異種深層学習モデルの文字列認識結果

 富士通では、スペースによる単語の区切りのない、中国語、日本語、韓国語などの言語に対して有効な技術だとしている。2017年には、富士通のAI技術「Human Centric AI Zinrai(ジンライ)」に実装し、日本向けソリューションに適用する予定だ。

-PR-企画特集