logo

[ウェブサービスレビュー]33カ国語をオンラインでOCR処理できる「i2OCR」

  • このエントリーをはてなブックマークに追加
Sciweavers
内容:「i2OCR」は画像内に含まれるテキストをOCRで抽出できるサービスだ。日本語を含む33カ国語に対応しており、テキストをコピーしたいのに画像化されていてコピーできない場合に、このサービスを使って画像内の文字列をテキストデータに手軽に変換できる。

 「i2OCR」は、画像内に含まれるテキストをOCRで抽出できるサービスだ。日本語を含む33カ国語に対応しており、テキストをコピーしたいのに画像化されていてコピーできない場合に、このサービスを使って画像内の文字列をテキストデータに手軽に変換できる。

 前回紹介した「Free online OCR」との違いは、なんといっても日本語を含む33カ国語に対応していることだ。Free online OCRは29カ国語でアジア圏の言語には対応していなかったので、これは大きな違いだ。またファイルサイズも最大10Mバイトと、Free online OCRの2Mバイトに比べるとかなり余裕がある。

  • 「i2OCR」トップページ。会員登録不要で利用できる。対応するファイル形式は前回紹介した「Free online OCR」よりも多いが、PDFが含まれていないのはややマイナス

  • ローカルのファイルをアップロードする以外に、URLを直接指定することもできる。言語は日本語を含む33カ国語から指定できる。ちなみに認識率を向上させるためには200dpi以上が望ましいことが明記されている

  • 指定が終わったら「Convert」ボタンを押す

 ただし、実際に使った限りでは残念ながら日本語OCRの精度は必ずしも高くない。Googleドキュメントと比べるとわずかながら認識率は高く、何について書かれているかは判読できるが、そのまま引用できるレベルでは決してない。文字サイズを大きくしたり、JPEG以外のBMPやPNGでも試してみたが、あまり違いは見られなかった。Googleドキュメントともども、日本語の精度向上については今後に期待ということになりそうだ。

  • 変換完了。左が抽出されたテキストデータ、右が元画像。英語はほぼそのまま使えるレベルで認識する。変換速度もそこそこ速い

  • 日本語の精度は高いとは言えないが、Googleドキュメントに比べるとまだ読めなくもない。まだまだと見るか、健闘していると見るか判断は分かれそうだ

  • 「Download Text」をクリックすると、抽出したテキストをdoc形式のファイルに変換してダウンロードできる

 一方で英語の認識精度はかなり高く、リンクのようにアンダーラインが付与されたテキストもきちんと認識するので、例えば画像内に記述されているURLの文字列を抜き出すといった用途であれば、かなり実用的に使える。またローカルにあるファイルを読み込むだけでなく、URLを直接指定できることも特徴と言えるだろう。

 このほか、抽出したテキストをdoc形式のファイルでダウンロードできるなど、機能的には前回紹介したFree online OCRよりも豊富。機能的に劣っているのは、PDFに対応しないことくらいだろうか。OCRによる文字認識の癖もサービスごとにそれぞれ違いがみられるので、ケースバイケースで使い分けるといいだろう。

-PR-企画特集