「i2OCR」は、画像内に含まれるテキストをOCRで抽出できるサービスだ。日本語を含む33カ国語に対応しており、テキストをコピーしたいのに画像化されていてコピーできない場合に、このサービスを使って画像内の文字列をテキストデータに手軽に変換できる。
前回紹介した「Free online OCR」との違いは、なんといっても日本語を含む33カ国語に対応していることだ。Free online OCRは29カ国語でアジア圏の言語には対応していなかったので、これは大きな違いだ。またファイルサイズも最大10Mバイトと、Free online OCRの2Mバイトに比べるとかなり余裕がある。
ただし、実際に使った限りでは残念ながら日本語OCRの精度は必ずしも高くない。Googleドキュメントと比べるとわずかながら認識率は高く、何について書かれているかは判読できるが、そのまま引用できるレベルでは決してない。文字サイズを大きくしたり、JPEG以外のBMPやPNGでも試してみたが、あまり違いは見られなかった。Googleドキュメントともども、日本語の精度向上については今後に期待ということになりそうだ。
一方で英語の認識精度はかなり高く、リンクのようにアンダーラインが付与されたテキストもきちんと認識するので、例えば画像内に記述されているURLの文字列を抜き出すといった用途であれば、かなり実用的に使える。またローカルにあるファイルを読み込むだけでなく、URLを直接指定できることも特徴と言えるだろう。
このほか、抽出したテキストをdoc形式のファイルでダウンロードできるなど、機能的には前回紹介したFree online OCRよりも豊富。機能的に劣っているのは、PDFに対応しないことくらいだろうか。OCRによる文字認識の癖もサービスごとにそれぞれ違いがみられるので、ケースバイケースで使い分けるといいだろう。
CNET Japanの記事を毎朝メールでまとめ読み(無料)
ものづくりの革新と社会課題の解決
ニコンが描く「人と機械が共創する社会」
ZDNET×マイクロソフトが贈る特別企画
今、必要な戦略的セキュリティとガバナンス