logo

[ウェブサービスレビュー]画像から29カ国語のテキストを抽出できるOCRサービス「Free online OCR」

  • このエントリーをはてなブックマークに追加
t-reinhardt.ch
内容:「Free online OCR」は、画像内に含まれる29カ国語のテキストをOCRで抽出できるサービスだ。テキストをコピーしたいのに画像化されていてコピーできない場合に、このサービスを使うことで画像内の文字列をテキストデータに手軽に変換できる。

 「Free online OCR」は、画像内に含まれるテキストをOCRで抽出できるサービスだ。テキストをコピーしたいのに画像化されていてコピーできない場合に、このサービスを使うことで、画像内の文字列をテキストデータに手軽に変換できる。

 画像内に含まれるテキストをOCRで読み取ってテキストデータに変換するツールは、一般的にソフトウェアとして配布および販売されていることが多い。このサービスではソフトのインストールが不要で、利用する際の会員登録も必要ない。サイトを開いて画像をアップロードし、言語を選択して送信するだけでテキストが抽出されるという手軽さだ。

  • 「Free online OCR」トップページ

  • ローカルに保存されている画像ファイルを選択し言語を選んだのち、CAPTCHAの文字を入力して「Send file」をクリックする。画像は最大2Mバイトまで、ファイル形式はPDF/JPEG/GIF/TIFF/BMPに対応する

  • 言語は任意に指定する必要がある。本稿執筆時点では29カ国語に対応するが、残念ながら日本語は含まれていない

 認識の精度はかなり高く、例えばスクリーンショットなどの画像を読み込ませた場合は、多少の手直しを除きほぼ完璧な認識結果が得られる。同様の機能をもつGoogleドキュメントの場合、背景に色が付いている部分は無視されがちなのに対して、このサービスではそれらの部分のテキストも抽出してくれる傾向にあるようだ。ただし画質に大きく依存するので、時刻表を撮影した写真からテキストを抽出するといった用途には向かない。

  • 変換中。処理時間は早くて10秒、時間がかかっても30秒程度だ

  • 変換が完了すると画面上部のインラインフレームに表示される。コピペすることでテキストエディタなどに貼り付けることができる

 具体的な用途としては、翻訳ツールで意味を調べようにも画像化されていてテキストのコピー&ペーストができない時に、まずはこのサービスで原文のテキストを抽出し、それを翻訳ツールにかけるといった使い方が考えられる。こうすれば、いちいち手入力しなくても、翻訳ツールを使って意味を調べられるようになるというわけだ。

 現在のところ29カ国語に対応している。残念ながらその中に日本語を含むアジア圏の言語は含まれていないが、それ以外の用途ではさまざまな活用方法が考えられる。テキストがウェブページのFlash上に表示されていてコピー&ペーストができない場合に、スクリーンショットを撮ってからテキストを抽出するといった使い方もありだろう。翻訳ツールと組み合わせて使えるサービスとして知っておくと便利だ。

-PR-企画特集