logo

縦書きも認識、日本語テキストの抽出に適したウェブサービス3選

  • このエントリーをはてなブックマークに追加

 スキャンしてデータ化された書類からテキストを抽出できれば、再利用が容易になることで資料作成などの作業が捗る。これから新たに書類をスキャンするのであればスキャナ側の設定でOCRをオンにしておけばよいし、すでにスキャンした後であればOCR機能を持つソフトを用いてあらためて処理する方法もあるが、いずれの方法も使えない場合、オンラインサービスを使うのが手軽だ。

 OCR機能を持つオンラインサービスといえば、かつては日本語に対応しないケースがほとんどだったが、最近では日本語固有の縦書きも認識できるなど、高い実用性を備えたサービスが増えつつある。今回は、スキャン書類から日本語テキストを取り出すにあたって実用レベルの認識精度を備えた3つのオンラインサービスを、横書きおよび縦書きでの和英混じり文の認識結果とともに紹介しよう。

 なお今回はPDF(単一ページ)のアップロードとTXTのダウンロードに対応し、縦書きにも対応することを条件にサービスを厳選した。以下の元画像(単行本サイズの書籍を300dpiでスキャンしたPDF)と比較してご覧いただきたい。

  • 今回テストに使用したスキャンファイルのサンプル。左が横書き

  • 右が縦書き

Google ドキュメント

 Googleが運営。Googleアカウントが必要だが、無料で利用ができる。最初にGoogleドライブにファイルをアップロードしたのち、「アプリで開く」でGoogleドキュメントを指定してファイルを開くことで、自動的にテキスト認識が行われる。「形式を指定してダウンロード」でTXTやDOCXなど任意の形式でダウンロードができるほか、PDFに書き戻すことも可能。段組みも自動認識する。

  • Google ドキュメント。左が横書き

  • 右が縦書き

Online OCR

 OCR Web Serviceが運営。ユーザー登録なしでの試用は1時間15ページまでで、ユーザー登録(無料)をすれば最大25ページの変換に加え、複数ページの一括変換やページ番号を指定しての変換、テキスト以外のフォーマットでの出力も可能になる。利用手順はまずファイルを指定したのち文書で使用されている言語を選択、CAPTCHA認証を行ってから変換を実行する。インターフェースは英語。有料プランは50ページが4.95ドルから。

  • Online OCR。左が横書き

  • 右が縦書き

ABBYY FineReader Online

 ABBYYが運営。ユーザー登録(無料)をすることで最大10ページ、15日間の試用が可能。利用手順はまずファイルを選択したのち文書で使用されている言語(最大3つ)を指定、ついで出力フォーマットを選択することで出力を行う。複数言語が指定できるため和英混じり文も高い精度で変換できるほか、段組みも自動認識する。DropboxやOneDriveなどオンラインストレージへの保存にも対応。有料プランは1カ月あたり200ページが4.99ドルから。

  • ABBYY FineReader Online。左が横書き

  • 右が縦書き

-PR-企画特集