スキャンしてデータ化された書類からテキストを抽出できれば、再利用が容易になることで資料作成などの作業が捗る。これから新たに書類をスキャンするのであればスキャナ側の設定でOCRをオンにしておけばよいし、すでにスキャンした後であればOCR機能を持つソフトを用いてあらためて処理する方法もあるが、いずれの方法も使えない場合、オンラインサービスを使うのが手軽だ。
OCR機能を持つオンラインサービスといえば、かつては日本語に対応しないケースがほとんどだったが、最近では日本語固有の縦書きも認識できるなど、高い実用性を備えたサービスが増えつつある。今回は、スキャン書類から日本語テキストを取り出すにあたって実用レベルの認識精度を備えた3つのオンラインサービスを、横書きおよび縦書きでの和英混じり文の認識結果とともに紹介しよう。
なお今回はPDF(単一ページ)のアップロードとTXTのダウンロードに対応し、縦書きにも対応することを条件にサービスを厳選した。以下の元画像(単行本サイズの書籍を300dpiでスキャンしたPDF)と比較してご覧いただきたい。
Googleが運営。Googleアカウントが必要だが、無料で利用ができる。最初にGoogleドライブにファイルをアップロードしたのち、「アプリで開く」でGoogleドキュメントを指定してファイルを開くことで、自動的にテキスト認識が行われる。「形式を指定してダウンロード」でTXTやDOCXなど任意の形式でダウンロードができるほか、PDFに書き戻すことも可能。段組みも自動認識する。
OCR Web Serviceが運営。ユーザー登録なしでの試用は1時間15ページまでで、ユーザー登録(無料)をすれば最大25ページの変換に加え、複数ページの一括変換やページ番号を指定しての変換、テキスト以外のフォーマットでの出力も可能になる。利用手順はまずファイルを指定したのち文書で使用されている言語を選択、CAPTCHA認証を行ってから変換を実行する。インターフェースは英語。有料プランは50ページが4.95ドルから。
ABBYYが運営。ユーザー登録(無料)をすることで最大10ページ、15日間の試用が可能。利用手順はまずファイルを選択したのち文書で使用されている言語(最大3つ)を指定、ついで出力フォーマットを選択することで出力を行う。複数言語が指定できるため和英混じり文も高い精度で変換できるほか、段組みも自動認識する。DropboxやOneDriveなどオンラインストレージへの保存にも対応。有料プランは1カ月あたり200ページが4.99ドルから。
CNET Japanの記事を毎朝メールでまとめ読み(無料)
ものづくりの革新と社会課題の解決
ニコンが描く「人と機械が共創する社会」
ZDNET×マイクロソフトが贈る特別企画
今、必要な戦略的セキュリティとガバナンス