「Convert pdf to Text」は、PDFからテキストデータだけを抽出するサービスだ。手元のPDFファイルをアップロードするとオンラインで解析が実行され、なかに含まれるテキストデータが抽出される。手動でコピペした際のようにテキストの一部を取りこぼすことなく、ファイルに含まれるすべてのテキストを取り出したい場合に向いている。
使い方は簡単で、ローカルのPDFファイルを選んでアップロードするだけ。Unicodeか否かを手動で選ぶオプションはあるが、基本的にはデフォルト設定のままで構わないので、PDFファイルを選んで「Convert and Download」を押すだけの簡単操作ということになる。
解析が終わるとDownloadボタンが表示されるので、クリックしてダウンロードするとよい。ブラウザの設定によっては、抽出したテキストデータがそのままブラウザ上に表示される場合もあるので、必要に応じてコピーすればよい。文字コードの関係で日本語が化ける場合は、ブラウザ側のエンコード設定を変更してやれば正しく表示される。
単にテキストを書き出すだけであればAdobe Readerにも同様の機能があるが、ほぼプレーンなテキストとして書き出されるAdobe Readerと異なり、本サービスで書き出したテキストは文字の左右寄せや表組みなどの形式が、オリジナルに近い状態となる。テキストを再利用する場合は、こちらのほうが便利な場合もあるだろう。また不可視データの中に部外者にコピーされてはいけないテキストデータが残存していないか、チェックする目的にも使える。
ネックなのは、使い方がシンプルである反面、特定のページだけを指定するといったオプションがないこと。PDFファイルのすべてのページから抽出する形になるので、ページ数が多いPDFだと、ややわずらわしく感じてしまう(もっともこれはAdobe Readerでも同様なのだが)。個人的には、OCR機能と組み合わせ、スキャンデータからのテキスト抽出ができるといった付加価値があれば、新たな使い方が生まれてくるのではないかと思う。さらなる進化を望みたいサービスだ。
CNET Japanの記事を毎朝メールでまとめ読み(無料)
ZDNET×マイクロソフトが贈る特別企画
今、必要な戦略的セキュリティとガバナンス
ものづくりの革新と社会課題の解決
ニコンが描く「人と機械が共創する社会」