> >

［ウェブサービスレビュー］PDFに含まれるテキストデータをオンラインで抽出する「Convert pdf to Text」

山口真弘2013年09月01日 08時00分

ConvertPDFtoText.net

内容：「Convert pdf to Text」は、PDFからテキストデータだけを抽出するサービスだ。手元のPDFファイルをアップロードするとオンラインで解析が実行され、なかに含まれるテキストデータが抽出される。手動でコピペした際のようにテキストの一部を取りこぼすことなく、ファイルに含まれるすべてのテキストを取り出したい場合に向いている。

　「Convert pdf to Text」は、PDFからテキストデータだけを抽出するサービスだ。手元のPDFファイルをアップロードするとオンラインで解析が実行され、なかに含まれるテキストデータが抽出される。手動でコピペした際のようにテキストの一部を取りこぼすことなく、ファイルに含まれるすべてのテキストを取り出したい場合に向いている。

　使い方は簡単で、ローカルのPDFファイルを選んでアップロードするだけ。Unicodeか否かを手動で選ぶオプションはあるが、基本的にはデフォルト設定のままで構わないので、PDFファイルを選んで「Convert and Download」を押すだけの簡単操作ということになる。

　解析が終わるとDownloadボタンが表示されるので、クリックしてダウンロードするとよい。ブラウザの設定によっては、抽出したテキストデータがそのままブラウザ上に表示される場合もあるので、必要に応じてコピーすればよい。文字コードの関係で日本語が化ける場合は、ブラウザ側のエンコード設定を変更してやれば正しく表示される。

「Convert pdf to Text」トップページ。もともとはソフトウェアを配布するためのページで、画面をスクロールした下部に、本サービスで使用するファイル選択画面が用意されている
ファイル選択画面。文字コードを「Unicode」「No Unicode」のいずれかを選んだのち、PDFファイルを選択し、「Convert and Download」をクリックする。なおPDFファイルの選択後に文字コードを変更しようとすると選択ファイルがクリアされてしまうので、文字コードは必ず先に指定する
抽出が完了すると下部に「Download」ボタンが表示されるのでクリック

　単にテキストを書き出すだけであればAdobe Readerにも同様の機能があるが、ほぼプレーンなテキストとして書き出されるAdobe Readerと異なり、本サービスで書き出したテキストは文字の左右寄せや表組みなどの形式が、オリジナルに近い状態となる。テキストを再利用する場合は、こちらのほうが便利な場合もあるだろう。また不可視データの中に部外者にコピーされてはいけないテキストデータが残存していないか、チェックする目的にも使える。

　ネックなのは、使い方がシンプルである反面、特定のページだけを指定するといったオプションがないこと。PDFファイルのすべてのページから抽出する形になるので、ページ数が多いPDFだと、ややわずらわしく感じてしまう（もっともこれはAdobe Readerでも同様なのだが）。個人的には、OCR機能と組み合わせ、スキャンデータからのテキスト抽出ができるといった付加価値があれば、新たな使い方が生まれてくるのではないかと思う。さらなる進化を望みたいサービスだ。

抽出したテキストデータが画面上に表示された。もし文字化けする場合はエンコードの設定から「Unicode」など使用したエンコード設定を選んでやるとよい。試した限りではIEやChromeでは化けることが多いようだ
こちらは同じPDFファイルから、Adobe Readerで抽出したテキスト。本サービスは文字の左右寄せや表組みがオリジナルに近い状態で抽出されるが、Adobe Readerを使った場合はほぼプレーンテキストで抽出される。目的に応じて使い分けるとよさそうだ