日本語縦書きフォントに対応した PDF 文書テキスト・イメージ抽出ライブラリー
インフォテック株式会社 (東京都府中市) は、10月11日より、PDF 文書からテキストやイメージを抽出するプログラムライブラリーの最新版 PDFlib TET 5の販売を開始しました。
PDFlib TET は、ドイツの PDFlib 社が開発したソフトウェアで、日本を含め世界 100 カ国以上で 20,000 ライセンスを超える導入実績がある PDF 生成の定番ライブラリー PDFlib の姉妹品です。PDFlib TET により、開発者はアプリケーションから PDF 文書のテキストやイメージを抽出して利用できます。
PDFlib TET 5 では、縦書き文書のサポートを強化するため、日本語を含む縦書きフォントに対応した他、テキスト色の抽出やイメージのマスク(イメージマスク、ソフトマスク)などへの対応を行うなど、さまざまな機能の強化が図られています。
【PDFlib TET 5 の新機能】
●テキスト抽出の機能強化
日本、中国、韓国語に関する縦書きフォントをサポートした他、塗りつぶし及び描画カラーの抽出に対応しました。
●イメージ抽出の機能強化
イメージマスクとソフトマスク、JPEG 2000 圧縮イメージのマージ及び変換、TIFF イメージから抽出されたスポットカラーの保存をサポートした他、イメージ抽出処理に関するさまざまな強化が図られています。
●ページ処理の機能強化
タグ付き PDFにおける無関係なコンテンツの無効化、主要レイヤーや主要クリッピングパスでの不可視コンテンツの無効化に対応しました。また、ページ領域にテキスト、イメージ、ベクターグラフィックスがあるかどうかの判定をサポートしました。
●TETML 出力の機能強化
PDF 文書のテキスト、イメージやメタデータを XML 形式で出力する TETML 出力機能に次の機能が加わりました。
・テキストの塗りつぶし及び描画カラーの出力
・アノテーション、フォームフィールド、しおり、アクション、JavaScript 署名などを含む、インタラクティブ要素情報の出力
・カラースペースや ICC プロファイル詳細の出力
・レイヤー、ページラベルに関する情報の出力
●pCOS 機能の強化
PDF 文書の情報を抽出する pCOS 機能に次の機能が加わりました。
・ICC プロファイルの詳細とイメージマスクプロパティのための pCOS 疑似オブジェクト
・フォームフィールドのための pCOS 疑似オブジェクト
●その他
上記の他、損傷または非準拠の PDF文書に対する追加検査と問題解決をはじめ、言語バインディングの更新など、やさまざまな改善が含まれています。
【詳細な製品情報】
リンク
【本リリースに関するお問い合わせ】
会 社 名: インフォテック株式会社 (infoTek K.K.)
電 話: 042-358-5777
F A X: 042-358-5801
メ ー ル: pdflib_sales@infotek.co.jp
ホームページ: リンク
----------------------------- ご参考情報 -----------------------------
【PDFlib TET 5 の価格】
PDFlib TET (63,000円 ~ (税別))
【対応プラットフォーム、対応言語】
プラットフォーム: Windows、OS X、Linux、Solaris、HP-UX、AIX、
iOS、Android、i5/iSeries、zSeries(USS/MVS)
言語: C、C++、Java、Perl、PHP、Ruby、Python、COM、.NET
以上
----------------------------------------------------------------------
御社のプレスリリース・イベント情報を登録するには、ZDNet Japan企業情報センターサービスへのお申し込みをいただく必要がございます。詳しくは以下のページをご覧ください。