HPが開発したOCRエンジン「Tesseract」、グーグルの支援で公開に

文:David Meyer(Special to CNET News.com) 翻訳校正:編集部2006年09月06日 22時43分
  • このエントリーをはてなブックマークに追加

 Googleのエンジニアらが、かつてHewlett-Packard(HP)が開発した光学式文字認識(OCR)エンジンをよみがえらせた。

 Googleは、HP Labsによって20年も前に開発され、1995年にお蔵入りとなった「Tesseract」のバグを修正し、数カ月前にオープンソースコミュニティに公開していたことを発表した。

 Googleは、一般の人が作った面白いビデオから学術論文に至るまで、これまでデジタル化されてこなかった世界中のあらゆる情報をインデックス化し、体系立てて整理しようと取り組んできた。Tesseractのプロジェクトも、Googleの目指すこうしたゴールと合致する。Tesseractのようなオープンソース技術を使えば、エンジニアや公共機関などが、これまで紙で保存されてきたたくさんの情報をデジタル化していくことができる。

 Googleはこの2年間、ネバダ州立大学ラスベガス校(UNLV)のエンジニアと共同で、このプロジェクトに取り組んできた。GoogleはUNLVの依頼を受け、ソフトウェアのバグ修正を行ったという。

 Tesseractは1995年にUNLVが開催したコンテストで高評価を得たが、その後HPがOCR事業から撤退したことでお蔵入りとなっていた。

この記事は海外CNET Networks発のニュースを編集部が日本向けに編集したものです。海外CNET Networksの記事へ

  • このエントリーをはてなブックマークに追加