logo

「CAPTCHA」技術を応用して書籍のデジタル化を進める新ツール「reCAPTCHA」

文:Stephen Shankland(CNET News.com) 翻訳校正:大熊あつ子、吉武稔夫、長谷睦2007年05月25日 21時10分
  • このエントリーをはてなブックマークに追加

 カーネギーメロン大学のプログラマーチームが、「reCAPTCHA」というサービスを開始した。スパム防止技術を応用し、光学式文字認識(OCR)装置で書籍をデジタル化する際に認識できなかった単語を、人の力を使って読み取ろうという試みだ。

 reCAPTCHAは、スパムメールやブログへのスパムコメントといったコンピュータの悪用を防ぐ目的でひろく利用されている技術、「CAPTCHA」(Completely Automated Public Turing test to tell Computers and Humans Apart:人間とコンピュータを区別するための完全に自動化された公開チューリングテスト)を発展させたものだ。この技術が適用されたサービスを利用しようとする場合、ユーザーはCAPTCHAが課す簡単なパターン認識テストに合格しなければならない。多くの場合、ユーザーは歪んだ文字やかすれた文字を読み取って入力する。

 reCAPTCHAはこれを応用し、書籍のデジタル化においてコンピュータが認識できなかった単語の画像を人間に判読してもらうことで、義務的にランダムな文字を打ち込むだけだった認証作業を、生産的な仕事に変えるものだ。

 カーネギーメロン大学在籍の学部生で、このプロジェクトのチーフアーキテクトを務めるBen Maurer氏は米国時間5月23日付の自身のブログ上でreCAPTCHAを発表し、「これを使えばスパム問題が解決できるばかりでなく、人類の文字化された歴史をデジタル化して保存する作業に一役買える」と説明した。

 同大学助教授で同プロジェクトの「エグゼクティブプロデューサー」を務めるLuis von Ahn氏によると、22日のリリース以降、reCAPTCHAは既に150のウェブサイトに採用され、24日の午前中だけで、デジタル化された単語の数は8000語にのぼるという。

 インターネットには、多数の人々の総体的なエネルギーを利用できるという利点があるが、reCAPTCHAはこれを活かした新しい例と言える。ほかにも、ニュースサイトの「Digg」や「Slashdot」などでは、ユーザーが高い評価を付けたコンテンツを目立たせる工夫をしている。また、サイトに登録された著作権フリーの写真を販売するサイト「iStockphoto」も、写真の質をユーザーが評価するサイト「Image Fight」をベータ提供している。

 reCAPTCHAを使うことで、大量の単語をデジタル化できる可能性がある。von Ahn氏の推計では、1日に利用される通常のCAPTCHAテストの数は6000万件にのぼるという。

 reCAPTCHAは、従来のCAPTCHAテストで使われているようなランダムな文字列に加え、もう1語をユーザーに提示する。後者は、コンピュータによるOCRでは認識できなかった未知の単語だ。この仕組みは、ユーザーが従来方式の文字列を正しく解読できるなら、未知の単語のほうも判読できるだろう、という発想に基づいている。von Ahn氏によると、現在reCAPTCHAでは、3人の別の人間がある未知の単語を同じように識別した場合に、正しい読み方だと判断しているという。

 カーネギーメロン大学によると、von Ahn氏は、Yahooの依頼を受けて、コンピュータが詐欺行為に使うためのメールアカウントを登録することを防止する技術を開発した際にも、同大学の開発チームに参加していたという。von Ahn氏は、reCAPTCHAプロジェクトにも基金を拠出したMacArthur Foundationの「天才賞」受賞者でもある。

-PR-企画特集