Googleが掲げる目標は世界中の情報を整理しどこからでもアクセス可能にすることだが、何もかも直接手がけるというわけでは必ずしもない。そこでWikipediaが格好の提携相手になる。
したがって、GoogleがWikipediaのプロジェクトに協力するというのはそう意外な話ではない。
具体的にいえば、Googleは翻訳の面でWikipediaに協力し、ある言語で既に記述された項目なら、別の言語での項目を何もない状態から書き起こさなくても済むようにする。ポーランドで現地時間7月9日から11日に開催された「Wikimania」カンファレンスで、Googleはプレゼンテーションを行い、翻訳に関する取り組みの一端を明らかにした。
「過去16カ月にわたってGoogleは、Wikimedia Foundation、学生、大学教授、Googleのボランティア、プロの翻訳者、Wikipediaコミュニティの会員と協力し、アラビア語、インド語派の各言語、スワヒリ語でのWikipediaコンテンツ拡充に努めてきた」と、Googleは同カンファレンスで説明した。14日に投稿されたブログ記事では、ヒンディー語から手をつけたことを記している。ヒンディー語を話すインターネットユーザーは数千万人いるが、ヒンディー語で書かれたWikipediaの項目は2008年の時点でわずか2万1000件だった。これに対し、英語で書かれた項目は250万件あった。
Wikipediaの記事が頻繁にGoogleの検索結果に表示されることを考えれば、理にかなった目標だと言っていい。しかしこの取り組みには、興味深く、また金銭面でも有益な副次的効果も存在する。つまり、Google自身の翻訳ツールを改善するための、またとない機会を提供してくれるのだ。
というのも、Googleの翻訳技術は複数の言語で書かれた同一のテキストを含むコンテンツが出発点となるからだ。人の手による翻訳例が増えれば増えるほど精度が高まり、機械翻訳に頼らなければならない部分が少なくなる。項目が多岐にわたり、分量が増え続けているWikipediaは、翻訳ツールを磨き上げるための格好の素材というわけだ。
Googleは「Google Translator Toolkit」を提供することで、この取り組みに協力してくれる人を支援する。このツールは、既存の訳があればそれを利用できるようにするGoogleの技術によって、複数の翻訳者が互いに協力しながら文書を翻訳できるようにするものだ。
Translator ToolkitではWikipediaのページをインポートできるようになっていて、そうすることがGoogleの翻訳技術の改善に寄与することにもなる。「Wikipedia記事の翻訳された部分が、Googleのグローバルに共有される翻訳メモリに保存される。このWikipedia翻訳に関する設定を変更することはできない」と、同ツールには記載されている。
「1億語を超えるWikipediaのコンテンツを世界中の各言語に翻訳するために、われわれのツールを使ったことのあるインターネットユーザーは多い」と、Googleの製品マネージャー、Michael Galvez氏はブログに記している。
この記事は海外CBS Interactive発の記事を朝日インタラクティブが日本向けに編集したものです。
CNET Japanの記事を毎朝メールでまとめ読み(無料)
ZDNET×マイクロソフトが贈る特別企画
今、必要な戦略的セキュリティとガバナンス
ものづくりの革新と社会課題の解決
ニコンが描く「人と機械が共創する社会」