グーグル、オープンソースのスペルチェッカー「Hunspell」を自社の技術で強化

文:Stephen Shankland(CNET News.com) 翻訳校正:緒方亮、福岡洋一2009年02月13日 12時58分
  • このエントリーをはてなブックマークに追加

 Googleの翻訳技術は、まったく別個のプロジェクトである同社のブラウザ「Google Chrome」や、さらにはオープンソースのスペルチェックパッケージ「Hunspell」を利用したその他のソフトウェアにまで、恩恵をもたらし始めた。

 Chromeは、「WebKit」のスペルチェック機能とHunspellにある正しくつづられた単語の多言語ライブラリを組み合わせて、27言語のスペルチェックを提供している。しかしHunspellでは、広く使われている単語の多くが未収録のため、Googleは同社の翻訳技術を利用してそのギャップを埋め合わせた。

 GoogleのプログラマーBrett Wilson氏とSiddhartha Chattopadhyay氏が米国時間2月11日付のブログ投稿で説明しているので、それを引用しよう。

 Hunspellの辞書管理者はすばらしい仕事をやり遂げ、誰もが利用できる高品質の辞書を作り上げたが、どの辞書にもついてまわる問題として、収録漏れというものがある。新語が登場したり、固有名詞が一般的に利用されるようになったりする場合はとくにそうだ。われわれGoogleで働く者は、インターネットに関する知識を利用してこうした収録漏れを特定し、修正するのに有利な立場にある。Googleの翻訳チームは言語モデルを使って、それぞれの言語において最もよく使われる単語を整列させたリストを生成している。このリストをHunspellの辞書と照合して、各辞書に登場しない単語トップ1000語のリストを生成した。このリストには一般的な言葉が多数入っているが、よくある綴りの間違いも含まれている。後者を取り除くため、各リストをそれぞれの言語の専門家が検討した。全般的に固有名詞、さらには外来語についても、一般的な用法である限りは保持するように努めた。

 Googleが辞書に追加した英単語には、「antivirus」「anime」「screensaver」「Mozilla」「Obama」「Wikipedia」などがある。

 Googleはこうして辞書に収録した語を、Hunspellが採用しているオープンソースライセンスで公開している。「GNU General Public License(GPL)」「Lesser General Public License(LGPL)」「Mozilla Public License(MPL)」の3種類だ。Googleは、Chromeの開発者向けプレビュー最新版「2.0.160.0」で、19言語について新語を追加している。

 オープンソースソフトウェアということで、変更を自由に利用できるほかのところでも、Googleによる成果の恩恵を受けることが可能だ。Hunspellのサイトによると、「Hunspellは『OpenOffice.org』、Mozillaの『Firefox 3』『Thunderbird』でデフォルトのスペルチェッカーとなっている」という。

この記事は海外CNET Networks発のニュースをシーネットネットワークスジャパン編集部が日本向けに編集したものです。海外CNET Networksの記事へ

  • このエントリーをはてなブックマークに追加