グーグルが12月3日に公開した文字入力支援ツール「Google日本語入力」が、大きな注目を集めている。Googleがクロールした大量のウェブデータ元にした豊富な語彙と、変換語を提案するサジェスト機能が目玉だ。
開発を担当したのは、Google検索で検索語の誤変換を指摘する「もしかして」機能の日本語版を開発した、グーグルソフトウェアエンジニアの工藤拓氏と、同じくソフトウェアエンジニアの小松弘幸氏だ。2人は「20%ルール」と呼ばれるグーグルの社内制度を使い、勤務時間の20%を使ってGoogle日本語入力の開発を始めた。
工藤氏によると、「もしかして」機能を担当した際、検索クエリの間違いの多くは既存のIME(文字入力ソフト)の誤変換によるものであることに気付いたという。特に新しい単語や芸能人の名前などには対応できていない場合が多かった。それを「もしかして」機能が修正することで、ユーザーが求める情報にたどり着けるようになっている状況を見て、「我々が日本語入力ツールを作ったら、もっと便利になると確信した」(工藤氏)のが、開発のきっかけになったという。
最初の数カ月間はコードを書かず、デザインについてのディスカッションを繰り返したとのこと。プロジェクトのメンバーも当初は2人だったが、やがてAnthyやMeCabなど、日本語処理システムや日本語入力システムの開発に携わった経験を持つグーグルのエンジニアたちが参加するようになり、プロジェクト自体も20%ルール下のものからフルタイムのものへと昇格した。
「インプットメソッド(文字入力システム)で成功や失敗を経験しているメンバーが集まったので、良いアーキテクチャを考えられたのではないか」(小松氏)
Googleがクロールしたウェブデータを元に辞書を自動生成しているといい、新しい言葉や芸能人の名前などもきちんと変換できるようになっている。「ウェブデータに何回出現したかというような頻度をデータベース化して、適切なランキングをつくるようにした」(工藤氏)。年号変換機能や、数字を2進法や16進法で表記する機能も備えている。また、「今日」と入力すればその日の日付が候補に登場する。
サジェスト機能では、「徳川」と入力すると徳川将軍の名前が一覧で表示されたり、ユーザーが過去に入力した文章を変換候補として優先的に表示したりする。
「膨大なウェブデータと計算機環境、エンジニアの情熱を組み合わせて、グーグルでないと作れない日本語入力ツールができた」と小松氏は話す。
CNET Japanの記事を毎朝メールでまとめ読み(無料)
ものづくりの革新と社会課題の解決
ニコンが描く「人と機械が共創する社会」
地味ながら負荷の高い議事録作成作業に衝撃
使って納得「自動議事録作成マシン」の実力
ZDNET×マイクロソフトが贈る特別企画
今、必要な戦略的セキュリティとガバナンス