> >

グーグル、「Google Books Ngram Viewer」を公開--書籍中の語句使用頻度をグラフ化

文：Lance Whitney（Special to CNET News）翻訳校正：中村智恵子、福岡洋一2010年12月20日 11時13分

　Googleは米国時間12月16日、特定の単語や成句がどの程度頻繁に書籍に出現しているかを過去5世紀にわたって追跡し、表示できるツール「Google Books Ngram Viewer」を公開した。

　Google Labsの研究者たちが発表した同ツールは、書籍のデジタル化という、時として論議を呼ぶプロジェクトをGoogleが2004年に開始して以来、1500万点以上という膨大な書籍をスキャンした結果を分析する。分析対象は、Googleが「コーパスのサブセット」と呼ぶ、これまでに出版された全書籍のおよそ4％にあたる500万点以上の書籍のデータだ。これら500万点以上の書籍に出現する約5000億もの語句を追跡することで、Ngram Viewerは過去に遡って言葉の歴史と使用頻度の推移を示してくれる。

　Ngram Viewerの使い方は簡単だ。単語や成句（5語まで）を入力すると、検索した語句が500年近くの間、どの程度頻繁に書籍に出現しているかを折れ線グラフで表示する。デフォルト設定では英語で書かれた書籍を検索するが、別の「コーパス」もしくは書籍のカテゴリ（アメリカ英語、イギリス英語、英語のフィクション、中国語、フランス語、ドイツ語、ロシア語、スペイン語など）にも検索対象を変更できる。

　追跡する期間も、1500年から2008年までの全期間、または任意の期間を設定できる。

　また複数の語句をコンマで区切って入力すれば、それぞれの語句の使用頻度を比較できる。

　情報の生成に利用される実際のデータセットの基礎になっているのは、ハーバード大学の研究者たちの研究プロジェクトだ。「数百万冊規模のデジタル化された書籍を利用した文化の定量分析」という新しいツールに関する論文が、16日付けのScienceでオンライン公開されている。