グーグル、「Google Books Ngram Viewer」を公開--書籍中の語句使用頻度をグラフ化

文:Lance Whitney(Special to CNET News) 翻訳校正:中村智恵子、福岡洋一2010年12月20日 11時13分
  • このエントリーをはてなブックマークに追加

 Googleは米国時間12月16日、特定の単語や成句がどの程度頻繁に書籍に出現しているかを過去5世紀にわたって追跡し、表示できるツール「Google Books Ngram Viewer」を公開した。

 Google Labsの研究者たちが発表した同ツールは、書籍のデジタル化という、時として論議を呼ぶプロジェクトをGoogleが2004年に開始して以来、1500万点以上という膨大な書籍をスキャンした結果を分析する。分析対象は、Googleが「コーパスのサブセット」と呼ぶ、これまでに出版された全書籍のおよそ4%にあたる500万点以上の書籍のデータだ。これら500万点以上の書籍に出現する約5000億もの語句を追跡することで、Ngram Viewerは過去に遡って言葉の歴史と使用頻度の推移を示してくれる。

 Ngram Viewerの使い方は簡単だ。単語や成句(5語まで)を入力すると、検索した語句が500年近くの間、どの程度頻繁に書籍に出現しているかを折れ線グラフで表示する。デフォルト設定では英語で書かれた書籍を検索するが、別の「コーパス」もしくは書籍のカテゴリ(アメリカ英語、イギリス英語、英語のフィクション、中国語、フランス語、ドイツ語、ロシア語、スペイン語など)にも検索対象を変更できる。

 追跡する期間も、1500年から2008年までの全期間、または任意の期間を設定できる。

 また複数の語句をコンマで区切って入力すれば、それぞれの語句の使用頻度を比較できる。

 情報の生成に利用される実際のデータセットの基礎になっているのは、ハーバード大学の研究者たちの研究プロジェクトだ。「数百万冊規模のデジタル化された書籍を利用した文化の定量分析」という新しいツールに関する論文が、16日付けのScienceでオンライン公開されている。

提供:Google

この記事は海外CBS Interactive発の記事を朝日インタラクティブが日本向けに編集したものです。

  • このエントリーをはてなブックマークに追加