Googleは米国時間12月16日、特定の単語や成句がどの程度頻繁に書籍に出現しているかを過去5世紀にわたって追跡し、表示できるツール「Google Books Ngram Viewer」を公開した。
Google Labsの研究者たちが発表した同ツールは、書籍のデジタル化という、時として論議を呼ぶプロジェクトをGoogleが2004年に開始して以来、1500万点以上という膨大な書籍をスキャンした結果を分析する。分析対象は、Googleが「コーパスのサブセット」と呼ぶ、これまでに出版された全書籍のおよそ4%にあたる500万点以上の書籍のデータだ。これら500万点以上の書籍に出現する約5000億もの語句を追跡することで、Ngram Viewerは過去に遡って言葉の歴史と使用頻度の推移を示してくれる。
Ngram Viewerの使い方は簡単だ。単語や成句(5語まで)を入力すると、検索した語句が500年近くの間、どの程度頻繁に書籍に出現しているかを折れ線グラフで表示する。デフォルト設定では英語で書かれた書籍を検索するが、別の「コーパス」もしくは書籍のカテゴリ(アメリカ英語、イギリス英語、英語のフィクション、中国語、フランス語、ドイツ語、ロシア語、スペイン語など)にも検索対象を変更できる。
追跡する期間も、1500年から2008年までの全期間、または任意の期間を設定できる。
また複数の語句をコンマで区切って入力すれば、それぞれの語句の使用頻度を比較できる。
情報の生成に利用される実際のデータセットの基礎になっているのは、ハーバード大学の研究者たちの研究プロジェクトだ。「数百万冊規模のデジタル化された書籍を利用した文化の定量分析」という新しいツールに関する論文が、16日付けのScienceでオンライン公開されている。
この記事は海外CBS Interactive発の記事を朝日インタラクティブが日本向けに編集したものです。
CNET Japanの記事を毎朝メールでまとめ読み(無料)
ZDNET×マイクロソフトが贈る特別企画
今、必要な戦略的セキュリティとガバナンス
ものづくりの革新と社会課題の解決
ニコンが描く「人と機械が共創する社会」