グーグル、「robots.txt」プロトコルの仕様標準化を推進

Charlie Osborne (Special to ZDNET.com) 翻訳校正: 編集部2019年07月03日 11時39分

 Googleは米国時間7月1日、Robots Exclusion Protocol(REP)が将来安定したインターネット標準になることを願って、「Google Robots.txt Parser and Matcher Library」をオープンソースコミュニティに向けて公開した。REPはrobots.txtを使う際の仕様で、その解析やマッチングに使われてきたC++のライブラリなどが公開されている。

 REPはウェブ管理者がサイトを巡回するクローラーの行動を制御するためのものだ。考案者のMartijn Koster氏は、自分のウェブサイトがクローラーの巡回にあい、サーバーの負荷を減らすために1994年に最初の標準を開発した。

 テキストファイルにはクローラーへの指示が書かれており、これがクローラーがドメインを訪問する権限があるかどうかを決定するなど、クローラーの行動を決定する。

 REPは正式な標準ではないため、1990年代より様々に解釈され、新しいユースケースに合わせてアップデートされてこなかった。

 「曖昧なデファクト標準となってしまっているためにルールを正確に記述するのが難しくなっており、ウェブサイト所有者にとって難しい課題になっている」とGoogleは記している。「ウェブサイト所有者と開発者がクローラーの管理に頭を悩ませることなく、素晴らしい体験をインターネット上に構築するのを支援したいと思っている」。

 GoogleはREP文書のドラフトを作成し、インターネット標準化団体のIETFに提出している。

 ドラフトでは、1994年にKoster氏が作成したルールを変更していないが、HTTPに加えてFTP、CoAPを対象に入れるなど、現代的なウェブサイトに合うように、robots.txtの解析とマッチングに関して今まで定義されていなかったシナリオの定義を明確にした。

 Googleは合わせて、サーバーの負荷を削減するために最初の500キビバイトのrobots.txtファイルがパーシングされるように提案している。また、最大のキャッシュ時間を24時間として実装することで、ウェブサイトがインデックスリクエストに対応できない事態を防ぐことも提案している。

この記事は海外CBS Interactive発の記事を朝日インタラクティブが日本向けに編集したものです。

CNET Japanの記事を毎朝メールでまとめ読み(無料)

-PR-企画特集

このサイトでは、利用状況の把握や広告配信などのために、Cookieなどを使用してアクセスデータを取得・利用しています。 これ以降ページを遷移した場合、Cookieなどの設定や使用に同意したことになります。
Cookieなどの設定や使用の詳細、オプトアウトについては詳細をご覧ください。
[ 閉じる ]