最終更新時刻:2009年11月27日(金) 11時56分
1

CNET Japan ブログネットワークの各ブログの月毎のエントリ数を調査するツールを作ってみた

公開日時:
2007/11/17 13:22
著者:
櫻吉 清(さくらきち きよし)

以前掲載した「CNET Japan読者ブログの月毎のエントリ数調査ツール公開」のツールは、URLが変更になり使用できません。

そこで、現状のURLやHTMLに即したツールを作成しました。ファイルは、「CNET Japanブログ エントリ調査ツール」にあります。

ファイルをダウンロードしていただき、どこでもいいので解凍すると、「CNET Japanブログ エントリ調査ツール.exe」が出来ます。それをダブルクリックしてください。そうすると、以下の様に画面が出てきます。

ここで、開始ページと終了ページですが、ここには、新着エントリの上部にあるページ番号が入ります。

収集を開始いたいページ番号と、収集を止めたいページ番号を設定します。決して、終了ページを、やたらめったら大きな数字を入れないでください。100%の確率で、落ちます(試験していないけど、断言できます)。

開始・終了ページ番号を設定したら、「収集開始」ボタンを押して、コーヒーブレイクなどして待っていると、終了を伝えるダイアログが出てきます。

開始・終了時間が、表示されますが、これだけ時間がかかっていると言う目安にしてください。

終了ダイアログが出ると、バイナリがあるディレクトリに、blog.csvが出てきます。このファイルを、表計算等で、読むと分かるのですが、ファイルの漢字コードは、UTF-8です。このため、UTF-8が読めない表計算ソフトでは、文字化けします。回避策として、一度テキストエディタ等で読み込んで、shift-jisに文字コードを変換するか、","をtabに置換して、全コピーして、表計算にペーストしてください。

表計算で見ると、以下の様に縦にブログ名が、横に月毎のエントリ数が表示されます。

この様な感じで、CNET Japan ブログネットワークの各ブログが、月毎にどれだけエントリを書いているか分かります。

ついでに、開始年が、2002年なのは、「梅田望夫・英語で読むITトレンド」があるためです。終了年が、2012年なのは、考え無しに設定しました。

このツールをリフレッシュした動機は、10月に投稿しているブログで、新ブログシステムになってから、書いていないブログを知りたかっただけです。

また、本ツールは、1ページアクセスする度に、数秒スリープを入れていますので、641ページ全て取得するには、結構時間がかかると思います。試していません*1が、1時間以上は。当然、WEBアクセスが多い時間に、このツールを動かせば、余計に時間がかかると思われます。

この程度の機能のツールです。もし、このツールの機能追加等(投稿時間調査や、1エントリの文字数等)の要望などがありましたら、コメントを頂ければと思います。

後、例外処理をまったく入れていないので、途中で落ちるかも知れませんが、その時は、生暖かい目で、見逃してください。それと、Proxyに対応していません。

また、CNET Japanさんから、このツールを公開するなと言われれば、削除します。


*1:一度は、641ページ全てを調べましたが、それはスリープを入れないバージョンだったため、現在ファイルでは、どの程度かかるかは分かりません。

※このエントリは CNET Japan ブロガーにより投稿されたものです。朝日インタラクティブ および CNET Japan 編集部の見解・意向を示すものではありません。

前後の記事

このエントリーへのコメント

ブログにコメントするにはCNET_IDにログインしてください。

この記事に対するTrackBackのURL: 

CNET_ID

メンバー限定サービスをご利用いただく場合、このページの上部からログイン、またはCNET_ID登録(無料)をしてください。