以前掲載した「CNET Japan読者ブログの月毎のエントリ数調査ツール公開」のツールは、URLが変更になり使用できません。
そこで、現状のURLやHTMLに即したツールを作成しました。ファイルは、「CNET Japanブログ エントリ調査ツール」にあります。
ファイルをダウンロードしていただき、どこでもいいので解凍すると、「CNET Japanブログ エントリ調査ツール.exe」が出来ます。それをダブルクリックしてください。そうすると、以下の様に画面が出てきます。
ここで、開始ページと終了ページですが、ここには、新着エントリの上部にあるページ番号が入ります。
収集を開始いたいページ番号と、収集を止めたいページ番号を設定します。決して、終了ページを、やたらめったら大きな数字を入れないでください。100%の確率で、落ちます(試験していないけど、断言できます)。
開始・終了ページ番号を設定したら、「収集開始」ボタンを押して、コーヒーブレイクなどして待っていると、終了を伝えるダイアログが出てきます。
開始・終了時間が、表示されますが、これだけ時間がかかっていると言う目安にしてください。
終了ダイアログが出ると、バイナリがあるディレクトリに、blog.csvが出てきます。このファイルを、表計算等で、読むと分かるのですが、ファイルの漢字コードは、UTF-8です。このため、UTF-8が読めない表計算ソフトでは、文字化けします。回避策として、一度テキストエディタ等で読み込んで、shift-jisに文字コードを変換するか、","をtabに置換して、全コピーして、表計算にペーストしてください。
表計算で見ると、以下の様に縦にブログ名が、横に月毎のエントリ数が表示されます。
この様な感じで、CNET Japan ブログネットワークの各ブログが、月毎にどれだけエントリを書いているか分かります。
ついでに、開始年が、2002年なのは、「梅田望夫・英語で読むITトレンド」があるためです。終了年が、2012年なのは、考え無しに設定しました。
このツールをリフレッシュした動機は、10月に投稿しているブログで、新ブログシステムになってから、書いていないブログを知りたかっただけです。
また、本ツールは、1ページアクセスする度に、数秒スリープを入れていますので、641ページ全て取得するには、結構時間がかかると思います。試していません*1が、1時間以上は。当然、WEBアクセスが多い時間に、このツールを動かせば、余計に時間がかかると思われます。
この程度の機能のツールです。もし、このツールの機能追加等(投稿時間調査や、1エントリの文字数等)の要望などがありましたら、コメントを頂ければと思います。
後、例外処理をまったく入れていないので、途中で落ちるかも知れませんが、その時は、生暖かい目で、見逃してください。それと、Proxyに対応していません。
また、CNET Japanさんから、このツールを公開するなと言われれば、削除します。
※このエントリは CNET Japan ブロガーにより投稿されたものです。朝日インタラクティブ および CNET Japan 編集部の見解・意向を示すものではありません。
メンバー限定サービスをご利用いただく場合、このページの上部からログイン、またはCNET_ID登録(無料)をしてください。