本日、Arachmoというサーバー攻撃ツールからのアクセスを除外するように.htsccessを変更。

そんな事もあって最近サーバーログとにらめっこする機会が非常に増えていたのだが、Arachmo以外にも不審なアクセスは結構あり、その中で気になったのがUAが「Mozilla/4.0 (compatible;)だけ」のクローラー見たいなモノ。

UAが「Mozilla/4.0 (compatible;)」だけのアクセスは何なのか色々調べて見た結果をメモ。

Mozilla/4.0 (compatible;)の特徴

  1. 1秒間に4~5ページ位を一気に取得して行く。
  2. 一度に5ページ以上取得して行く事はほとんど無い。
  3. 取得ページが少ないのでサーバーにエラーが出る事は無い。
  4. IPを調べると、東芝、NEC、ソニー、富士ゼロックス、各種大学機関等々、そうそうたる顔ぶれ。

サーバーエラーが出るほどの負荷をかけて来ないのでアクセス制限をするのは辞めたけど、なんか気持ち悪くて色々調べてみると。。。

Mozilla/4.0 (compatible;)
▲ブルーコートプロクシという商用のプロキシでした。

どうりでIPに大手企業が並ぶ訳だ。。。
このプロクシの設定も企業によってマチマチで面白い。沖電気さん、ページ取得間隔を3秒毎に設定していてサーバに優しい設計を取っています。エライ!