年末年始にかけて、ウチのサイトが(小規模ながら)攻撃されているんじゃないか?と思えるような状況が断続的に発生したのでアクセス解析。

traffic
▲1月2日の画像サーバー側のトラフィック量。
このサイトは1画像あたり5~30kb、1ページあたり10~20個の画像で構成している。 2M Bits/sを超えるってのは尋常じゃない。

また誰かがお馬鹿なクローラーを走らせているんだろうなぁと思いつつログ解析。
Host: thumb.yahoo-net.jp
UA: Mozilla/5.0 (compatible; BMT/1.0 (Y!J-AGENT);
これ、Yahoo!ブックマークのサムネイルを作成するためのBotらしい。

 

今回はYahooが犯人かよ('Α`)

犯人はYahooのクローラーっぽい。
thumb.yahoo-net.jp
▲クリックで拡大

  • 問題のクローラーのHost名
  • hlf01.thumb.yahoo-net.jp
  • hlf02.thumb.yahoo-net.jp
  • hlf03.thumb.yahoo-net.jp
  • hlf04.thumb.yahoo-net.jp
  • hlf05.thumb.yahoo-net.jp
  • hlf06.thumb.yahoo-net.jp
  • hlf07.thumb.yahoo-net.jp
  • hlf08.thumb.yahoo-net.jp
  • hlf09.thumb.yahoo-net.jp
  • hlf10.thumb.yahoo-net.jp

10個のホストで同時攻撃とか、、、どこのDDosですか('Α`)

 

ペース考えろよ、ペース

traffic
クローラーが原因でこんなピークが出るとか普通じゃないから。
Baiduですら3~4年前にこーゆーの辞めてるから。

5秒間で30ページ取得。25秒休んで再び 5秒間で30ページ取得。・・・・・こんなペースでクローリングして来る。10個のIP使っていて、それぞれが3ページ/5秒ペースでWebページ取得。ゆっくりのつもりだろうけど、瞬間最大風速は10ページ/1秒出てますから。

5秒取得して25秒休むタイミングが、10個のクローラー全て同じとかもひどい。

効率考えれよ、効率

yahoo2s.png
▲クリックで拡大
複数のクローラーで同じページを10秒おきにアクセスとか無意味だから!

活用しろよ、活用

サムネイル
▲クリックで実際のページへ
全然ちがうから!サムネイル全然ちがうから!

上記の10秒おきにアクセスして来るページもサムネイル違うから!

頭悪いクセに妙にずる賢い

こんだけ頭悪いくせに、10個のクローラーはそれぞれ、コチラが想定したスパム閾値よりギリギリ低いレベルで活動し、即発見出来ない。この辺だけ巧妙。

 

天下のYahoo!さんが何故こんな設計のクローラーを走らせているのか不明。