年末年始にかけて、ウチのサイトが(小規模ながら)攻撃されているんじゃないか?と思えるような状況が断続的に発生したのでアクセス解析。
▲1月2日の画像サーバー側のトラフィック量。
このサイトは1画像あたり5~30kb、1ページあたり10~20個の画像で構成している。 2M Bits/sを超えるってのは尋常じゃない。
- 13時20分頃と、翌日0時20分頃に大量の画像が一気に取得されている。
- 画像サーバー側ではserver reached MaxClients setting, considerraising the MaxClients setting発生。(想定を超えた数のリクエスト・接続要求が来た)
- メインサーバー側では503 serviceunavailableエラー大量発生。(処理をさばき切れなくてサーバーが一時的にエラーを出してしのいだ)
また誰かがお馬鹿なクローラーを走らせているんだろうなぁと思いつつログ解析。
Host: thumb.yahoo-net.jp
UA: Mozilla/5.0 (compatible; BMT/1.0 (Y!J-AGENT);
これ、Yahoo!ブックマークのサムネイルを作成するためのBotらしい。
今回はYahooが犯人かよ('Α`)
- 問題のクローラーのHost名
- hlf01.thumb.yahoo-net.jp
- hlf02.thumb.yahoo-net.jp
- hlf03.thumb.yahoo-net.jp
- hlf04.thumb.yahoo-net.jp
- hlf05.thumb.yahoo-net.jp
- hlf06.thumb.yahoo-net.jp
- hlf07.thumb.yahoo-net.jp
- hlf08.thumb.yahoo-net.jp
- hlf09.thumb.yahoo-net.jp
- hlf10.thumb.yahoo-net.jp
10個のホストで同時攻撃とか、、、どこのDDosですか('Α`)
ペース考えろよ、ペース
クローラーが原因でこんなピークが出るとか普通じゃないから。
Baiduですら3~4年前にこーゆーの辞めてるから。
5秒間で30ページ取得。25秒休んで再び 5秒間で30ページ取得。・・・・・こんなペースでクローリングして来る。10個のIP使っていて、それぞれが3ページ/5秒ペースでWebページ取得。ゆっくりのつもりだろうけど、瞬間最大風速は10ページ/1秒出てますから。
5秒取得して25秒休むタイミングが、10個のクローラー全て同じとかもひどい。
効率考えれよ、効率
▲クリックで拡大
複数のクローラーで同じページを10秒おきにアクセスとか無意味だから!
活用しろよ、活用
▲クリックで実際のページへ
全然ちがうから!サムネイル全然ちがうから!
上記の10秒おきにアクセスして来るページもサムネイル違うから!
頭悪いクセに妙にずる賢い
こんだけ頭悪いくせに、10個のクローラーはそれぞれ、コチラが想定したスパム閾値よりギリギリ低いレベルで活動し、即発見出来ない。この辺だけ巧妙。
天下のYahoo!さんが何故こんな設計のクローラーを走らせているのか不明。