話は前後するけど、MovableTypeのスパム対策を行った1日前に、.htaccessにてトレンドマイクロ・百度(baidu)、Yeti(NAVER)のクローラーを拒否設定しました。
なんちゅうか、こいつらはお行儀が悪いにも程があります
以下.htaccessの記述
SetEnvIf User-Agent "Arachmo" deny_ua▲ついでに携帯サイトはPCからの閲覧禁止・ダウンロードツールの使用全面禁止にしました。
SetEnvIf User-Agent "Yeti" deny_ua
SetEnvIf User-Agent "Baidu" deny_ua
order allow,deny
allow from all
#baidu
deny from 119.63.192.
deny from 119.63.193.
deny from 119.63.194.
deny from 119.63.195.
deny from 119.63.196.
deny from 119.63.197.
deny from 119.63.198.
deny from 119.63.199.
#Trendmicro
deny from 216.104.15.
deny from 150.70.84.
deny from env=deny_ua
#--------クローラー禁止ここまで---------
#ここから携帯禁止設定
<Files ~ "index.cgi">
SetEnvIf User-Agent "^$" deny_ua
SetEnvIf User-Agent "GetHTML" deny_ua
SetEnvIf User-Agent "Getweb!" deny_ua
SetEnvIf User-Agent "HTTrack" deny_ua
SetEnvIf User-Agent "Irvine" deny_ua
SetEnvIf User-Agent "Iria" deny_ua
SetEnvIf User-Agent "Website Explorer" deny_ua
SetEnvIf User-Agent "Download Ninja" deny_ua
SetEnvIf User-Agent "MSIE" deny_ua
SetEnvIf User-Agent "AppleWebKit" deny_ua
SetEnvIf User-Agent "Gecko" deny_ua
SetEnvIf User-Agent "Opera" deny_ua
order allow,deny
allow from all
deny from env=deny_ua
</Files>
お行儀の悪さはこんな感じ
- Trendmicro
- サイトにExpires設定をする前(1日5GBの転送量)の頃、 Trendmicroのクローラーは1日700~800MBのデータをクロールして行った。
- サイトにExpires設定をした後(1日3GBの転送量)の今でも、Trendmicroのクローラーは1日200~300MBのデータをクロールして行く。
- ウチのサイトは画像含め100MB程度。毎日毎日、何度も全く同じデータをクロールしていくとかあり得ない。
- 全部で700ページのサイトなのに毎日3000ページ取得していくとかあり得ない。
- Yeti(NAVER)
- 訪問頻度は少ない。でもクローリングの仕方が異常。
- 「閲覧禁止設定にしているディレクトリ」や、「開設当初から存在しないファイル」・「どこからもリンクが貼られていないファイル」をこれでもか、これでもか、とクロールしてくる。
- cgiを爆撃してくる。ここでも禁止設定無視。
- 百度(baidu)
- ウチの場合、世間で聞くほど酷いクローリングをしてくる訳では無い。
robots.txtの記述は、一応守ってくれている。。。 - が、、、やっぱり時々狂ったように絨毯爆撃を仕掛けてくる(^_^;
- cgiを辿りだすと恐怖。禁止設定お構い無しにリンクを辿る。
- ウチの場合、世間で聞くほど酷いクローリングをしてくる訳では無い。
Trendmicroのクローラーは、一応「ウィルスバスター利用者が安全にサイトを閲覧できるように」との配慮で動き回っているので、アクセス制限するのは少しだけためらいがありました。
でも、「利用者の安全」を大義名分にやりたい放題クローリングしている現状にとうとう我慢出来なくなった次第。Yetiとbaiduはついでに拒否した感じ。
以下はサバーログの解析画面
▲とりあえず1日分のデータ。
解析ログ上では殆ど変化なし。サイトの表示速度も全然変わらず。。。どこか設定間違えたかな?
でもphpのアクセス解析(Mogura PlusX)は確実に軽くなった。早い早い。トレンドマイクロ、baidu、Yetiのクローラーはログに残っていない。
Apacheの解析は明日以降。
ちなみにMovableTypeのスパム対策が効果テキメンだったのか、昨日のスパム対策直後から以降、サイトはかなり軽くなった。
追記(結果)
1日のサイト転送量が約200MB減りました。
最近のログで1日平均3GBの転送量で、約8%を上記クローラーが占めていたので妥当な数値が出た感じ。
各Webページの表示速度が上がった感覚は無いけれど、MovableTypeは確実に軽くなった。
(でも軽くなったのはMobableTypeのCGIリネームから。)