話は前後するけど、MovableTypeのスパム対策を行った1日前に、.htaccessにてトレンドマイクロ・百度(baidu)、Yeti(NAVER)のクローラーを拒否設定しました。

なんちゅうか、こいつらはお行儀が悪いにも程があります

以下.htaccessの記述

SetEnvIf User-Agent "Arachmo" deny_ua
SetEnvIf User-Agent "Yeti" deny_ua
SetEnvIf User-Agent "Baidu" deny_ua
order allow,deny
allow from all
#baidu
deny from 119.63.192.
deny from 119.63.193.
deny from 119.63.194.
deny from 119.63.195.
deny from 119.63.196.
deny from 119.63.197.
deny from 119.63.198.
deny from 119.63.199.
#Trendmicro
deny from 216.104.15.
deny from 150.70.84.
deny from env=deny_ua
#--------クローラー禁止ここまで---------

#ここから携帯禁止設定
<Files ~ "index.cgi">
SetEnvIf User-Agent "^$" deny_ua
SetEnvIf User-Agent "GetHTML" deny_ua
SetEnvIf User-Agent "Getweb!" deny_ua
SetEnvIf User-Agent "HTTrack" deny_ua
SetEnvIf User-Agent "Irvine" deny_ua
SetEnvIf User-Agent "Iria" deny_ua
SetEnvIf User-Agent "Website Explorer" deny_ua
SetEnvIf User-Agent "Download Ninja" deny_ua
SetEnvIf User-Agent "MSIE" deny_ua
SetEnvIf User-Agent "AppleWebKit" deny_ua
SetEnvIf User-Agent "Gecko" deny_ua
SetEnvIf User-Agent "Opera" deny_ua
order allow,deny
allow from all
deny from env=deny_ua
</Files>
 ▲ついでに携帯サイトはPCからの閲覧禁止・ダウンロードツールの使用全面禁止にしました。

お行儀の悪さはこんな感じ

  1. Trendmicro
    • サイトにExpires設定をする前(1日5GBの転送量)の頃、 Trendmicroのクローラーは1日700~800MBのデータをクロールして行った。
    • サイトにExpires設定をした後(1日3GBの転送量)の今でも、Trendmicroのクローラーは1日200~300MBのデータをクロールして行く。
    • ウチのサイトは画像含め100MB程度。毎日毎日、何度も全く同じデータをクロールしていくとかあり得ない。
    • 全部で700ページのサイトなのに毎日3000ページ取得していくとかあり得ない。
  2. Yeti(NAVER)
    • 訪問頻度は少ない。でもクローリングの仕方が異常。
    • 「閲覧禁止設定にしているディレクトリ」や、「開設当初から存在しないファイル」・「どこからもリンクが貼られていないファイル」をこれでもか、これでもか、とクロールしてくる。
    • cgiを爆撃してくる。ここでも禁止設定無視。
  3. 百度(baidu)
    • ウチの場合、世間で聞くほど酷いクローリングをしてくる訳では無い。
      robots.txtの記述は、一応守ってくれている。。。
    • が、、、やっぱり時々狂ったように絨毯爆撃を仕掛けてくる(^_^;
    • cgiを辿りだすと恐怖。禁止設定お構い無しにリンクを辿る。

Trendmicroのクローラーは、一応「ウィルスバスター利用者が安全にサイトを閲覧できるように」との配慮で動き回っているので、アクセス制限するのは少しだけためらいがありました。

でも、「利用者の安全」を大義名分にやりたい放題クローリングしている現状にとうとう我慢出来なくなった次第。Yetiとbaiduはついでに拒否した感じ。

 

以下はサバーログの解析画面

アクセス解析
▲とりあえず1日分のデータ。
解析ログ上では殆ど変化なし。サイトの表示速度も全然変わらず。。。どこか設定間違えたかな?

でもphpのアクセス解析(Mogura PlusX)は確実に軽くなった。早い早い。トレンドマイクロ、baidu、Yetiのクローラーはログに残っていない。

Apacheの解析は明日以降。
ちなみにMovableTypeのスパム対策が効果テキメンだったのか、昨日のスパム対策直後から以降、サイトはかなり軽くなった。

追記(結果)

1日のサイト転送量が約200MB減りました。
最近のログで1日平均3GBの転送量で、約8%を上記クローラーが占めていたので妥当な数値が出た感じ。

各Webページの表示速度が上がった感覚は無いけれど、MovableTypeは確実に軽くなった。
(でも軽くなったのはMobableTypeのCGIリネームから。)