屏蔽坑爹的网络爬虫

话说,前几天月航安装了wordfence,不看不知道,一看吓一跳。有这么多爬虫光临寒舍,受宠若惊:)最恶心的当数YiSou的爬虫,在博客根目录设置DisAllow,还是不行,照样大摇大摆进来,鄙视一下神马搜索。

花费了一段时间观察,发现有几类爬虫:

1、搜索引擎,如百度、Google、Sougo,这些大牌,当然要放过啦。

网络爬虫

2、国外小众搜索爬虫,如:AhrefsBot、CrawlDaddy、YandexBot等,由于对我博客没有意义,必须禁止。

3、阿里云爬虫,这个比较郁闷,阿里打着安全的幌子,居然也爬我数据,更加恶心的是,由于源站IP是ECS,直接访问源站IP进行爬虫,必须禁止。

4、百度云观测爬虫,按照网上说有5种,目前月航就发现一种,但是频率确实很高,由于不知道屏蔽是否会影响百度收录,暂时还是不屏蔽吧,持续观测。

最后通过.htaccess和apache的配置文件一起屏蔽。

httpd.conf通过屏蔽不需要的爬虫名称,配置如下:

<Directory "/home/www/xxx">
SetEnvIfNoCase User-Agent ".*(YisouSpider|yisouspider|FeedDemon|Indy Library|Alexa Toolbar|AskTbFXTV|AhrefsBot|CrawlDaddy|CoolpadWebkit|Java|Jullo|Feedly|UniversalFeedParser|ApacheBench|Microsoft URL Control|Swiftbot|YandexBot|ZmEu|WinHttp|oBot|jaunty|Python-urllib|lightDeckReports Bot|YYSpider|DigExt|HttpClient|MJ12bot|heritrix|EasouSpider|Ezooms|Microsoft URL Control|Indy Library|FlightDeckReports Bot|Linguee Bot)" BADBOT

...

AllowOverride All

Order allow,deny

Allow from all

deny from env=BADBOT

</Directory>

.htaccess文件通过过滤黑名单IP,配置:

<IfModule mod_rewrite.c>

RewriteEngine On

RewriteBase /

Order Deny,Allow

Deny from 140.205.225  //禁止IP网段访问

Deny from 106.15.218

Deny from 101.132.57

</IfModule>

在看看Wordfence里面的Live Traffic,顿时放心了。

 

29 评论

YandexBot是俄罗斯最大搜索引擎Yandex的爬虫,不算小众吧。而且为啥还屏蔽AlexaTools?大佬无视Alexa排名?Yisou的话神马买下来了可以放行

Pingback: viagra online

发表评论