一般我们的网站能在百度等搜索引擎上搜到,说明该搜索引擎的爬虫爬到了我们的网站并且被搜索引擎收录。
全世界有成千上万的搜索引擎,当然不一定只有搜索引擎才有爬虫蜘蛛。那么每天有这么多蜘蛛访问我们的网站,肯定对网站的产生一些影响,比如流量的损失、占用服务器资源等,严重者甚至造成服务器宕机。
所我们要认识这些蜘蛛,那些对我们是有用的,我们要欢迎。那些是对我们无益的,我们就把它屏蔽掉。
通过 robots.txt 可以屏蔽无用的蜘蛛,参考我的这篇文章: Robots协议探究:如何好好利用爬虫
下面整理了一些搜索引擎蜘蛛:
1、BaiduSpider(百度蜘蛛)
常见的百度蜘蛛有:Baiduspider 和 Baiduspider-image(抓取图片)。国内网站大多数流量都来自百度,所以推荐放行。
百度还有其它几个蜘蛛:
Baiduspider-video(抓取视频)
Baiduspider-news(抓取新闻)
Baiduspider-mobile(抓取wap)
百度蜘蛛介绍:http://www.baidu.com/search/spider.html
2、Googlebot(谷歌蜘蛛)
常见的谷歌蜘蛛有:Googlebot,还一个 Googlebot-Mobile ,不是很常见,看名字是应该是抓取 wap 页面的。世界第一大搜索引擎,推荐放行。
谷歌蜘蛛链接:http://www.google.com/bot.html
3、360Spider(360蜘蛛)
一个十分“勤奋抓爬”的蜘蛛。
360蜘蛛IP:https://www.so.com/help/spider_ip.html
4、Sogou web spider(搜狗蜘蛛)
搜狗公司还有其它几个蜘蛛:Sogou News Spider、Sogou inst spider、Sogou spider2、Sogou blog、Sogou Orion spider,德顺在日志中只发现了常见的Sogou web spider。
参考百度的robots文件,搜狗蜘蛛名称可以用 Sogou 概括,但有没有用就不知道了。
搜狗蜘蛛爬虫:http://www.sogou.com/docs/help/webmasters.htm
5、Bingbot(必应蜘蛛)
必应是微软的搜索引擎,微软的IE浏览器和Edge浏览器会默认使用该搜索引擎,而且占有率也还可以,不建议屏蔽。
必应蜘蛛爬虫:http://www.bing.com/bingbot.htm
6、Sosospider(SOSO蜘蛛)
腾讯已玩死,交给搜狗公司了。
soso蜘蛛爬虫:http://help.soso.com/webspider.htm
7、Yahoo! Slurp China(雅虎中国)或 Yahoo! Slurp(雅虎英文)
雅虎蜘蛛爬虫:
雅虎中国:http://misc.yahoo.com.cn/help.html
雅虎英文:http://help.yahoo.com/help/us/ysearch/slurp
8、MSNBot,MSNot-media(MSN蜘蛛)
MSNBOT应该是 bing 搜索的蜘蛛,MSN和bing是一家的,可以只保留 Bingbot。
MSN蜘蛛爬虫:http://search.msn.com/msnbot.htm
9、YisouSpider(一搜蜘蛛/神马搜索)
神马搜索是UC和阿里2013年已经成立合资公司推出的移动搜索引擎。
该蜘蛛抓取频率还是很高的,很多人并不看好,不过如果屏蔽的话,会损失 UC浏览器 的流量来源。自己斟酌吧!
10、还有一些蜘蛛,不会给网站带来流量,还会占用资源,建议屏蔽之。
YoudaoBot(有道蜘蛛):网易有道的蜘蛛,并不会带来流量。
JikeSpider(即刻蜘蛛):“即刻搜索”是由人民搜索网络股份公司于2011年6月20日推出的通用搜索引擎平台,建议屏蔽。
即刻蜘蛛:http://shoulu.jike.com/spider.html
EasouSpider(宜搜蜘蛛):宜搜是主要针对手机端的搜索引擎,非常傻帽的一个爬虫,建议屏蔽之。
YYSpider:据说是个人写的蜘蛛程序,指向的是 http://www.yunyun.com/spider.html,yunyun.com 目前不能访问,建议屏蔽之。
ToutiaoSpider(头条号):今日头条的头条号蜘蛛,不能带来流量,屏蔽好啦。
来源:http //web toutiao com/media_cooperation
MJ12bot: 英国的一个搜索引擎,官方解释为:成千上万的企业使用13种语言和60多个国家来绘制互联网地图,独立于基于消费者的搜索引擎。
来源:http://mj12bot.com/
YandexBot:国外的一个网站分析平台,建议屏蔽。
详细介绍:https://webmaster.yandex.com
来源:http://yandex.com/bots
Rogerbot:Moz 网站的机器人。与 Moz 的官方机器人 DotBot 不同,Rogerbot 似乎不再是一个合法的机器人。
DotBot:嗯,看到这你应该懂了。
来源:http://www.opensiteexplorer.org/dotbot
exabot:Exalead或Dassault Systemes网站的机器人。
ia_archiver(Alexa蜘蛛):Alexa 的网站和网站审计爬虫。
Teoma:是美国 Ask Jeeves 搜索引擎的蜘蛛,在美国占 5% 的搜索份额。
gigabot:搜索到的是一个 3D 打印公司,没什么乱用,屏蔽即可。
DOCOMO Sprider:日本 NTT DoCoMo 旗下的搜索引擎蜘蛛,是垃圾搜索引擎爬虫,有看到你的日志里面有这只蜘蛛,直接毫不犹豫的禁掉。
AhrefsBot:国外的一个网站监控工具,要不要屏蔽,看下图:
来源:http://ahrefs.com/robot/
SemrushBot:嗯,应该也是一个网站分析工具。
来源:http://www.semrush.com/bot.html
以上是博主整理的一些已知的网站蜘蛛,如果还有没整理到的,欢迎在评论区提交。
常用的搜索引擎就那么几个,只要在 robots.txt 文件里把常用的搜索引擎蜘蛛放进来就行,其它的可以统统屏蔽。
原创文章,作者:3628473679,如若转载,请注明出处:https://blog.ytso.com/150298.html