Robots协议是什么？

网络爬虫其实是一种灰色产业！没有法律规定爬虫是违法的，也没有法律规定爬虫不违法，主要看爬取数据的类型，如：

高度敏感数据：行踪轨迹信息、通信内容、征信信息、财产信息；
敏感数据：住宿信息、通信记录、健康生理信息、交易信息；
其他个人信息：高度敏感数据和敏感数据。

一般来说，高度敏感的数据根本爬不了；如果是公司要求爬的，那出了事情就是公司的责任。

如果有些东西您不能确认是不是违法，可以向身边律师朋友咨询或者百度谷歌，切莫存侥幸心理！

屏幕前面的您心里一定要有杆称，搞爬虫真的可能会坐牢的。信息犯罪好像是直接坐牢的，而且不是按天算的，毕竟玫瑰金手铐可摆在那里呢！

这杆称就是 Robot.txt 协议。不过，Robot.txt 对学习聚焦型爬虫的我们帮助不大，就当一个常识学一下，也可以根据 Robot.txt 协议列出的网页作为指标，Robot.txt 协议允许的网页我们就能爬，不允许的就不爬呗。

Robots 协议是互联网爬虫的一项公认的道德规范，全称是“网络爬虫排除标准（Robots exclusion protocol）”，这个协议用来告诉通用型爬虫，哪些页面是可以抓取的，哪些不可以。

大多数网站都有 Robots 协议，那如何查看网站的 Robots 协议呢？

很简单，在网站的根目录域名后加上/robots.txt就可以了。例如，通过 https://www.douban.com/robots.txt 这个链接可以查看淘宝的 Robots 协议。

User-agent: *                          #所有爬虫，如百度、谷歌、必应
Disallow: /subject_search              #禁止访问 /subject_search
Disallow: /amazon_search              
Disallow: /search
Disallow: /group/search
Disallow: /event/search
Disallow: /celebrities/search
Disallow: /location/drama/search
Disallow: /forum/
Disallow: /new_subject
Disallow: /service/iframe
Disallow: /j/
Disallow: /link2/
Disallow: /recommend/
Disallow: /doubanapp/card
Disallow: /update/topic/

Allow: /ads.txt                        #允许访问 /ads.txt

Sitemap: https://www.douban.com/sitemap_index.xml
Sitemap: https://www.douban.com/sitemap_updated_index.xml
#sitemap文件里面是新产生的URL，有豆瓣网前一天的影评、书评、帖子等等，可以减少网站的带宽消耗。 

User-agent: Wandoujia Spider           #如果是豌豆荚爬虫
Disallow: /                            #禁止访问所有页面(完全屏蔽)

User-agent: Mediapartners-Google       #谷歌的广告爬虫，当网页投放了谷歌的广告时，他就会来抓取，对网页进行分析，然后投放最佳的广告...

Disallow: /subject_search              #禁止访问 /subject_search
Disallow: /amazon_search
Disallow: /search
Disallow: /group/search
Disallow: /event/search
Disallow: /celebrities/search
Disallow: /location/drama/search
Disallow: /j/

Allow 代表允许访问，Disallow 就是禁止访问，User-agent 可以判断是哪家爬虫，经常产生新数据网站 sitemap 文件会用的比较多。

豆瓣的 robots.txt 文件表示：

对豌豆荚爬虫完全屏蔽，不允许它爬任何豆瓣的网页
对谷歌广告爬虫，允许爬取除了以Disallow开头的网址以外的其他网址，并且爬取的时间间隔为 5s。
对于任何爬虫（除豌豆荚爬虫、谷歌的广告爬虫），允许爬取除了以Disallow开头的网址以外的其他网址，并且爬取的时间间隔为 5s。

常见的搜索引擎爬虫有：

谷歌 Googlebot
百度 Baiduspider
360 360Spider
必应 bingbot

因为网站上的目录其实就是电脑里的文件夹，robots.txt 协议处于网站的根目录下，任何人都可以直接输入路径打开并查看里面的内容，就可以比较清楚的了解网站的结构。

robots.txt 相关新闻：

黑客技巧

也可以通过 robots.txt 协议看到这个网站是不是一个网站模版系统建成的。比如，我在某个网站的域名后加上/robots.txt：

通过分析上面这份 Robots 协议，发现这个网站是 DedeCMS 模板搭建而成（/plus/ad_js.php‌ 等都是 DedeCMS 网站通用的）。

DedeCMS 模版原型如下：

不妨试一试，打开以下 URL：

http://59.63.200.79:8010/csrf/uploads

如果在根目录域名后加/dede，可进入后台。

它的登录用户名是 admin，登录密码是 admin123。

黑客们也是通过类似的方式获取网站的管理权限……如寻找当前模版版本的通杀漏洞、字典爆破管理员密码等。

原创文章，作者：奋斗，如若转载，请注明出处：https://blog.ytso.com/23634.html

Robots协议是什么？

黑客技巧

相关推荐

发表回复