禁止二级域名被搜索引擎蜘蛛抓取的思路

之前遇到的一个问题,由于特殊的业务需求,几个二级域名不想让搜索引擎的蜘蛛进行抓取,另外这几个二级域名不需要任何权限也能浏览,总之是很奇怪的需求。后研究了下,要想让二级域名禁止百度等搜索引擎蜘蛛的抓取,可以利用robots协议来实现。

PS:关于robots协议可以网上找下相关资料,对于网站建设来说也是比较重要的知识。

这里要注意的是robots.txt是有局限的,并没办法指哪打哪,也就是没办法让你想让哪个二级域名不被抓取就能设置哪个域名。 

首先robots.txt文件必须放在网站根目录下,协议是针对网站目录而不是域名。所以二级域名的网站文件如果没放在单独的文件夹中,那么不适合使用robots.txt文件来禁止爬虫抓取。

如果二级域名网站所在的文件夹还同时绑定了其他顶级域名,使用robots协议可能导致所有绑定到此文件的域名都不会被搜索引擎蜘蛛抓取。

在robots.txt中禁用所有爬虫抓取所有路径的语法如下:

User-agent: *
Disallow: /

 




原创文章,作者:ItWorker,如若转载,请注明出处:https://blog.ytso.com/98894.html

(0)
上一篇 2021年8月21日
下一篇 2021年8月21日

相关推荐

发表回复

登录后才能评论