禁止二级域名被搜索引擎蜘蛛抓取的思路

之前遇到的一个问题，由于特殊的业务需求，几个二级域名不想让搜索引擎的蜘蛛进行抓取，另外这几个二级域名不需要任何权限也能浏览，总之是很奇怪的需求。后研究了下，要想让二级域名禁止百度等搜索引擎蜘蛛的抓取，可以利用robots协议来实现。

PS：关于robots协议可以网上找下相关资料，对于网站建设来说也是比较重要的知识。

这里要注意的是robots.txt是有局限的，并没办法指哪打哪，也就是没办法让你想让哪个二级域名不被抓取就能设置哪个域名。

首先robots.txt文件必须放在网站根目录下，协议是针对网站目录而不是域名。所以二级域名的网站文件如果没放在单独的文件夹中，那么不适合使用robots.txt文件来禁止爬虫抓取。

如果二级域名网站所在的文件夹还同时绑定了其他顶级域名，使用robots协议可能导致所有绑定到此文件的域名都不会被搜索引擎蜘蛛抓取。

在robots.txt中禁用所有爬虫抓取所有路径的语法如下：

User-agent: *
Disallow: /

原创文章，作者：ItWorker，如若转载，请注明出处：https://blog.ytso.com/98894.html