HTTP代理是网络爬虫使用最常见的。HTTP代理的使用方式也分很多种,分为API提取的优质代理和自动转发的爬虫代理。而网络爬虫常见使用就是传统API提取的优质代理。当然使用HTTP代理的时候会遇到许多问题。例如代理IP无法连接,速度慢,无法提取等等问题。
亿牛云API代理常见问题解决方案:
(1) 代理提取失败
停止程序访问,直接使用IE浏览器访问代理API,截图看看错误提示:
如果页面访问失败
注意API链接是否复制正确;爬虫服务器是否有防火墙禁止网络访问;服务器是Linux提取api,是需要转义,&符号前面要加/
页面访问成功,返回错误信息,需要看看错误信息内容
您的IP: 125.69.47.134 没在白名单( 125.69.44.227 222.209.8.0 )中
原因:ip白名单不对,需要添加,注意看看对方服务器IP是不是电信或联通的IP
修改IP白名单太频繁
原因:1、ip白名单不对,需要添加,注意看看对方服务器IP是不是电信或联通的IP,同时注意对方是不是开启了IP自动更新选项,如果对方有多个网络出口,就会导致ip自动更新频繁。
False,没有获取到任何代理,速率超过限制
原因:一条代理API链接只能按照指定时间间隔进行访问,注意程序是不是有多个线程访问或一个服务器下有多个软件运行,超出了代理链接提取速度,请用浏览器访问代理API链接,看看中文提示错误描述。如果服务器每秒请求超过一次,会被判断为DDOS攻击行为,直接黑名单处理,停止该行为一段时间后会自动恢复访问许可。
(2) 代理提取之后,代理不能访问或访问失败率很高
原因:提取和使用代理IP的机器是不是都绑定了IP白名单,注意看看对方服务器IP是不是电信或联通的IP;
(3) 代理能访问,偶尔出现访问失败或提取失败
原因:注意看看对方服务器IP是不是电信或联通的IP,同时询问对方是不是多个IP白名单的情况下,开启了IP自动更新出现了冲突;对方是否控制了代理IP的使用时间,超出了2-10分钟,导致IP失效。
(4) 代理能访问,出现大量429
原因:要求对方控制每个代理IP的请求数,最好一个代理IP一个线程,避免出现阻塞,同时建议客户增加IP提取量
(5) 代理能访问,出现大量403、504或503
原因:爬虫程序的采集行为被网站标识并拒绝服务,求对方控制每个代理IP的请求数,并且增加IP提取量。
(6) 提取的代理IP都是相同IP
原因:部分地区为保证网络速度、降低网络延迟,提供IP隧道代理,该代理通过固定IP+随机端口,在一个时间点上随机分配一个外网IP(又称:公网IP),因此统计代理IP的重复率是不准确的。
代理IP是网络爬虫中不可缺少的一部分,以上是关于使用亿牛云代理出现的常见问题的解释。网络爬虫如果想长期稳定采集数据,一定要选择高匿优质代理IP。
原创文章,作者:ItWorker,如若转载,请注明出处:https://blog.ytso.com/53485.html