谷歌在多年前推出人机验证机制reCAPTCHA,这是一种目前在互联网上广泛使用的网络验证机制,当网站收到某个用户的请求时会预先交给谷歌进行验证,如果是非真实用户例如自动化脚本或爬虫的话那么可以使用reCAPTCHA验证机制将其隔离。
因为想要通过谷歌验证码就必须按照谷歌提供的多个图片进行选定和识别,只有成功完成所有数据的识别后用户才可以继续访问网站,谷歌通过这种机制可以保护网站免遭恶意流量的侵袭,因此目前大量网站都在使用reCAPTCHA机制。
谷歌验证码系统并非我们常见的数字和字母验证系统,而是将各种实景图片处理后再交由后端服务器进行处理,当用户访问时必须挑选出谷歌给出的正确关键词对应的图片。也有批评者认为谷歌通过这种方式让全球用户帮助该公司对图片进行标注和分类,用于训练谷歌的人工智能系统。
考虑到reCAPTCHA系统确实是有实际意义的,毕竟reCAPTCHA帮助很多网站抵御恶意流量攻击,但是谷歌越来越复杂的验证机制也让很多人头疼:给出的图片越来越多、容错率越来越低、想要绕过谷歌验证码花费的时间也越来越长。
我们知道互联网上存在大量的信息,有时候开发者需要抓取信息时就必须面对各种形式的验证码,让开发者一个一个的手动识别验证码显示是个非常困难的事情。怎么绕过验证码呢:于是有开发者针对谷歌的验证机制推出相应的识别系统,通过这类识别系统可以完成自动化的验证,同时验证过程需要5~10秒,这样也不会被恶意攻击者利用用来进行流量攻击。
例如2Captcha等网站就提供这类验证码识别服务,当然想要让过谷歌的验证机制依然是个困难的事情,所以2Captcha背后依靠的是机器+人工识别,可以将难度较大的复杂的验证码识别时间缩短到10秒内,而多数字母和数字验证码都可以快速完成自动识别。
有需要的开发者可以尝试使用这类验证码识别软件来解决频繁触发的验证码问题,避免在获取时因为验证码而导致中断影响工作效率。
原创文章,作者:ItWorker,如若转载,请注明出处:https://blog.ytso.com/31767.html