python抓取大家对“雪糕刺客”的评论

随着气温升高，雪糕成了大家解热的首选，但是今年有关高价雪糕的话题频频登上热搜。有一个关于雪糕的流行词估计大家都听说过，那就是“雪糕刺客”，雪糕刺客指的就是包装平平的雪糕们“躲在”冰柜里，在结账的时候可能就会花费十几元，远远超过了大家的价格预期。现在各种网络平台都有吐槽雪糕价格的视频，文章，评论，有些是为了蹭热度，有些是真的吐槽的让大家很有同感。所以我们今天就利用python采集大家在网络平台上对高价雪糕的评价都是怎么样的。

微博，想必大家都非常熟悉。人人都可以在上面发表自己的观点。到现在微博已经成为了官方和明星等“新闻发布”的第一阵地，所以今天我们就以微博作为数据来源，但是在爬取数据前我们先要对网站进行分析，查看下反爬机制是否严，一般网站的反爬机制都是类似的，例如之前讲到的需要判断user-angent和cookies，或者判断请求的ip是否在短时间内多次访问。因为现在各网络平台有了IP归属地功能，所以对IP的需求会更严。这里我们推荐亿牛云代理，提供的是家庭私密高匿代理IP，能更好的帮助我们在获取数据过程中遇到的封IP问题。代理在爬虫程序里面的实现方式如下：

#! -*- encoding:utf-8 -*-

import requests
import random

# 要访问的目标页面
targetUrl = "http://httpbin.org/ip"

# 要访问的目标HTTPS页面
# targetUrl = "https://httpbin.org/ip"

# 代理服务器(产品官网 www.16yun.cn)
proxyHost = "t.16yun.cn"
proxyPort = "31111"

# 代理验证信息
proxyUser = "username"
proxyPass = "password"

proxyMeta = "http://%(user)s:%(pass)s@%(host)s:%(port)s" % {
"host" : proxyHost,
"port" : proxyPort,
"user" : proxyUser,
"pass" : proxyPass,
}

# 设置 http和https访问都是用HTTP代理
proxies = {
"http" : proxyMeta,
"https" : proxyMeta,
}

# 设置IP切换头
tunnel = random.randint(1,10000)
headers = {"Proxy-Tunnel": str(tunnel)}

resp = requests.get(targetUrl, proxies=proxies, headers=headers)

print resp.status_code
print resp.text

上述内容就是利用python实现爬取微博评论的反爬中的一个方法，希望对代理IP这方面有需求的小伙伴有帮助，当然常见的反爬虫方法也不止以上的这些，还有很多更严的网站反爬机制需要我们多在实践中去解决。

原创文章，作者：306829225，如若转载，请注明出处：https://blog.ytso.com/tech/pnotes/272019.html

python抓取大家对“雪糕刺客”的评论

相关推荐

发表回复