python准备工作


pip包管理

你可以通过以下命令来判断是否已安装:

pip --version     # Python2.x 版本命令
pip3 --version    # Python3.x 版本命令

pip list # 列出已安装的包

pypi 镜像使用帮助

pypi 镜像在每次同步成功后间隔 5 分钟同步一次。

#临时使用
pip install -i https://pypi.tuna.tsinghua.edu.cn/simple 
#例如,安装 Django:
pip install -i https://pypi.tuna.tsinghua.edu.cn/simple Django
#注意,simple 不能少, 是 https 而不是 http

#设为默认
#升级 pip 到最新的版本 (>=10.0.0) 后进行配置:
python -m pip install --upgrade pip
pip config set global.index-url https://pypi.tuna.tsinghua.edu.cn/simple


#如果您到 pip 默认源的网络连接较差,临时使用本镜像站来升级 pip:
python -m pip install -i https://pypi.tuna.tsinghua.edu.cn/simple --upgrade pip


安装常用依赖库

pip install pylint
pip install pyquery
pip install lxml 
pip install requests 
pip install beautifulsoup4
名称 功能
requests Python HTTP请求工具
lxml 解析网页结构工具
pyquery 网页文档解析工具
pylint Python 代码分析工具,
beautifulsoup4 解析和处理html和xml

请求:

1请求行->  请求方式(get/post)请求url地址协议
2请求头->  放一些服务器要使用的附加信息

3请求体->  一般放一些请求参数

响应:

状态行-----> 协议   状态码
2响应头---->  放一些客户端要使用的一些附加信息

3响应体-----> 服务器返回的真正客户端要用的内容(HTML,json)等

在后面我们写爬虫的时候要格外注意请求头和响应头。这两个地方一般都隐含着一些比较重要的内容

请求头中最常见:

1.User-Agent:请求载体的身份标识(用啥发送的请求)
2.Referer::防盗链(这次请求是从哪个页面来的?反爬会用到方

3.cookie::本地字符串数据信息(用户登录信息,反爬的token)

响应头中重要内容:

1.cookie:本地字符串数据信息(用户登录信息,反爬的token)
2.各种神奇的莫名其妙的字符串(这个需要经验了,一般都是token字样,防止各种攻击和反爬)


请求方式:

GET:显示提交

POST 隐系提交

原创文章,作者:6024010,如若转载,请注明出处:https://blog.ytso.com/274915.html

(0)
上一篇 2022年7月17日
下一篇 2022年7月17日

相关推荐

发表回复

登录后才能评论