pip包管理
你可以通过以下命令来判断是否已安装:
pip --version # Python2.x 版本命令
pip3 --version # Python3.x 版本命令
pip list # 列出已安装的包
pypi 镜像使用帮助
pypi 镜像在每次同步成功后间隔 5 分钟同步一次。
#临时使用
pip install -i https://pypi.tuna.tsinghua.edu.cn/simple
#例如,安装 Django:
pip install -i https://pypi.tuna.tsinghua.edu.cn/simple Django
#注意,simple 不能少, 是 https 而不是 http
#设为默认
#升级 pip 到最新的版本 (>=10.0.0) 后进行配置:
python -m pip install --upgrade pip
pip config set global.index-url https://pypi.tuna.tsinghua.edu.cn/simple
#如果您到 pip 默认源的网络连接较差,临时使用本镜像站来升级 pip:
python -m pip install -i https://pypi.tuna.tsinghua.edu.cn/simple --upgrade pip
安装常用依赖库
pip install pylint
pip install pyquery
pip install lxml
pip install requests
pip install beautifulsoup4
名称 | 功能 | |
---|---|---|
requests | Python HTTP请求工具 | |
lxml | 解析网页结构工具 | |
pyquery | 网页文档解析工具 | |
pylint | Python 代码分析工具, | |
beautifulsoup4 | 解析和处理html和xml |
请求:
1请求行-> 请求方式(get/post)请求url地址协议
2请求头-> 放一些服务器要使用的附加信息
3请求体-> 一般放一些请求参数
响应:
状态行-----> 协议 状态码
2响应头----> 放一些客户端要使用的一些附加信息
3响应体-----> 服务器返回的真正客户端要用的内容(HTML,json)等
在后面我们写爬虫的时候要格外注意请求头和响应头。这两个地方一般都隐含着一些比较重要的内容
请求头中最常见:
1.User-Agent:请求载体的身份标识(用啥发送的请求)
2.Referer::防盗链(这次请求是从哪个页面来的?反爬会用到方
3.cookie::本地字符串数据信息(用户登录信息,反爬的token)
响应头中重要内容:
1.cookie:本地字符串数据信息(用户登录信息,反爬的token)
2.各种神奇的莫名其妙的字符串(这个需要经验了,一般都是token字样,防止各种攻击和反爬)
请求方式:
GET:显示提交
POST 隐系提交
原创文章,作者:6024010,如若转载,请注明出处:https://blog.ytso.com/274915.html