当前位置：首页 > 资讯 > 正文

requests模块的使用详解

jy
资讯
2024-12-13
89

requests的底层实现就是urllib requests在python2 和python3中通用，方法完全一样 requests简单易用 Requests能够自动帮助我们解压(gzip压缩的等)响应内容

requests的作用就是发送网络请求，返回响应数据，那么现在有一个简单的需求：通过requests向百度首页发送请求，获取百度首页的数据示例：

常用属性演示：

注意：如果response.text有乱码解决办法:

response.content.decode()
response.content.decode(‘gbk’)
response.content.decode(‘unicode_escape’)

首先找到图片的url地址
发送get请求，获取响应源码(response.content)
用二进制写入的方式打开文件,写入图片的响应源码程序示例：

为什么请求需要带上header？ 因为网站往往都会检测请求头的User-Agent，如果ua不合法，可能会获取不到响应。所以加请求头的目的就是模拟浏览器，欺骗服务器，获取和浏览器一致的内容。当然，有的时候甚至不止需要传User-Agent一个参数，还需要其他的参数像Referer,Cookie等等

header的形式：字典

用法 requests.get(url, headers=headers)

代码示例：

目标url = 'https://www.baidu.com/s?wd=python’

那么哪些地方我们会用到POST请求？

1.登录注册（ POST 比 GET 更安全） 2.需要传输大文本内容的时候（ POST 请求对数据长度没有要求）所以同样的，我们的爬虫也需要在这两个地方模拟浏览器发送post请求

用法：

data 的形式：字典

以百度翻译为例： 1.抓包确定请求的url地址 2.确定请求的参数 3.发送请求，获取响应

代码示例：

为什么要使用代理？ 为了让服务器以为不是同一个客户端在请求，防止我们的真实地址被泄露，防止被追究过程： 正向代理和反向代理

代理IP的分类 根据代理ip的匿名程度，代理IP主要可以分为下面三类：

1.透明代理(Transparent Proxy)：透明代理虽然可以直接“隐藏”你的IP地址，但是还是可以查到你是谁。 2.匿名代理(Anonymous Proxy)：使用匿名代理，别人只能知道你用了代理，无法知道你是谁。 3.高匿代理(Elite proxy或High Anonymity Proxy)：高匿代理让别人根本无法发现你是在用代理，所以是最好的选择。

从请求使用的协议可以分为：

http代理 https代理 socket代理等不同分类的代理，在使用的时候需要根据抓取网站的协议来选择。

来这里分享几个代理获取的好地方；

http://ip.kxdaili.com/ 开心代理 https://proxy.mimvp.com/free.php 米扑代理 http://www.xiladaili.com/ 西拉免费代理IP http://ip.jiangxianli.com/ 免费代理IP库 http://www.superfastip.com/ 极速代理 https://proxy.mimvp.com/free.php 米扑代理 http://www.shenjidaili.com/open/ 神鸡代理IP http://31f.cn/http-proxy/ 三一代理 http://www.feiyiproxy.com/?page_id=1457 飞蚁代理 http://ip.zdaye.com/dayProxy/2019/4/1.html 站大爷 http://www.66ip.cn 66免费代理网 https://www.kuaidaili.com/free/inha 快代理 https://www.xicidaili.com 西刺 http://www.ip3366.net/free/?stype=1 云代理 http://www.iphai.com/free/ng IP海 http://www.goubanjia.com/ 全网代理 http://www.89ip.cn/index.html 89免费代理 http://www.qydaili.com/free/?action=china&page=3 旗云代理

可以找免费代理，也可以找付费代理，最好用高匿名的，响应时间短的 使用示例：

代理IP使用的注意点 反反爬使用代理ip是非常必要的一种反反爬的方式，但是即使使用了代理ip，对方服务器任然会有很多的方式来检测我们是否是一个爬虫，比如：一段时间内，检测IP访问的频率，访问太多频繁会屏蔽；检查Cookie，User-Agent，Referer等header参数，若没有则屏蔽；服务方购买所有代理提供商，加入到反爬虫数据库里，若检测是代理则屏蔽等。所以更好的方式在使用代理ip的时候使用随机的方式进行选择使用，不要每次都用一个代理ip

代理ip池的更新 购买的代理ip很多时候大部分(超过60%)可能都没办法使用，这个时候就需要通过程序去检测哪些可用，把不能用的删除掉。

为了能够通过爬虫获取到登录后的页面，或者是解决通过cookie的反扒，需要使用request来处理cookie相关的请求

爬虫中使用cookie的利弊

带上cookie的好处: 1.能够访问登录后的页面 2.0能够实现部分反反爬

带上cookie的坏处:

一套cookie往往对应的是一个用户的信息，请求太频繁有更大的可能性被对方识别为爬虫如何解决 ?使用多个账号

requests处理cookie的方法 使用requests处理cookie有三种方法：以登陆人人网 http://www.renren.com/PLogin.do 为例： 1.cookie字符串放在headers中

2.把cookie字典放传给请求方法的cookies参数接收

3.使用requests提供的session模块

使用request获取的resposne对象，具有cookies属性，能够获取对方服务器设置在本地的cookie，但是如何使用这些cookie呢？

response.cookies是CookieJar类型使用requests.utils.dict_from_cookiejar，能够实现把cookiejar对象转化为字典

示例：

请看以下代码：

运行后出现这个问题的原因是：ssl的证书不安全导致。

解决办法：如果碰到了SSLError,就在请求中添加verify=False 如下：

在爬虫中，一个请求很久没有结果，就会让整个项目的效率变得非常低，这个时候我们就需要对请求进行强制要求，让他必须在特定的时间内返回结果，否则就报错。使用方法如下：

注意：这个方法还能够拿来检测代理ip的质量，如果一个代理ip在很长时间没有响应，那么添加超时之后也会报错，对应的这个ip就可以从代理ip池中删除。

使用超时参数能够加快我们整体的请求速度，但是在正常的网页浏览过成功，如果发生速度很慢的情况，我们会做的选择是刷新页面，那么在代码中，我们是否也可以刷新请求呢？当然可以，retrying模块就可以帮助我们解决。

使用retrying模块提供的retry模块，通过装饰器的方式使用，让被装饰的函数反复执行 retry中可以传入参数stop_max_attempt_number,让函数报错后继续重新执行，达到最大执行次数的上限，如果每次都报错，整个函数报错，如果中间有一个成功，程序继续往后执行。程序示例：

小练习：retrying和requests的简单封装 实现一个发送请求的函数，每次爬虫中直接调用该函数即可实现发送请求，在其中使用timeout实现超时报错，使用retrying模块实现重试

详解模块使用

本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其原创性以及文中陈述文字和内容未经本站证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺，并请自行核实相关内容。本站不承担此类作品侵权行为的直接责任及连带责任。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕，E-mail：975644476@qq.com
本文链接：http://chink.83seo.com/news/559.html

上一篇
《关于进一步深化税收征管改革的意见》新闻发布会图文实录

下一篇
怎么在美团饿了么上修改店铺信息（美团饿了么标注定位）