scrapy爬虫时HTTPConnectionPool（host:XX）Max retries exceeded with url 解决方法-白红宇

scrapy爬虫时HTTPConnectionPool（host:XX）Max retries exceeded with url 解决方法

阅读量：6837 次

发布时间：2019-06-26

本文共 719 字，大约阅读时间需要 2 分钟。

问题1：爬虫多次访问同一个网站一段时间后会出现错误 HTTPConnectionPool（host:XX）Max retries exceeded with url '<requests.packages.urllib3.connection.HTTPConnection object at XXXX>: Failed to establish a new connection: [Errno 99] Cannot assign requested address'

原因：是因为在每次数据传输前客户端要和服务器建立TCP连接，为节省传输消耗，默认为keep-alive，即连接一次，传输多次，然而在多次访问后不能结束并回到连接池中，导致不能产生新的连接

解决：headers中的Connection默认为keep-alive，将header中的Connection一项置为close

headers = {

'Connection': 'close',

}

r = requests.get(url, data=formdata, headers=headers)

参考：

问题2：爬虫多次访问同一个网站一段时间后会出现错误 HTTPConnectionPool:read time out

原因：具体原因还不清楚，如果有人看到并且了解原因，希望可以留言互相学习。

解决：把原来 requests.get(url, data=formdata, headers=headers, timeout=0.2)中的timeout改为0.3

转载于:https://my.oschina.net/u/3636678/blog/2252735

你可能感兴趣的文章

第11课--11_04_Linux网络配置之四 ifconfig及ip命令详解