频道栏目
首页 > 网络 > 云计算 > 正文

大量爬虫爬同一个网页 运行到后面会大量出现错误的解决方法

2017-03-04 09:31:00         来源:didi8206050的博客  
收藏   我要投稿
大量爬虫爬同一个网页 运行到后面会大量出现错误的解决方法:通过python 的request库请求网页。
s=requests.get(url)
错误日志如下:
HTTPConnectionPool(host:XX)Max retries exceeded with url ': Failed to establish a new connection: [Errno 99] Cannot assign requested address'
经分析发现TCP连接默认为keep-alive的,不能结束并回到连接池中,导致不能产生新的连接
s.headers中的Connection为keep-alive
解决方法:
将header中的Connection一项置为close
newheader=dict()
newheader['Connection']='close'
s=requests.get(url, newheader)
此时问题解决
相关TAG标签 爬虫 编程开发
上一篇:分布式、面向列的开源数据库HBase – Hadoop Database
下一篇:mxnet分布式形式代码阅读小结
相关文章
图文推荐

关于我们 | 联系我们 | 广告服务 | 投资合作 | 版权申明 | 在线帮助 | 网站地图 | 作品发布 | Vip技术培训 | 举报中心

版权所有: 红黑联盟--致力于做实用的IT技术学习网站