频道栏目
首页 > 资讯 > Python > 正文

python爬虫豆瓣图片入门学习

17-11-30        来源:[db:作者]  
收藏   我要投稿

通过这几天对python入门的接触,以及以前对php、java、c、R的认识,无论这些语言怎么学习,到了一定的深度后,都要一定的缜密、沉稳极强的逻辑创造思维,而目前的学习专业课也好,刷oj题也好,做自己喜欢的事也好,这都可以锻练一个人的解决问题的能力。对一个方向的知识进行超强的把握是有非常有必要的。接下来就开始专攻数学有关的数据分析了,做到能够单独打一场比赛,毕竟……….多谢!

在前两章已经完成了简单的网页的爬取以及为浏览器的学习,最后,我们把豆瓣的首页的图片进行爬取!

最终的效果如下:

代码:

 #导入所需的库
 import urllib.request,socket,re,sys,os
 #定义文件路径
 targetPath="E:\\python\\test2"
 def saveFile(path):
         #检测当前路径是否有效
        if not os.path.isdir(targetPath):
        os.mkdir(targetPath)
    #设置每个图片的路径
    pos=path.rindex('/')
    t=os.path.join(targetPath,path[pos+1:])
    return t
 #网址
 url="https://www.douban.com/"
 headers={'User-Agent': 'Mozilla/5.0  (Windows NT 10.0; WOW64)    AppleWebKit/537.36 (KHTML, like Gecko)' }
 req=urllib.request.Request(url=url,headers=headers)
 res=urllib.request.urlopen(req)
 data=res.read()
 for link,t in set(re.findall(r'(https:[^s]*?(jpg|png|gif))',str(data))):
    print(link)
    try:     urllib.request.urlretrieve(link,saveFile(link))
    except:
        print('失败')

运行后依次打印图片的地址,如图所示:

相关TAG标签
上一篇:Flink分布式模式(Standalone)配置文件
下一篇:思科路由器常用命令(建议收藏)
相关文章
图文推荐

关于我们 | 联系我们 | 广告服务 | 投资合作 | 版权申明 | 在线帮助 | 网站地图 | 作品发布 | Vip技术培训 | 举报中心

版权所有: 红黑联盟--致力于做实用的IT技术学习网站