频道栏目
首页 > 程序开发 > Web开发 > Python > 正文
python网络爬虫入门(一)——简单的博客爬虫
2014-07-05 11:14:25         来源:python网络爬虫入门(一)——简单的博客爬虫  
收藏   我要投稿

最近,为了微信公众号的图文,上网疯狂的收集和看了一些有深度的新闻和有趣的引人深思的文字评论,并选择了几篇极品发布出去。但感觉一篇一篇的看实在是麻烦死了。想找一个简单的解决办法,看能不能自动把网上的资料收集起来,然后自己用统一筛选。不巧,最近准备学习下网络爬虫相关知识,于是按照网上的教程自己学着试写了一个小小的爬虫,嘻嘻,是用来爬韩寒博客的。


先把完整的代码贴上来,如果朋友们需要试验下,请先安装python相关环境,然后在复制粘贴保存,再按F5运行。

#导入urllib库,python访问网页必须库
import urllib
#时间类库
import time

#定义一个URL数组用来存放捕获的URL地址,也就是需要爬的文字地址路径
url = [''] * 50
#定义link变量,用来记录第几个URL地址
link = 1

#循环捕获博客目录第一页所有的文章链接,并下载

#定义con变量来存储urllib.urlopen打开韩寒博客的目录地址,特别注意下'+str(page)+',用来变化每一页目录地址的
con = urllib.urlopen('https://blog.sina.com.cn/s/articlelist_1191258123_0_1.html').read()
#变量title用来存储con变量中找到
这个爬虫实现的功能还是很简陋的,但作为入门我觉得还是够的。它只是实现了保存博客第一页目录所有文章的HTML文件,并没有抓取特定的内容予以保存。


还有我觉得有编程基础的人,看起来应该不是很费力,基本的思想很简单,就是先爬地址,然后爬一个地址就下地址对应的网页,接着保存为。我个人觉得,这段代码还是有点邋遢,不够简洁明了。希望通过以后的学习能写出质量更高的代码。

里面涉及到的一些方法通过查找python文档都能找到,也不难,里面每一个语句我几乎都标有备注。

运行:


点击复制链接 与好友分享!回本站首页
相关TAG标签 爬虫 网络 博客
上一篇:用python查找在指定目录下特定文件夹下的指定文件
下一篇:Java 和 Python 的 Socket 通信
相关文章
图文推荐
文章
推荐
点击排行

关于我们 | 联系我们 | 广告服务 | 投资合作 | 版权申明 | 在线帮助 | 网站地图 | 作品发布 | Vip技术培训 | 举报中心

版权所有: 红黑联盟--致力于做实用的IT技术学习网站