频道栏目
首页 > 程序开发 > Web开发 > Python > 正文
用python爬博客
2014-10-25 11:04:19           
收藏   我要投稿

用python爬博客

by 伍雪颖
以爬王垠的博客为例:
import re
import urllib2

def getHtmlCode(url):
	return urllib2.urlopen(url).read()

def findTitleUrl(htmlString):
    regTitleUrl = re.compile("href=\"(.+?)\"")
    return regTitleUrl.findall(htmlString)

def findTitleContent(htmlString):
	regTitleContent = re.compile("\">(.+?)")
	return regTitleContent.findall(htmlString)

htmlCode = getHtmlCode('https://www.yinwang.org/')
titleContent = findTitleContent(htmlCode)
titleUrl = findTitleUrl(htmlCode)
for i in range(0, len(titleUrl)):
	print titleContent[i+3]
	print titleUrl[i+8]
	htmlPage = getHtmlCode(titleUrl[i+8])
	f = open("%s.html"%(titleContent[i+3]),'wb')
	f.write(htmlPage)
	f.close


点击复制链接 与好友分享!回本站首页
相关TAG标签 博客
上一篇:selenium python 环境搭建(64位 windows)
下一篇:python文件操作
相关文章
图文推荐
文章
推荐
点击排行

关于我们 | 联系我们 | 广告服务 | 投资合作 | 版权申明 | 在线帮助 | 网站地图 | 作品发布 | Vip技术培训 | 举报中心

版权所有: 红黑联盟--致力于做实用的IT技术学习网站