频道栏目
首页 > 资讯 > 云计算 > 正文

以爬取豆瓣网数据为例利用scrapy爬取需要登录的网站的数据(包含验证码的处理)

18-07-28        来源:[db:作者]  
收藏   我要投稿

利用scrapy爬取需要登录的网站的数据(包含验证码的处理)–以爬取豆瓣网数据为例

1、在cmd命令行中输入 scrapy startproject douban,创建scrapy爬虫项目
2、在cmd命令行中调整到douban项目文件夹下输入 scrapy genspider -t basic db douban.com(最后一个是网站域名)创建名为db的爬虫(如果是创建自动爬虫要输入-t crawl )
3、在items.py中创建属性title和note,这是我们接下来要爬取的网站的数据,即标题和日志如图所示
4、在db.py中进行爬虫方法的部署,代码和注释如下图:
这里写图片描述
这里写图片描述
这里写图片描述
5、在命令行中输入:scrapy crawl db即可爬取数据了
这是我的第一个博客,希望有相似兴趣的可以多和我交流一起学习啊!
- Markdown和扩展Markdown简洁的语法
- 代码块高亮
- 图片链接和图片上传
- LaTex数学公式
- UML序列图和流程图
- 离线写博客
- 导入导出Markdown文件
- 丰富的快捷键


快捷键

加粗 Ctrl + B 斜体 Ctrl + I 引用 Ctrl + Q 插入链接 Ctrl + L 插入代码 Ctrl + K 插入图片 Ctrl + G 提升标题 Ctrl + H 有序列表 Ctrl + O 无序列表 Ctrl + U 横线 Ctrl + R 撤销 Ctrl + Z 重做 Ctrl + Y

Markdown及扩展

Markdown 是一种轻量级标记语言,它允许人们使用易读易写的纯文本格式编写文档,然后转换成格式丰富的HTML页面。 —— [ 维基百科 ]

使用简单的符号标识不同的标题,将某些文字标记为粗体或者斜体,创建一个链接等,详细语法参考帮助?。

本编辑器支持 Markdown Extra ,  扩展了很多好用的功能。具体请参考Github.

表格

Markdown Extra 表格语法:

项目 价格
Computer $1600
Phone $12
Pipe $1

可以使用冒号来定义对齐方式:

项目 价格 数量
Computer 1600 元 5
Phone 12 元 12
Pipe 1 元 234

定义列表

Markdown Extra 定义列表语法: 项目1 项目2 定义 A 定义 B 项目3 定义 C

定义 D

定义D内容

代码块

代码块语法遵循标准markdown代码,例如:

@requires_authorization
def somefunc(param1='', param2=0):
    '''A docstring'''
    if param1 > param2: # interesting
        print 'Greater'
    return (param2 - param1 + 1) or None
class SomeClass:
    pass
>>> message = '''interpreter
... prompt'''

脚注

生成一个脚注1.

目录

用 [TOC]来生成目录:

利用scrapy爬取需要登录的网站的数据(包含验证码的处理)–以爬取豆瓣网数据为例 快捷键 Markdown及扩展 表格 定义列表 代码块 脚注 目录 数学公式 UML 图: 离线写博客 浏览器兼容

数学公式

使用MathJax渲染LaTex 数学公式,详见math.stackexchange.com.

行内公式,数学公式为:Γ(n)=(n1)!nN" role="presentation">Γ(n)=(n1)!nN。 块级公式:

x=b±b24ac2a" role="presentation">
x=b±b24ac2a

更多LaTex语法请参考 这儿.

UML 图:

可以渲染序列图:

Created with Raphal 2.1.2张三张三李四李四嘿,小四儿, 写博客了没李四愣了一下,说:忙得吐血,哪有时间写。

或者流程图:

Created with Raphal 2.1.2开始我的操作确认?结束yesno 关于 序列图 语法,参考 这儿, 关于 流程图 语法,参考 这儿.

离线写博客

即使用户在没有网络的情况下,也可以通过本编辑器离线写博客(直接在曾经使用过的浏览器中输入write.blog.csdn.net/mdeditor即可。Markdown编辑器使用浏览器离线存储将内容保存在本地。

用户写博客的过程中,内容实时保存在浏览器缓存中,在用户关闭浏览器或者其它异常情况下,内容不会丢失。用户再次打开浏览器时,会显示上次用户正在编辑的没有发表的内容。

博客发表后,本地缓存将被删除。 

用户可以选择 把正在写的博客保存到服务器草稿箱,即使换浏览器或者清除缓存,内容也不会丢失。

注意:虽然浏览器存储大部分时候都比较可靠,但为了您的数据安全,在联网后,请务必及时发表或者保存到服务器草稿箱。

浏览器兼容

目前,本编辑器对Chrome浏览器支持最为完整。建议大家使用较新版本的Chrome。 IE9以下不支持 IE9,10,11存在以下问题
不支持离线功能 IE9不支持文件导入导出 IE10不支持拖拽文件导入

  • 这里是 脚注内容.
  • 相关TAG标签
    上一篇:有关HadoopMapReduce的模板
    下一篇:oracle数据库下关键字EXIST,NOT EXISTS使用讲解
    相关文章
    图文推荐

    关于我们 | 联系我们 | 广告服务 | 投资合作 | 版权申明 | 在线帮助 | 网站地图 | 作品发布 | Vip技术培训 | 举报中心

    版权所有: 红黑联盟--致力于做实用的IT技术学习网站