以爬取豆瓣网数据为例利用scrapy爬取需要登录的网站的数据（包含验证码的处理）

18-07-28 来源：[db:作者]

收藏我要投稿

利用scrapy爬取需要登录的网站的数据（包含验证码的处理）–以爬取豆瓣网数据为例

1、在cmd命令行中输入 scrapy startproject douban，创建scrapy爬虫项目
2、在cmd命令行中调整到douban项目文件夹下输入 scrapy genspider -t basic db douban.com（最后一个是网站域名）创建名为db的爬虫（如果是创建自动爬虫要输入-t crawl ）
3、在items.py中创建属性title和note，这是我们接下来要爬取的网站的数据，即标题和日志如图所示
4、在db.py中进行爬虫方法的部署，代码和注释如下图：
这里写图片描述

5、在命令行中输入：scrapy crawl db即可爬取数据了
这是我的第一个博客，希望有相似兴趣的可以多和我交流一起学习啊！
- Markdown和扩展Markdown简洁的语法
- 代码块高亮
- 图片链接和图片上传
- LaTex数学公式
- UML序列图和流程图
- 离线写博客
- 导入导出Markdown文件
- 丰富的快捷键

快捷键

加粗 Ctrl + B 斜体 Ctrl + I 引用 Ctrl + Q 插入链接 Ctrl + L 插入代码 Ctrl + K 插入图片 Ctrl + G 提升标题 Ctrl + H 有序列表 Ctrl + O 无序列表 Ctrl + U 横线 Ctrl + R 撤销 Ctrl + Z 重做 Ctrl + Y

Markdown及扩展

Markdown 是一种轻量级标记语言，它允许人们使用易读易写的纯文本格式编写文档，然后转换成格式丰富的HTML页面。 —— [ 维基百科 ]

使用简单的符号标识不同的标题，将某些文字标记为粗体或者斜体，创建一个链接等，详细语法参考帮助？。

本编辑器支持 Markdown Extra , 　扩展了很多好用的功能。具体请参考Github.

表格

Markdown　Extra　表格语法：

项目	价格
Computer	$1600
Phone	$12
Pipe	$1

可以使用冒号来定义对齐方式：

项目	价格	数量
Computer	1600 元	5
Phone	12 元	12
Pipe	1 元	234

定义列表

Markdown　Extra　定义列表语法：项目１项目２定义 A 定义 B 项目３定义 C

定义 D

定义D内容

代码块

代码块语法遵循标准markdown代码，例如：

@requires_authorization
def somefunc(param1='', param2=0):
    '''A docstring'''
    if param1 > param2: # interesting
        print 'Greater'
    return (param2 - param1 + 1) or None
class SomeClass:
    pass
>>> message = '''interpreter
... prompt'''

脚注

生成一个脚注1.

数学公式

使用MathJax渲染LaTex 数学公式，详见math.stackexchange.com.

行内公式，数学公式为：Γ(n)=(n−1)!∀n∈N" role="presentation">

Γ (n) = (n 1)! n \in N

。块级公式：

x=−b±b2−4ac2a" role="presentation">
x=b±b24ac2a

更多LaTex语法请参考这儿.

UML 图:

可以渲染序列图：

或者流程图：

关于序列图语法，参考这儿, 关于流程图语法，参考这儿.

离线写博客

即使用户在没有网络的情况下，也可以通过本编辑器离线写博客（直接在曾经使用过的浏览器中输入write.blog.csdn.net/mdeditor即可。Markdown编辑器使用浏览器离线存储将内容保存在本地。

用户写博客的过程中，内容实时保存在浏览器缓存中，在用户关闭浏览器或者其它异常情况下，内容不会丢失。用户再次打开浏览器时，会显示上次用户正在编辑的没有发表的内容。

博客发表后，本地缓存将被删除。　

用户可以选择把正在写的博客保存到服务器草稿箱，即使换浏览器或者清除缓存，内容也不会丢失。

注意：虽然浏览器存储大部分时候都比较可靠，但为了您的数据安全，在联网后，请务必及时发表或者保存到服务器草稿箱。

浏览器兼容

目前，本编辑器对Chrome浏览器支持最为完整。建议大家使用较新版本的Chrome。 IE９以下不支持 IE９，１０，１１存在以下问题
不支持离线功能 IE9不支持文件导入导出 IE10不支持拖拽文件导入

这里是脚注的内容.

点击复制链接与好友分享!回本站首页