1、在cmd命令行中输入 scrapy startproject douban,创建scrapy爬虫项目
2、在cmd命令行中调整到douban项目文件夹下输入 scrapy genspider -t basic db douban.com(最后一个是网站域名)创建名为db的爬虫(如果是创建自动爬虫要输入-t crawl )
3、在items.py中创建属性title和note,这是我们接下来要爬取的网站的数据,即标题和日志
4、在db.py中进行爬虫方法的部署,代码和注释如下图:
5、在命令行中输入:scrapy crawl db即可爬取数据了
这是我的第一个博客,希望有相似兴趣的可以多和我交流一起学习啊!
- Markdown和扩展Markdown简洁的语法
- 代码块高亮
- 图片链接和图片上传
- LaTex数学公式
- UML序列图和流程图
- 离线写博客
- 导入导出Markdown文件
- 丰富的快捷键
Markdown 是一种轻量级标记语言,它允许人们使用易读易写的纯文本格式编写文档,然后转换成格式丰富的HTML页面。 —— [ 维基百科 ]
使用简单的符号标识不同的标题,将某些文字标记为粗体或者斜体,创建一个链接等,详细语法参考帮助?。
本编辑器支持 Markdown Extra , 扩展了很多好用的功能。具体请参考Github.
Markdown Extra 表格语法:
项目 | 价格 |
---|---|
Computer | $1600 |
Phone | $12 |
Pipe | $1 |
可以使用冒号来定义对齐方式:
项目 | 价格 | 数量 |
---|---|---|
Computer | 1600 元 | 5 |
Phone | 12 元 | 12 |
Pipe | 1 元 | 234 |
定义 D
定义D内容
代码块语法遵循标准markdown代码,例如:
@requires_authorization def somefunc(param1='', param2=0): '''A docstring''' if param1 > param2: # interesting print 'Greater' return (param2 - param1 + 1) or None class SomeClass: pass >>> message = '''interpreter ... prompt'''
生成一个脚注1.
用 [TOC]来生成目录:
利用scrapy爬取需要登录的网站的数据(包含验证码的处理)–以爬取豆瓣网数据为例 快捷键 Markdown及扩展 表格 定义列表 代码块 脚注 目录 数学公式 UML 图: 离线写博客 浏览器兼容
使用MathJax渲染LaTex 数学公式,详见math.stackexchange.com.
行内公式,数学公式为:
更多LaTex语法请参考 这儿.
可以渲染序列图:
或者流程图:
关于 序列图 语法,参考 这儿, 关于 流程图 语法,参考 这儿.即使用户在没有网络的情况下,也可以通过本编辑器离线写博客(直接在曾经使用过的浏览器中输入write.blog.csdn.net/mdeditor即可。Markdown编辑器使用浏览器离线存储将内容保存在本地。
用户写博客的过程中,内容实时保存在浏览器缓存中,在用户关闭浏览器或者其它异常情况下,内容不会丢失。用户再次打开浏览器时,会显示上次用户正在编辑的没有发表的内容。
博客发表后,本地缓存将被删除。
用户可以选择 把正在写的博客保存到服务器草稿箱,即使换浏览器或者清除缓存,内容也不会丢失。
注意:虽然浏览器存储大部分时候都比较可靠,但为了您的数据安全,在联网后,请务必及时发表或者保存到服务器草稿箱。