首页 > 网络 > 云计算 > 正文
Windows中Python3.6安装、Scrapy安装及简单认识
2017-04-27       个评论      
收藏    我要投稿

1.从http://python.org/download/上下载Windows平台上的Python3.6的安装文件,点击进行安装:

\
\
\

2.安装完毕后,可以在DOS命令行查询安装的Python版本:

3.从http://sourceforge.net/projects/pywin32/安装pywin32(下载符合系统的pywin32版本)

4.在安装Python3.6时,会自动安装pip,打开命令行,查询pip版本:

5.安装Scrapy(利用pip安装)

Scrapy安装完后可以在命令行查询当前的Scrapy的版本,同时可以验证一下Scrapy是否安装成功

如果出现以下界面,则证明Scrapy安装成功啦,就可以开始驾驭你的爬虫啦!

下面来简单的说一下Scrapy入门吧:

1.创建一个Scrapy项目

2.定义提取的Item

3.编写爬取网站的spider并提取Item

4.编写Item Pipeline来存储提取到的Item(就是存储提取到的数据)

Scrapy是有Python语言进行编写,需要一定的Python基础,以下是针对有Python基础的教程。如果你对Python还一窍不知,建议你先学习以下Python基础,这样容易接受,学的 也会快些。

1.创建Scrapy项目:

使用Scrapy爬取数据,需要先建立一个Scrapy项目:

如果是在桌面创建的话,会在桌面创建一个名字为example的文件夹,文件夹的结构为:

example:

------scrapy.cfg

------example/

--------_init_.py

--------items.py

--------pipelines.py

--------settings.py

--------spiders/

------------_init_.py

------------_pycache/

...

- scrapy.cfg:项目的配置文件;

- example :该项目的Python模块;

- example/items.py :项目中的item文件,为提取的数据创建模型;

- example/pipelines.py :项目中的pipelines文件;

- example/settings.py :项目中的配置文件;

- example/spiders/ :存放spider代码

2.定义Item(建立提取的数据模型)

Item是保存爬取到的数据的容器,在这个文件中你可以定义数据模型,然后爬取到的数据最终会按照你定义的模型来存储数据。

3.编写spider代码

在spider文件下新建一个exampleSpider.py,该文件就是爬取网页数据的‘爬虫’,你需要为它规范一下“行为”

创建一个Spider,必须继承scrapy.Spider类,同时定义三个属性:

1> name : 为你的爬虫定义一个名字(名字是唯一的),在后边的爬取过程中区分于其他爬虫;

2> start_urls :包含了Spider在启动时进行爬取的URL列表;

3> parse(self,response) : 是spider方法。被调用时,每个初始URL完成爬取后的response都会传给这个方法。该方法负责解析返回的数据,并进行近一步的提取。

4.爬取

在DOS命令行中,进入项目的根目录,启动spider:

在example的根目录下会创建Book的文件。

点击复制链接 与好友分享!回本站首页
上一篇:python实现knn算法
下一篇:阿里云Ubuntu16配置iptables防火墙
相关文章
图文推荐
文章
推荐
点击排行

关于我们 | 联系我们 | 广告服务 | 投资合作 | 版权申明 | 在线帮助 | 网站地图 | 作品发布 | Vip技术培训
版权所有: 红黑联盟--致力于做实用的IT技术学习网站