资讯安全论坛下载读书程序开发数据库系统网络电子书微信学院站长学院 QQ 考试

频道栏目

其他| 安全资讯| 安全公告| 病毒预警| 人物| 企业招聘| 其他综合|

首页 > 资讯 > 其他 > 正文

如何利用Scrapy去进行电影信息的爬取（最新）

18-07-30 来源：[db:作者]

收藏我要投稿

环境：python 2.7

创建scrapy项目过程可见本人博客其他文章，这里不再赘述

直接上代码

主要代码

# -*- coding: utf-8 -*-
import scrapy


class DyttSpider(scrapy.Spider):
 name = 'dytt'
 allowed_domains = ['ygdy8.net']
 start_urls = ['http://www.ygdy8.net/html/gndy/dyzz/index.html']

 def parse(self, response):
  #print '***********>',response
  #extract_first('默认值')取出列表第一个元素，为空返回默认值
  title=response.xpath('//title/text()').extract()[0]
  #print title
  hrefs = response.xpath('//a[@class="ulink"]/@href')
  # for循环取出所有的href值
  #for href in hrefs:
#print href

  total_page = response.xpath('//select[@name="sldd"]/option[last()]/text()').extract_first('0')
  #print total_page
  for x in range(2, int(total_page) + 1):
#print '正在爬取第%s页数据，请稍后....' % x
# 根据x的值，拼接完整页面url地址
url = 'http://www.ygdy8.net/html/gndy/dyzz/list_23_%s.html' %x
#和return类似，不会结束函数的执行
#返回一个请求对象
yield scrapy.Request(url)

点击复制链接与好友分享!回本站首页

相关TAG标签

上一篇：浅谈继承的特性

下一篇：SSM框架相关配置信息配置

相关文章

热门专题推荐 vmware win7激活工具 win10激活工具 excel word office激活小马激活工具重装系统数据恢复 u盘启动工具

图文推荐

文章

推荐

· 不掉线的路由器！路由特殊技术分析！

· 如何通过路由器来控制上网

· 宽带路由器故障巧排除

· 关于忘记Cisco交换机路由器口令后如何

· 远程管理路由器注意“安全”

· 路由器端口映射的原理及设置方法介绍

· 教你用路由器日志快速定位及排除故障

· 教你设置无线路由提高无线网BT下载速

· win7激活工具

· win10激活工具

· win7激活工具旗舰版

· office2010激活密钥

· windows7激活密钥

· office2010激活工具

· 小马激活工具

· win10激活工具

热门新闻

· 锤子坚果Pro发布后，罗永浩哭了

· 想实习的大学党看过来!这些科技巨头最

· 罗永浩锤子发布会抢先消息：锤子科技新

· Google新一代系统Fuchsia OS界面曝光

· 中国唯一连续运营20余年的网络游戏，还

· iPhone都便宜了为何国产手机越来越贵

· 丢人！谷歌和Facebook竟被虚假企业电邮

· 中国移动支付震惊日本网友为什么美国

关于我们 | 联系我们 | 广告服务 | 投资合作 | 版权申明 | 在线帮助 | 网站地图 | 作品发布 | Vip技术培训 | 举报中心

版权所有: 红黑联盟--致力于做实用的IT技术学习网站