开发手册 欢迎您!
软件开发者资料库

Scrapy - 概述

Scrapy概述 - 从简单和简单的步骤开始学习Scrapy,从基本到高级概念,包括基本到高级概念,包括概述,环境,命令行工具,蜘蛛,选择器,项目,项目装载程序,外壳,项目管道,Feed导出等示例,请求和响应,链接提取器,设置,例外,创建项目,定义项目,第一个蜘蛛,抓取,提取项目,使用项目,以下链接,Scraped数据,日志记录,统计信息收集,发送电子邮件,Telnet控制台,Web服务。

Scrapy是一个用Python编写的快速,开源的网络爬行框架,用于在基于XPath的选择器的帮助下从网页中提取数据.

Scrapy是第一个于2008年6月26日根据BSD发布,2015年6月发布里程碑1.0.

为什么使用Scrapy?

  • 构建和扩展大型爬网项目更容易.

  • 它有一个名为Selectors的内置机制,用于从网站中提取数据.

  • 它以异步方式处理请求并且速度很快.

  • 它使用自动限制机制自动调整爬行速度.

  • 确保开发人员可访问性.

Scrapy的功能

  • Scrapy是一个开源的免费网络抓取框架.

  • Scrapy以JSON,CSV和XML等格式生成Feed导出.

  • Scrapy内置支持从源中选择和提取数据通过XPath或CSS表达式.

  • 基于抓取工具的Scrapy,允许自动从网页中提取数据.

优点

  • Scrapy易于扩展,快速且功能强大.

  • 这是一个跨平台的应用程序框架(Windows,Linux,Mac OS和BSD).

  • Scrapy请求被异步调度和处理.

  • Scrapy附带内置服务,名为 Scrapyd ,允许上传项目使用JSON Web服务控制蜘蛛.

  • 虽然该网站没有用于原始数据访问的API,但可以废弃任何网站.

缺点

  • Scrapy仅适用于Python 2.7 . +

  • 不同操作系统的安装不同.