软件开发者资料库

Scrapy - 概述

Scrapy概述 - 从简单和简单的步骤开始学习Scrapy，从基本到高级概念，包括基本到高级概念，包括概述，环境，命令行工具，蜘蛛，选择器，项目，项目装载程序，外壳，项目管道，Feed导出等示例，请求和响应，链接提取器，设置，例外，创建项目，定义项目，第一个蜘蛛，抓取，提取项目，使用项目，以下链接，Scraped数据，日志记录，统计信息收集，发送电子邮件，Telnet控制台，Web服务。

Scrapy是一个用Python编写的快速，开源的网络爬行框架，用于在基于XPath的选择器的帮助下从网页中提取数据.

Scrapy是第一个于2008年6月26日根据BSD发布，2015年6月发布里程碑1.0.

为什么使用Scrapy？

构建和扩展大型爬网项目更容易.
它有一个名为Selectors的内置机制，用于从网站中提取数据.
它以异步方式处理请求并且速度很快.
它使用自动限制机制自动调整爬行速度.
确保开发人员可访问性.

Scrapy的功能

Scrapy是一个开源的免费网络抓取框架.
Scrapy以JSON，CSV和XML等格式生成Feed导出.
Scrapy内置支持从源中选择和提取数据通过XPath或CSS表达式.
基于抓取工具的Scrapy，允许自动从网页中提取数据.

优点

Scrapy易于扩展，快速且功能强大.
这是一个跨平台的应用程序框架(Windows，Linux，Mac OS和BSD).
Scrapy请求被异步调度和处理.
Scrapy附带内置服务，名为 Scrapyd ，允许上传项目使用JSON Web服务控制蜘蛛.
虽然该网站没有用于原始数据访问的API，但可以废弃任何网站.

缺点

Scrapy仅适用于Python 2.7 . +
不同操作系统的安装不同.