Scrapy是一个用Python编写的快速,开源的网络爬行框架,用于在基于XPath的选择器的帮助下从网页中提取数据.
Scrapy是第一个于2008年6月26日根据BSD发布,2015年6月发布里程碑1.0.
为什么使用Scrapy?
构建和扩展大型爬网项目更容易.
它有一个名为Selectors的内置机制,用于从网站中提取数据.
它以异步方式处理请求并且速度很快.
它使用自动限制机制自动调整爬行速度.
确保开发人员可访问性.
Scrapy的功能
Scrapy是一个开源的免费网络抓取框架.
Scrapy以JSON,CSV和XML等格式生成Feed导出.
Scrapy内置支持从源中选择和提取数据通过XPath或CSS表达式.
基于抓取工具的Scrapy,允许自动从网页中提取数据.
优点
Scrapy易于扩展,快速且功能强大.
这是一个跨平台的应用程序框架(Windows,Linux,Mac OS和BSD).
Scrapy请求被异步调度和处理.
Scrapy附带内置服务,名为 Scrapyd ,允许上传项目使用JSON Web服务控制蜘蛛.
缺点
Scrapy仅适用于Python 2.7 . +
不同操作系统的安装不同.