开发手册 欢迎您!
软件开发者资料库

Scrapy - Scraped Data

Scrapy Scraped Data - 从简单和简单的步骤学习Scrapy,从基本到高级概念,包括概述,环境,命令行工具,蜘蛛,选择器,项目,项目装载程序,Shell,项目管道,Feed导出,请求和响应,链接提取器,设置,例外,创建项目,定义项目,第一个蜘蛛,爬行,提取项目,使用项目,以下链接,Scraped数据,日志记录,统计信息收集,发送电子邮件,Telnet控制台,Web服务。

描述

存储已删除数据的最佳方法是使用Feed导出,这样可确保使用多种序列化格式正确存储数据. JSON,JSON行,CSV,XML是序列化格式中支持的格式.数据可以使用以下命令存储 :

scrapy crawl dmoz -o data.json

此命令将创建一个 data.json 文件,其中包含JSON中的抓取数据.这种技术适用于少量数据.如果必须处理大量数据,那么我们可以使用Item Pipeline.就像data.json文件一样,在 tutorial/pipelines.py 中创建项目时会设置一个保留文件.