Scrapy - Crawling（抓取数据）

Scrapy Crawling - 从简单和简单的步骤学习Scrapy，从基本到高级概念，包括概述，环境，命令行工具，蜘蛛，选择器，项目，项目装载程序，Shell，项目管道，Feed导出，请求和响应，链接提取器，设置，例外，创建项目，定义项目，第一个蜘蛛，抓取，提取项目，使用项目，以下链接，Scraped数据，日志记录，统计信息收集，发送电子邮件，Telnet控制台，Web服务。

描述

要执行蜘蛛，请在 first_scrapy 目录中运行以下命令 :

scrapy crawl first

其中， first 是创建蜘蛛时指定的蜘蛛的名称.

蜘蛛爬行后，您可以看到以下输出 :

2016-08-09 18:13:07-0400 [scrapy] INFO: Scrapy started (bot: tutorial)2016-08-09 18:13:07-0400 [scrapy] INFO: Optional features available: ...2016-08-09 18:13:07-0400 [scrapy] INFO: Overridden settings: {}2016-08-09 18:13:07-0400 [scrapy] INFO: Enabled extensions: ...2016-08-09 18:13:07-0400 [scrapy] INFO: Enabled downloader middlewares: ...2016-08-09 18:13:07-0400 [scrapy] INFO: Enabled spider middlewares: ...2016-08-09 18:13:07-0400 [scrapy] INFO: Enabled item pipelines: ...2016-08-09 18:13:07-0400 [scrapy] INFO: Spider opened2016-08-09 18:13:08-0400 [scrapy] DEBUG: Crawled (200)  (referer: None)2016-08-09 18:13:09-0400 [scrapy] DEBUG: Crawled (200)  (referer: None)2016-08-09 18:13:09-0400 [scrapy] INFO: Closing spider (finished)

As您可以在输出中看到，对于每个URL，都有一个日志行，其中(引用者:无)表明URL是起始URL并且没有引用者.接下来，您应该会在 first_scrapy 目录中看到两个名为 Books.html 和 Resources.html 的新文件.