pythonscrapy爬虫实例Python爬虫Scrapy实例 PDF 下载_Java知识分享网-免费Java资源下载

pythonscrapy爬虫实例Python爬虫Scrapy实例 PDF 下载

转载自：http://www.python222.com/article/882

相关截图：

主要内容：

、创建Scrapy项⽬

似乎所有的框架，开始的第⼀步都是从创建项⽬开始的，Scrapy也不例外。在这之前要说明的是Scrapy项⽬的创建、配置、运⾏……默认

都是在终端下操作的。不要觉得很难，其实它真的⾮常简单，做填空题⽽已。如果实在是⽆法接受，也可以花点⼼思配置好Eclipse，在这

个万能IDE下操作。推荐还是在终端操作⽐较好，虽然开始可能因为不熟悉⽽出现很多错误，错多了，通过排错印象深刻了，也就⾃然学会

了。打开Putty连接到Linux，开始创建Scrapy项⽬。执⾏命令：

cd code/scrapy/

scrapy startproject todayMovie

tree todayMovie

执⾏结果如图1所⽰。

图1 创建todayMovie项⽬

tree命令将以树形结构显⽰⽂件⽬录结构。tree命令默认情况下是没有安装的，可以执⾏命令apt-get install tree来安装这个命令。

这⾥可以很清楚地看到todayMovie⽬录下的所有⼦⽂件和⼦⽬录。⾄此Scrapy项⽬todayMovie基本上完成了。按照Scrapy的提⽰信息，

可以通过Scrapy的Spider基础模版顺便建⽴⼀个基础的。相当于把填空题打印到试卷上，等待填空了。当然，也可以不⽤Scrapy命令建⽴

基础，如果⾮要体验⼀下DIY也是可以的。这⾥我们还是怎么简单怎么来吧，按照提⽰信息，在该终端中执⾏命令：

cd todayMovie

scrapy genspider wuHanMovieSpider mtime.com

执⾏结果如图2所⽰。

图2 创建基础爬⾍

⾄此，⼀个最基本的项⽬已经建⽴完毕了，它包含了⼀个Scrapy所需的基础⽂件。到这⼀步可以说填空题已准备完毕，后⾯的⼯作就纯粹

是填空了。图2中第⼀⾏⽂字scrapy genspider是⼀个命令，也是Scrapy最常⽤的⼏个命令之⼀，它的使⽤⽅法如图3所⽰。

图3 scrapy genspider命令帮助

因此，刚才的命令意思是使⽤scrapy genspider命令创建⼀个名字为wuHanMovieSpider的爬⾍脚本。这个脚本搜索的域为

mtime.com。

2、Scrapy⽂件介绍

Scrapy项⽬的所有⽂件都已经到位了，如图2所⽰，下⾯来看看各个⽂件的作⽤。⾸先最顶层的那个todayMovie⽂件夹是项⽬名，这个没

什么好说的。

在第⼆层中是⼀个与项⽬同名的⽂件夹todayMovie和⼀个⽂件scrapy.cfg，这⾥与项⽬同名的⽂件夹todayMovie是模块(也可以叫做包

的)，所有的项⽬代码都在这个模块(⽂件夹或者叫包)内添加。⽽scrapy.cfg⽂件，顾名思义它是整个Scrapy项⽬的配置⽂件。来看看这个

⽂件⾥有些什么。Scrapy.cfg⽂件内容如下：

最新Java全栈就业实战课程(免费)