失效链接处理 |
pythonscrapy爬虫实例Python爬虫Scrapy实例 PDF 下载
相关截图:
主要内容:
、创建Scrapy项⽬
似乎所有的框架,开始的第⼀步都是从创建项⽬开始的,Scrapy也不例外。在这之前要说明的是Scrapy项⽬的创建、配置、运⾏……默认
都是在终端下操作的。不要觉得很难,其实它真的⾮常简单,做填空题⽽已。如果实在是⽆法接受,也可以花点⼼思配置好Eclipse,在这
个万能IDE下操作。推荐还是在终端操作⽐较好,虽然开始可能因为不熟悉⽽出现很多错误,错多了,通过排错印象深刻了,也就⾃然学会
了。打开Putty连接到Linux,开始创建Scrapy项⽬。执⾏命令:
cd
cd code/scrapy/
scrapy startproject todayMovie
tree todayMovie
执⾏结果如图1所⽰。
图1 创建todayMovie项⽬
tree命令将以树形结构显⽰⽂件⽬录结构。tree命令默认情况下是没有安装的,可以执⾏命令apt-get install tree来安装这个命令。
这⾥可以很清楚地看到todayMovie⽬录下的所有⼦⽂件和⼦⽬录。⾄此Scrapy项⽬todayMovie基本上完成了。按照Scrapy的提⽰信息,
可以通过Scrapy的Spider基础模版顺便建⽴⼀个基础的。相当于把填空题打印到试卷上,等待填空了。当然,也可以不⽤Scrapy命令建⽴
基础,如果⾮要体验⼀下DIY也是可以的。这⾥我们还是怎么简单怎么来吧,按照提⽰信息,在该终端中执⾏命令:
cd todayMovie
scrapy genspider wuHanMovieSpider mtime.com
执⾏结果如图2所⽰。
图2 创建基础爬⾍
⾄此,⼀个最基本的项⽬已经建⽴完毕了,它包含了⼀个Scrapy所需的基础⽂件。到这⼀步可以说填空题已准备完毕,后⾯的⼯作就纯粹
是填空了。图2中第⼀⾏⽂字scrapy genspider是⼀个命令,也是Scrapy最常⽤的⼏个命令之⼀,它的使⽤⽅法如图3所⽰。
图3 scrapy genspider命令帮助
因此,刚才的命令意思是使⽤scrapy genspider命令创建⼀个名字为wuHanMovieSpider的爬⾍脚本。这个脚本搜索的域为
mtime.com。
2、Scrapy⽂件介绍
Scrapy项⽬的所有⽂件都已经到位了,如图2所⽰,下⾯来看看各个⽂件的作⽤。⾸先最顶层的那个todayMovie⽂件夹是项⽬名,这个没
什么好说的。
在第⼆层中是⼀个与项⽬同名的⽂件夹todayMovie和⼀个⽂件scrapy.cfg,这⾥与项⽬同名的⽂件夹todayMovie是模块(也可以叫做包
的),所有的项⽬代码都在这个模块(⽂件夹或者叫包)内添加。⽽scrapy.cfg⽂件,顾名思义它是整个Scrapy项⽬的配置⽂件。来看看这个
⽂件⾥有些什么。Scrapy.cfg⽂件内容如下:
|