Java知识分享网 - 轻松学习从此开始!    

Java知识分享网

Java1234官方群25:java1234官方群17
Java1234官方群25:838462530
        
SpringBoot+SpringSecurity+Vue+ElementPlus权限系统实战课程 震撼发布        

最新Java全栈就业实战课程(免费)

springcloud分布式电商秒杀实战课程

IDEA永久激活

66套java实战课程无套路领取

锋哥开始收Java学员啦!

Python学习路线图

锋哥开始收Java学员啦!
当前位置: 主页 > Java文档 > Python技术 >

pythonscrapy爬虫实例Python爬虫Scrapy实例 PDF 下载


分享到:
时间:2024-02-28 10:39来源:http://www.java1234.com 作者:转载  侵权举报
pythonscrapy爬虫实例Python爬虫Scrapy实例
失效链接处理
pythonscrapy爬虫实例Python爬虫Scrapy实例 PDF 下载
 
 
相关截图:
 

主要内容:

、创建Scrapy项⽬
似乎所有的框架,开始的第⼀步都是从创建项⽬开始的,Scrapy也不例外。在这之前要说明的是Scrapy项⽬的创建、配置、运⾏……默认
都是在终端下操作的。不要觉得很难,其实它真的⾮常简单,做填空题⽽已。如果实在是⽆法接受,也可以花点⼼思配置好Eclipse,在这
个万能IDE下操作。推荐还是在终端操作⽐较好,虽然开始可能因为不熟悉⽽出现很多错误,错多了,通过排错印象深刻了,也就⾃然学会
了。打开Putty连接到Linux,开始创建Scrapy项⽬。执⾏命令:
cd
cd code/scrapy/
scrapy startproject todayMovie
tree todayMovie
执⾏结果如图1所⽰。
图1 创建todayMovie项⽬
tree命令将以树形结构显⽰⽂件⽬录结构。tree命令默认情况下是没有安装的,可以执⾏命令apt-get install tree来安装这个命令。
这⾥可以很清楚地看到todayMovie⽬录下的所有⼦⽂件和⼦⽬录。⾄此Scrapy项⽬todayMovie基本上完成了。按照Scrapy的提⽰信息,
可以通过Scrapy的Spider基础模版顺便建⽴⼀个基础的。相当于把填空题打印到试卷上,等待填空了。当然,也可以不⽤Scrapy命令建⽴
基础,如果⾮要体验⼀下DIY也是可以的。这⾥我们还是怎么简单怎么来吧,按照提⽰信息,在该终端中执⾏命令:
cd todayMovie
scrapy genspider wuHanMovieSpider mtime.com
执⾏结果如图2所⽰。
图2 创建基础爬⾍
⾄此,⼀个最基本的项⽬已经建⽴完毕了,它包含了⼀个Scrapy所需的基础⽂件。到这⼀步可以说填空题已准备完毕,后⾯的⼯作就纯粹
是填空了。图2中第⼀⾏⽂字scrapy genspider是⼀个命令,也是Scrapy最常⽤的⼏个命令之⼀,它的使⽤⽅法如图3所⽰。
图3 scrapy genspider命令帮助
因此,刚才的命令意思是使⽤scrapy genspider命令创建⼀个名字为wuHanMovieSpider的爬⾍脚本。这个脚本搜索的域为
mtime.com。
2、Scrapy⽂件介绍
Scrapy项⽬的所有⽂件都已经到位了,如图2所⽰,下⾯来看看各个⽂件的作⽤。⾸先最顶层的那个todayMovie⽂件夹是项⽬名,这个没
什么好说的。
在第⼆层中是⼀个与项⽬同名的⽂件夹todayMovie和⼀个⽂件scrapy.cfg,这⾥与项⽬同名的⽂件夹todayMovie是模块(也可以叫做包
的),所有的项⽬代码都在这个模块(⽂件夹或者叫包)内添加。⽽scrapy.cfg⽂件,顾名思义它是整个Scrapy项⽬的配置⽂件。来看看这个
⽂件⾥有些什么。Scrapy.cfg⽂件内容如下:


 
 
------分隔线----------------------------

锋哥公众号


锋哥微信


关注公众号
【Java资料站】
回复 666
获取 
66套java
从菜鸡到大神
项目实战课程

锋哥推荐