失效链接处理 |
crawl_your_data_spider_technology PDF 下载
相关截图:
主要内容:
什么是抓包
不论⽤哪种⽅式去写爬⾍代码,对于 下载 来说,具体要请求⽹
站 url 是什么,调⽤什么 api 接⼝,传递什么 参数 ,以及获取到数据
后,⽤什么规则提取出需要的数据等等内容,都需要事先去分析和研究清
楚,这个抓取⽹络请求的数据包的过程,⼀般叫做: 抓包
即:
下载
需要访问的⽹⻚ url 地址或 api接⼝ 是什么
以及传递什么 参数
提取
对于返回数据,需要抓取具体哪⼀部分
对应的数据的 提取规则 是什么
提示:
虽然对于爬⾍的核⼼流程是先要抓包分析搞清楚逻辑,然后才能去写爬⾍
代码,不过实际上很多时候,是边分析,边写代码的。
尤其是对于⼀些复杂的⽹站或app来说,往往是分析的同时,也要写⼀些
代码去验证和测试抓取的逻辑是否⾏得通的。
总之,对于爬⾍的流程:
逻辑上是:先抓包分析,再写爬⾍代码
实际上(往往)是:边抓包分析,边写代码
抓包的难度
普通⽹⻚ :抓包分析,⼀般⽐较简单
复杂⽹站 :对于需要登录才能获取到数据,且加了验证码等做了其
他反爬措施和⼿段的⽹站和app,抓包分析起来,⼀般都很复杂
复杂⽹站的抓包分析和破解,往往⽐(之后的,单纯的)写爬⾍
去 下载+提取+保存,要难多了
|