失效链接处理 |
大数据项目之反爬随堂笔记 PDF 下载
本站整理下载:
相关截图:
主要内容:
项⽬阶段介绍
⽬标:了解反爬⾍项⽬的阶段划分,以及每个阶段要学习的内容
第⼀阶段
反爬⾍项⽬总体价绍,主要包括(背景、需求、流程、架构、openresty介绍、lua语法学习)
第⼆阶段
Lua采集数据写⼊kafka,搭建项⽬框架、Streaming读取kafka数据、链路统计功能实现
第三阶段
实现数据预处理的数据清洗、脱敏、拆分、分类(⻜⾏类型/操作类型,单程/往返)、解析等功能
第四阶段
实现数据预处理的数据历史爬⾍、结构化、数据推送、数据预处理监控、前端读取后端数据等功能
第五阶段
读取预处理后的数据、进⾏封装、分别统计⼋个指标的数据
第六阶段
根据已经算出的⼋项指标结果,进⾏爬⾍识别、剔除⾮爬⾍数据、写⼊Redis,写⼊HDFS,Redis数
据恢复等
第七阶段
爬⾍分析性能的计算与监控、离线指标分析
知识点1:项⽬背景
⽬标:了解反爬⾍项⽬的背景
各⼤售票⽹⽹站对外提供了购票,查票⻔户,吸引正常⽤户的同时,也吸引了⼤量的爬⾍⽤户,爬⾍
会造成企业内的服务器负载较⾼,但是转化率极低,企业为了解决这个问题,需要⼀个反爬⾍系统,进
⾏爬⾍的识别最终屏蔽爬⾍。
知识点2:项⽬概述
数据管理模块
化
1、⽀持对数据采集和分类的配置和管理
2、⽀持对数据各种处理的配置和管理
流程管理模块
1、⽀持流程定义和可配置管理
2、根据监控模块反馈的情况,系统⾃动执⾏相应的策略
3、⽀持⼈⼯执⾏相应的策略
策略管理模块
1、⽀持策略的定义和配置管理
2、配置爬⾍和占座⾏为匹配成功后的系统或⼈⼯应对⽅法
3、关联爬⾍和占座⾏为与机器学习算法的选择和算法参数的阈值
规则管理模块
1、⽀持规则定义和可配置管理
2、⽀持⼈⼯制定爬⾍和占座过滤规则
3、⽀持定制规则参数阈值
实时监控模块
1、对系统所采集的各种数据和特征进⾏实时监控和深度分析
2、通过模型分析和预测,智能识别和判断爬⾍活动与性质
3、通过监控系统反馈的稳定性和负载情况,间接反映可能的爬⾍活动情况
数据可视化管
理模块
1、将⼈⼯难以识别的数据制定图表或图形化,利于从中发现规律和价值
2、提供各种内置标准报表(转化率、爬取规律、占座规律、爬⾍对查定⽐及
系统稳定性的影响等)
⽬标:了解企业端有哪些模块
知识点3:数据处理的总体流程
⽬标:掌握反爬⾍项⽬数据处理的总体流程
数据采集
1、通过Lua采集收集反爬⾍需要的数据
2、将收集的数据打⼊Kafka
数据预处理
3-1、在Kafka中读取数据到数据预处理的程序中
3-2、在数据库中读取相关的规则到程序,准备对数据进⾏计算。
4、 将预处理完毕的数据发送回Kafka
实时计算(爬⾍识别)
5-1、在Kafka中读取预处理后的数据到爬⾍识别的程序中
5-2、在数据库中读取数据到程序
6、 将识别到的爬⾍写⼊
离线计算
8、将预处理后的数据写⼊HDFS
9、计算离线指标数据并写⼊Mysql
|