失效链接处理 |
大数据功能性测试与非功能性测试分析_高加琼 PDF 下载
本站整理下载:
相关截图:
主要内容:
1.2 大数据的导入和预处理
大数据处理过程在采集端时虽然拥有了非常
多数据库,但是面对海量的数据进行科学有效的分
析是不够的,还需要把这些数据导入到一个大型的
分布式数据库,并在对数据导入之后做一些简单的
清洗、预处理工作.Sqoop 与 Flume 等软件可优化
这些数据的互操作性,Sqoop 软件的功能就是从关
系数据库导入数据到 Hadoop,而且还能直接导入到
HFDS 或者 Hive 软件里.Flume 设计的目的是直接
将日志数据或流数据导入到 HDFS 里.在导入与预
处理的过程中其最大的特点就是导入的数据量非
常大,每秒会达到百兆甚至千兆级别.
1.3 大数据的统计分析
大数据的统计分析就是对导入到一个大型的
分布式数据库里的数据用分布式技术来对这些的
数据分析、汇总等工作.
1.4 大数据的挖掘
与前面的统计和分析不同的是大数据挖掘一
般不会预先设定好主题,数据的挖掘就是对现有数
据进行计算分析,通常采用的工具是 K-means (聚
类)、SVM(统计学习)和 naive Bayes(分类)等这些工
具
|