失效链接处理 |
大数据架构、高性能、数据治理题目 PDF 下载
本站整理下载:
相关截图:
主要内容:
1.以下__不属于大数据的关键技术
A.数据技术
B.大数据安全技术和大数据质量技术
C.虚拟化技术和云计算平台技术
D.海量数据的存储技术
答案:C
2.Spark比Hadoop的MR计算高效,主要原因不包含下面__
A.Spark 支持DAG
B.Spark中间数据不存储磁盘,进行缓存处理。
C.Spark采用MPP架构,并发处理
D.高度抽象API
答案:C
3.下面对流式计算理解错误的是___
A .流式计算满足高效实时的场景
B.实时计算是更快的批量计算,更快的交付数据
C.流式计算需要先提交流式计算作业、等待数据流触发操作
D.流式计算连续计算,计算完数据丢弃
答案B
4.Bloom Filter(BF)是一种空间效率很高的随机数据结构,下面描述错误的是__
A.它是一个判断元素是否存在集合的概率算法
B.判断如果不在集合肯定不在,如果在集合有一定的概率判错
C.它支持从集合中删除一个元素
D.Hash函数的选择会影响到算法的效果
答案:C
多选题目
5.问:大数据引擎的性能优化手段,包含下面____
A:计算引擎的任务调度时,尽量本地化计算,减少数据网络输出。
B:数据以流的方式在不同stage传输,减少物化到磁盘。
C:采取数据列式存储,包括轻量级压缩数据、延迟解压、向量化引擎技术。
D:MPP架构采取细粒度容错,解决落后节点影响整个查询性能。
|