| 失效链接处理 |
|
大数据面试高频题库(含答案解析)PDF 下载
转载自:
相关截图:
![]()
主要内容:
⼀、基础概念类(必考,⼊⻔级)
1. 什么是⼤数据?⼤数据的核⼼特征有哪些?
参考答案:⼤数据通常指⽆法在传统数据库⼯具和单机环境下,在可接受时间内完成采集、存储、处
理和分析的数据集合,需要新的处理模式才能具备更强的决策⼒、洞察发现⼒和流程优化能⼒。其核
⼼特征通常概括为5V:
1. Volume(⼤量):数据规模极⼤,从TB、PB级别延伸⾄EB级别,远超传统数据处理范围;
2. Velocity(⾼速):数据产⽣和处理速度极快,如⽇志流、订单流、传感器数据等,需实时或准实时
处理;
3. Variety(多样):数据类型丰富,涵盖结构化数据(如数据库表)、半结构化数据(如XML、
JSON)和⾮结构化数据(如⽂本、图像、⾳频);
4. Value(价值密度低):海量数据中有⽤信息占⽐极低,需通过专业分析挖掘才能提取有价值的内
容;
5. Veracity(真实性):数据质量参差不⻬,存在脏数据、重复数据、异常数据,需经过清洗和验证才
能⽤于分析。
答案解析:本题为基础送分题,⾯试官核⼼考察对⼤数据概念的完整理解,避免仅回答“数据量
⼤”的⽚⾯认知。回答时需覆盖5个核⼼特征,可补充:⼤数据开发的核⼼不是“存储数据”,⽽是⾼
效、稳定、低成本地完成数据的处理与价值挖掘,体现对⼤数据应⽤的基本认知。
2. 数据湖(Data Lake)和数据仓库(Data Warehouse)的区别是什么?
参考答案:两者均为⼤数据存储与分析的核⼼载体,核⼼区别体现在数据处理、适⽤场景等⽅⾯,具
体对⽐如下:
1. 数据湖:存储原始未加⼯数据(结构化、半结构化、⾮结构化均⽀持),不提前进⾏结构化处理,
数据格式灵活,适⽤于多种分析场景(如离线分析、实时分析、机器学习),典型载体为Hadoop、
S3等;
2. 数据仓库:存储经过清洗、整合、结构化处理的数据,⾯向特定业务主题(如销售、财务),主要
⽤于业务报表分析、决策⽀持,典型载体为Amazon Redshift、Snowflake、Hive(数据仓库⼯具)
等。
答案解析:考察对⼤数据存储架构核⼼组件的理解,关键区分“原始数据”与“结构化数据”的差
异。补充记忆:数据湖是“原始数据的容器”,数据仓库是“加⼯后的数据集市”,前者侧重灵活性,
后者侧重专业性和易⽤性。 3. 什么是NoSQL数据库?它与关系型数据库的核⼼区别是什么?
参考答案:NoSQL(⾮关系型数据库)是⼀类不依赖关系模型、不使⽤SQL作为主要查询语⾔的数据
库,适⽤于⼤规模、⾼并发、数据类型多样的场景,常⻅类型包括键值存储(如Redis)、⽂档存储
(如MongoDB)、列式存储(如Cassandra)、图数据库(如Neo4j)。
与关系型数据库(如MySQL、Oracle)的核⼼区别:
1. 数据模型:NoSQL⽀持⾮结构化、半结构化数据,⽆固定表结构;关系型数据库依赖固定表结构和
关联关系;
2. 扩展性:NoSQL以⽔平扩展(增加节点)为主,灵活适配数据量增⻓;关系型数据库以垂直扩展
(提升单机配置)为主,扩展能⼒有限;
3. ⼀致性:NoSQL通常牺牲强⼀致性(ACID中的⼀致性),换取⾼可⽤性和⾼吞吐量;关系型数据库
强遵循ACID原则,⼀致性保障更优;
4. 适⽤场景:NoSQL适⽤于⼤数据量、⾼并发、灵活查询场景(如⽤⼾⾏为存储、⽇志存储);关系
型数据库适⽤于数据⼀致性要求⾼、结构化查询场景(如交易数据、⽤⼾核⼼信息)。
答案解析:考察⼤数据场景下存储⽅案的选型能⼒,需明确两者的核⼼差异的同时,结合适⽤场景记
忆,避免只记概念不记应⽤。⾯试中可补充:实际项⽬中常采⽤“关系型+NoSQL”混合架构,兼顾⼀
致性和扩展性。
⼆、Hadoop⽣态类(⾼频,核⼼技术) 1. Hadoop⽣态体系主要包含哪些核⼼组件?各⾃的作⽤是什么?
参考答案:Hadoop是⼤数据分布式处理的核⼼⽣态,核⼼组件及作⽤如下,需掌握组件间的协同关
系:
1. HDFS(分布式⽂件系统):核⼼⽤于海量数据的分布式存储,采⽤主从架构,保障数据⾼可⽤和⾼
容错;
2. YARN(资源管理与任务调度平台):负责整个集群的资源(CPU、内存)管理和任务调度,协调各
类计算框架的资源分配;
3. MapReduce:分布式离线计算框架,通过Map(映射)和Reduce(规约)两阶段并⾏处理海量离
线数据,适⽤于批处理场景;
4. Hive:数据仓库⼯具,基于HDFS存储数据,提供SQL查询能⼒,将SQL语句转换为MapReduce
(或Spark)任务执⾏,降低数据分析⻔槛;
5. HBase:分布式列式NoSQL数据库,基于HDFS存储,适合海量数据的随机读写(低延迟访问),
如⽤⼾画像、实时查询场景;6. ZooKeeper:分布式协调服务,负责集群节点的状态管理、选举、配置同步,
保障Hadoop、HBase等组件的⾼可⽤;
7. Sqoop:数据同步⼯具,实现关系型数据库(MySQL、Oracle)与Hadoop⽣态(HDFS、Hive)
之间的数据导⼊与导出;
8. Flume:⽇志采集⼯具,⽤于实时采集分布式节点的⽇志数据,统⼀写⼊HDFS或Kafka,保障数据
采集的连续性;
9. Kafka:⾼吞吐分布式消息队列,⽤于实时数据流转,缓冲数据峰值,实现⽣产端与消费端的解耦,
是实时计算的核⼼组件;
10. Spark/Flink:分布式计算引擎,Spark侧重批处理和迭代计算,Flink侧重流批⼀体计算,性能优
于MapReduce,是当前主流的计算框架。
答案解析:本题考察对Hadoop⽣态的整体掌握,核⼼是“组件作⽤+协同关系”。⾯试加分点:能说
出组件协同链路,例如:业务⽇志 → Flume/Kafka(采集/缓冲) → HDFS/Hive(存储/结构化) →
Spark/Flink(计算) → HBase/报表系统(输出)。
|


苏公网安备 32061202001004号
