Java知识分享网 - 轻松学习从此开始!    

Java知识分享网

Java1234官方群25:java1234官方群17
Java1234官方群25:838462530
        
SpringBoot+SpringSecurity+Vue+ElementPlus权限系统实战课程 震撼发布        

最新Java全栈就业实战课程(免费)

springcloud分布式电商秒杀实战课程

IDEA永久激活

66套java实战课程无套路领取

锋哥开始收Java学员啦!

Python学习路线图

锋哥开始收Java学员啦!
当前位置: 主页 > Java文档 > 大数据云计算 >

hadoop-分布式系统与云计算 PDF 下载


分享到:
时间:2021-07-17 07:54来源:http://www.java1234.com 作者:转载  侵权举报
hadoop-分布式系统与云计算 PDF 下载
失效链接处理
hadoop-分布式系统与云计算 PDF 下载


本站整理下载:
提取码:mgc6 
 
 
相关截图:
 
主要内容:

1.1什么是大数据
大数据(Big Data),指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。
一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合,具有海量的数据规模、快速的数据流转、多样的数据类型和价值密度低四大特征。大数据包括结构化、半结构化和非结构化数据,非结构化数据越来越成为数据的主要部分。
具体来说,比如电商网站的用户浏览行为记录、购买行为记录,社交网站的用户行为数据记录、用户关系数据,通信行业的用户通信行为记录、上网行为记录,APP应用的用户行为数据,交通部门的海量探测数据、路况监控数据,政府部门的民生数据,舆情数据等,由于用户基数大,因而形成的数据动辄日增数百T甚至P级别数据,这些都是真实、物化、具体的大数据。
1.2什么是大数据技术
处理数据需要技术,而在处理规模不同的数据集时,就算处理需求一致,由于存储难度不同,计算难度不同,所使用的技术也不同。在进行大规模数据处理时,需要解决的两个核心问题是:
1、数据存储
由于大数据动辄好几百T,甚至上P级别,如果用一个单机文件系统或者一个单机数据库,都无法胜任。因此,在大数据技术体系中,一般都是采用分布式存储:将数据(文件)分散到一个集群上的N多台机器上存储。
2、数据运算
什么叫运算?比如,某大型电商网站有大量的用户浏览行为记录,需要从这些记录日志中分析出以下信息:
最热门的Top N个商品;
用户浏览网站的平均深度;
用户浏览商品时的路径;
这些数据分析需求,最终都需要转化成运算程序来实现。而在海量数据的场景下,单机资源(无论是CPU,还是内存)配置到极限,也无法在合理的限定时间内运算出结果,所以,在大数据技术体系下,数据运算主要通过运算资源(计算节点)的水平扩展来实现,即使用分布式集群运算系统。
1.3Hadoop简介
Hadoop是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力进行高速运算和存储。
Hadoop实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS。
HDFS有高容错性的特点,并且设计用来部署在低廉的(low-cost)硬件上;而且它提供高吞吐量(high throughput)来访问应用程序的数据,适合那些有着超大数据集(large data set)的应用程序。HDFS放宽了(relax)POSIX的要求,可以以流的形式访问(streaming access)文件系统中的数据。
Hadoop的框架最核心的设计就是:HDFS,MapReduce,Yarn。HDFS为海量的数据提供了存储,而MapReduce则为海量的数据提供了计算,Yarn进行集群资源调度。其中Hadoop的系统架构图如图1-1所示。
 

------分隔线----------------------------

锋哥公众号


锋哥微信


关注公众号
【Java资料站】
回复 666
获取 
66套java
从菜鸡到大神
项目实战课程

锋哥推荐