失效链接处理 |
大数据平台基础架构指南 刘旭晖 PDF 下载
1.1什么是大数据平台
大数据平台这个名字,在本书将要讨论的内容语境中,如果换一个字面上 看起来更加精确一点的名词来表达的话,也可以叫作大数据开发平台。顾名思 义,它就是用于支撑大数据相关业务开发的平台。
不过,叫它开发平台,并不代表它只支持大数据相关业务的代码开发,事 实上,业界用这个约定俗成的名字所指代的平台,除了提供狭义的代码开发功 能,也需要提供一些从字面上看起来不那么像“开发”的功能,比如各种数据
查询、展示、权限管理、集群管控等服务,根据各家公司具体平台定位的不同, 还有可能包括一些数据内容类产品。
上述各类功能,除了数据内容类产品,剩下的绝大部分,从广义的角度来 看,还是直接或间接地为了大数据业务开发工作顺利开展而存在的,是整体数 据业务开发和对外服务环节的必要组成部分,本书中的主要内容也将围绕这些 服务的构建来展开。后续本书统一用“大数据平台”这个名词来指代我们所描 述的对象。
名词约定完毕,我们再来细看一下它指代的对象到底包括哪些内容。
从服务的角度来看,很显然,大数据平台应该要提供海量数据的存储、计 算和查询展示功能,对于这一点,显然大家不会有太多的疑问。
但是,如何提供这些服务,上述服务就等同于大数据平台吗?是不是只要 把各种开源组件拼凑起来,或者更简单一点,使用Cloudera和Hortonworks之 类的Hadoop发行版公司提供的Hadoop套件,配置好参数,找一些机器运行起 来,就算完成了大数据平台的搭建工作?搭建完毕以后,平台开发人员日常的 工作是不是就是修复一下各种组件的Bug、处理一下集群故障、给业务方扫扫 盲、纠正一下组件使用姿势呢?
事实上,在我接触过的众多大大小小的大数据平台开发团队中,有不少的 团队所做的工作基本类似于我描述的那样,大体偏运维的性质。
当然这么做未尝不可,但是否合适则取决于平台建设的思想和目标。如果 你认为大数据平台的概念和集群的概念是等同的,大数据平台建设的目标就是 把各种集群管理好,那必然会导出上述结论。
但如果你的目标是建设一个成熟的大数据业务开发服务体系,希望在各 种开源组件或集群的基础上创造更多的附加价值,提供给用户一个完整的数 据业务解决方案,而不仅仅是做一个集群的维护者,那么显然就会倾向于另 一个结论。
本书绝大多数内容都是从提供完整的服务体系的角度出发,来尝试回答什 么是大数据平台,以及它应该如何建设。
|