失效链接处理 |
Hadoop学习文档 PDF 下载 下载地址:
提取码:hgxe
相关截图: 主要内容:
概述大家知道什么叫做云计算吗?事实上,目前并没有一个确定的定义。然而概括来 讲,所谓的云计算,指的就是把你的软件和服务统一部署在数据中心,统一管理, 从而实现高伸缩性。 云计算具有以下特性: 虚拟化和自动化 服务器,存储介质,网络等资源都可以随时替换 所有的资源都由云端统一管理 高度的伸缩性以满足业务需求 集中于将服务传递给业务. 云计算的部署方式 7
第一章 概念 从部署方式来说,总共有两类云计算 私有云:数据中心部署在企业内部,由企业自行管理。微软为大家提供了 Dynamic Data Center Toolkit,来方便大家管理自己的数据中心。 公共云:数据中心由第三方的云计算供应商提供,供应商帮助企业管理基础设 施(例如硬件,网络,等等)。企业将自己的软件及服务部属在供应商提供的 数据中心,并且支付一定的租金。WindowsAzure正是这样一个公共云平台。 云计算的运营方式 从运营方式来说,总共有三类云计算: 软件即服务(SaaS):云计算运营商直接以服务的形式供应软件,供最终用 户使用。有些服务还提供了SDK,从而使得第三方开发人员可以进行二次开 发。在这种运营模式下,开发人员通常只能针对现有的产品开发插件,而无法 充分挖掘平台和操作系统的特点,不过他们可以在现有产品的基础上添加新的 功能,而不必从头开始实现。微软的Bing,Windows Live,Microsoft Business Productivity Online等产品就属于这一类型。 平台即服务(PaaS):云计算运营商将自己的开发及部署平台提供给第三方 开发人员,第三方开发人员在这个平台上开发自己的软件和服务,供自己或其 它用户使用。在这种运营模式下,开发人员有了更多的自由,可以发挥出平台 的强大功能,而不受现有产品的束缚。Windows Azure正是这样一个产品。 基础设施即服务(IaaS):云计算运营商提供但不管理基础设施,第三方开发 人员将开发好的软件和服务交给自己公司的IT管理员,由IT管理员负责部署及 管理。在这种运营模式下,开发人员和IT管理员有最大限度的自由,然而由于 必须自行管理部分基础设施,因此成本通常也会较大,对管理员的要求也会较 高。目前微软尚未提供IaaS的云计算运营模式,不过我们正在考虑如何给૿开 发人员和IT管理员更多的自由。 总结&nbsq;云计算指的就是把你的软件和服务统一部署在数据中心,统一管理,从而实 现高伸缩性。从部署方式来说,云计算可以分为私有云和公共云。从运营方式来 说,云计算可以分成SaaS,PaaS,IaaS三类。 8
第二章 云计算技术 第二章 云计算技术 云计算技术: 首先让大家明白什么是云端,所谓云端需要两层理解 服务不在本地,这一层可以理解为服务器 它和普通的服务器是不一样的,这些云端的服务器的资源是共享的,一旦一个 服务器不能承受,将会把任务分配给其他机器。 云技术与其他技术的区别: 云技术可以使用的语言有java,c++等。云技术的开发,并没有发展什么新语 言,而是在其他语言的基础上。比如Java语言。与其他技术,最显著的区别,不是 在开发上,而是在于架构上,最显著的特点是分布式。 成熟的云计算技术: HadoopHadoop是一个框架,它是由Java语言来实现的。Hadoop是处理大数 据技术.Hadoop可以处理云计算产生大数据,需要区分hadoop并不是云计 算。它和云计算密不可分。 Hadoop产生是互联网的产物,也是必然。大家都知道,我们上网时需 要服务器的。假如世界上只有一台电脑,根本不需要服务器。如果有10台 服务器,100台,1000台,上万台,那么我们该如何让大家相互通信,共 享知识,所以我们产生了互联网。 互联网产生,全世界都可以通信,知识如此居多,我们像获取更多的 知识,想获取新技术,获取新知识,通过什么,国内通过百度,国外也有 许多,比如Google。可是百度和谷歌的用户有多少,多了不说,最起码有 上亿的用户。并且这些用户每天上百度,上谷歌,又会产生多少数据,查 询多少数据。那么他们怎么承受如此多用户。 这不是一台电脑、一台服务器能完成的事情。Hadoop就是一个解决方 案。Hadoop是一个分布式方案,能够把压力分摊到其他服务器。至于如何 做到的,可以深入了解Hadoop的maprecude等知识。 9
第二章 云计算技术 openstack openstack是搭建云平台技术,可以搭建公有云,私有云,和混合云。 OpenStack是开源的云管理平台,用来统一管理多个虚拟化集群的框架。 openstack目前分为两种:openstack的运维与openstack的二次开发 Cloud Foundry Cloud Foundry是一个开源的平台即服务产品,它提供给开发者自由度 去选择云平台,开发框架和应用服务。Cloud Foundry最初由 VMware 发 起,得到了业界广泛的支持,它使得开发者能够更快更容易的开发,测 试,部署和扩展应用。Cloud Foundry是一个开源项目,用户可以使用多 种私有云发行版,也可以使用公共云服务。 nosql nosql即not only sql。nosql数据库是一种比较低级的数据库,关系型 数据库是由nosql数据库发展而来。 什么是关系型数据库,这里不从概念 上区别,常用的SqlServer,mysql,oracle都是关系型数据库。关系型数据 库顾名思义,数据库关系明确严谨。 而nosql则是一种数据关系不严谨的 数据库。一个key和value。 10
1 结构化数据与非结构化数据 1 结构化数据与非结构化数据 相对于结构化数据(即行数据,存储在数据库里,可以用二维表结构来逻辑表 达实现的数据)而言,不方便用数据库二维逻辑表来表现的数据即称为非结构化数 据,包括所有格式的办公文档、文本、图片、XML、HTML、各类报表、图像和音 频/视频信息等等。 非结构化数据库是指其字段长度可变,并且每个字段的记录又可以由可重复或 不可重复的子字段构成的数据库,用它不仅可以处理结构化数据(如数字、符号等 信息)而且更适合处理非结构化数据(全文文本、图象、声音、影视、超媒体等信 息)。非结构化WEB数据库主要是针对非结构化数据而产生的,与以往流行的关系数 据库相比,其最大区别在于它突破了关系数据库结构定义不易改变和数据定长的限 制,支持重复字段、子字段以及变长字段并实现了对变长数据和重复字段进行处理 和数据项的变长存储管理,在处理连续信息(包括全文信息)和非结构化信息(包 括各种多媒体信息)中有着传统关系型数据库所无法比拟的优势。 结构化数据(即行数据,存储在数据库里,可以用二维表结构来逻辑表达实现的数 据) 非结构化数据,包括所有格式的办公文档、文本、图片、XML、HTML、各类报 表、图像和音频/视频信息等等 所谓半结构化数据,就是介于完全结构化数据(如关系型数据库、面向对象数据库 中的数据)和完全无结构的数据(如声音、图像文件等)之间的数据,HTML文档 就属于半结构化数据。它一般是自描述的,数据的结构和内容混在一起,没有明显 的区分。 数据模型: 结构化数据:二维表(关系型) 半结构化数据:树、图 非结构化数据:无 RMDBS的数据模型有:如网状数据模型、层次数据模型、关系型
|