失效链接处理 |
大数据处理三大瓶颈:大容量、多格式和速度 PDF 下载
本站整理下载:
提取码:n9o4
相关截图:
主要内容:
大数据处理三大瓶颈:大容量、多格式和速度
导读:Yahoo CTO Raymie Stata 是领导海量数据分析引擎的关键人物。IBM 和 Hadoop
将更多的精力专注在海量数据上,海量数据正在潜移默化的改变企业和 IT 部门。
越来越多的大企业的数据集以及创建需要的一切技术,包括存储、网络、分析、归档和检索
等,这些被认为是海量数据。这些大量信息直接推动了存储、服务器以及安全的发展。同时
也是给 IT 部门带来了一系列必须解决的问题。
信息技术研究和分析的公司 Gartner 认为海量数据处理应该是将大量的不同种类以及结构
化和非结构化的数据通过网络汇集到处理器和存储设备之中,并伴随着将这些数据转换为企
业的商业报告。
海量数据处理的三个主要因素:大容量数据、多格式数据和速度
大容量数据(TB 级、PB 级甚至 EB 级):人们和机器制造的越来越多的业务数据对 IT 系
统带来了更大的挑战,数据的存储和安全以及在未来访问和使用这些数据已成为难点。
多格式数据:海量数据包括了越来越多不同格式的数据,这些不同格式的数据也需要不同的
处理方法。从简单的电子邮件、数据日志和信用卡记录,再到仪器收集到的科学研究数据、
医疗数据、财务数据以及丰富的媒体数据(包括照片、音乐、视频等)。
速度:速度是指数据从端点移动到处理器和存储的速度。
Kusnetzky 集团的分析师 Dan Kusnetzky 在其博客表示“简单的说,大数据是指允许组织创
建、操作和管理的庞大的数据集和存储设施工具”。这是否意味着将来将会出现比 TB 和 PB
更大的数据集吗?供应商给出的回应是“会出现”。
他们也许会说“你需要我们的产品来管理和组织利用大规模的数据,只是想想繁杂大量的维
护动态数据集带来的麻烦就使人们头疼“。此外海量数据的另外一个价值是它可以帮助企业
在适当的时机作出正确决策。
从历史上看,数据分析软件面对当今的海量数据已显得力不从心,这种局面正在悄然转变。
新的海量数据分析引擎已经出现。如 Apache 的 Hadoop、LexisNexis 的 HPCC 系统和
1010data(托管、海量数据分析的平台供应商)的以云计算为基础的分析服务。
101data 的高级副总裁 Tim Negris 表示海量数据的收集以及存放和利用海量数据实际上完
全是两回事。在做任何事前需要大量(准备数据)的工作是像 Oracle 和大多数数据库厂商
所面临的难题之一。我们正是要消除这个难题,并把数据直接交到分析师的手中。Hadoop
和 HPCC 系统做到了这一点。这三个平台都着眼于海量数据并提供支持。
开源的 Hadoop 已经在过去 5 年之中证明了自己是市场中最成功的数据处理平台。目前
Cloudera 的首席执行官和 Apache 基金会的 Doug Cutting 是 Hadoop 的创始人,他曾在
Yahoo 工作过。
Hadoop 将海量数据分解成较小的更易访问的批量数据并分发到多台服务器来分析(敏捷是
一个重要的属性,就像你更容易消化被切成小块的食物)Hadoop 再处理查询。
“Gartner 和 IDC 的分析师认为海量数据的处理速度和处理各种数据的能力都是 Hadoop 吸
引人们的地方”。Cloudera 的产品副总裁 Charles Zedlewski 说到。
在 Cutting 和他的 Yahoo 团队提出 Hadoop 项目之后,在 Yahoo IT 系统测试并广泛使用了
很多年。随后他们将 Hadoop 发布到开源社区,这使得 Hadoop 逐渐产品化。
在 Cutting 和 Yahoo 在开发、测试并内部运行代码时,他们了解到使用起来还是很复杂的。
这导致他们马上意识到如果在未来提供周边服务(例如提供直观的用户界面、定制部署和附
加功能软件)可赚取更多的资金。
|