失效链接处理 |
大数据存储与处理关键技术 PDF 下载
本站整理下载:
相关截图:
主要内容:
大数据存储
高效的大数据存储架构涉及 大数据重复数据删除和编码优化 问题,我们针对这两个问题进行 了初步的研究。
大数据重复数据删除技术
在大数据时代,数据的体量 和增长速度大大超过了以往,其 中重复数据也在不断增大。国际 数据公司通过研究发现在数字 世界中有近 75%的数据是重复 的 [5],企业战略集团 (Enterprise Strategy Group, ESG) 指出在备份 和归档存储系统中数据的冗余度 超过 90% [6]。因此,高效的重复 数据删除技术 (Cluster Deduplica- tion) 成为缩减数据占用空间并降 低成本的关键。然而,由于这项 技术是计算密集型和读写 (I/O) 密集型的技术,特别是重复删除 运算相当消耗运算资源,要进行 大量的读写处理,因此现有系统 在存取性能方面还存在很多问题 需要解决。 在大数据存储环境中,将集 群重复数据删除技术有效地融入 分布式集群存储架构中,可使存 储系统在数据存储过程中对重复 冗余数据进行在线去重,并在存 储性能、存储效率以及去重率等 方面得到优化。
具有重复数据删除功能的分
布式存储架构
通过设计并实现具有重复数 据删除功能的分布式文件系统, 可使其具备高去重率、高可扩展 性、高吞吐率等特征。分布式重 复数据删除系统的架构包括客户 端、元数据服务器和数据服务器 三部分(见图 1)。 客户端主要提供集群重复数 据删除系统对外的交互接口,并 在所提供的文件操作接口中实现 基于重复数据删除的存储逻辑和 对数据的预处理,如数据块的划 分与“指纹”的提取。 元数据服务器实现了对元数 据存储、集群的管理与维护,包 括管理在数据存储过程中整个会 话,保存与管理分布式文件系统 中的元数据,管理和维护系统存
|