失效链接处理 |
大数据安全测评框架和技术研究_黄钟 PDF 下载
本站整理下载:
相关截图:
主要内容:
1 大数据基本概念
大数据(Big Data)通常认为是所涉及的数据量规模庞大到无法通过目前主流软件工具,在可以容忍的时间内对其进
行抓取、管理、处理的数据集合。Gartner 给出的定义则指出,大数据是需要新处理模式才能具有更强的决策力、洞察发
现力和流程优化能力的海量、高增长率和多样化的信息资产 [1,2]。
业界公认的大数据特征,包括 :数据体量大 (Volume)、处理速度快 (Velocity) 和数据多样性 (Variety)。另外,依据大
数据外延拓展,还包括价值密度低(Value)、真实性(Veracity)和存活性(Viability)等特征 [3]。
大数据内涵还包括大数据技术以及大数据应用。大数据技术是使大数据中所蕴含的价值得以挖掘和展现的一系列技术
与方法,包括数据采集、预处理、存储、分析挖掘、可视化等技术。大数据应用是对特定的大数据集、集成若干大数据技术,
获得有价值信息的过程,包括预测分析、数据挖掘、统计分析、人工智能、自然语言处理、并行计算、数据存储等技术 [4]。
2 大数据面临的安全威胁
大数据背景下,除大量收集和分析关键信息引入不安全因素外,海量数据基于分布式架构被水平切分后存储和处理,
以及大数据的价值低密性,传统的数据保护技术捉襟见肘,使得安全防护措施难以聚焦到关键点上。同时,隐私保护方
面也出现了技术和法律空隙,大数据安全面临更多威胁和挑战,主要体现在以下几个方面。
2.1 隐私泄漏威胁
大数据通常包含大量的个人信息和行为信息,海量数据汇聚,极易造成用户隐私泄露。数据采集阶段,个人信息被搜
集和存储,未授权的采集使得隐私受到侵犯 ;数据分析阶段,一些隐性信息被关联和挖掘出来,隐私受到严重侵犯 ;结果
展现阶段,恶意泄露会对隐私造成侵犯 ;最后数据销毁时,很难保证数据被彻底销毁,也对隐私造成威胁。另外,音视
频和图像等非结构化数据无法采用传统匿名操作进行保护,也会导致隐私泄漏。隐私泄露已成为大数据必须要面对且急
需解决的问题 [5]。
2.2 平台安全威胁
大数据不仅意味着海量数据的集聚,也意味着更敏感数据的聚集,黑客一次成功攻击就能获取更多的数据,降低了
攻击成本,这会吸引更多潜在的攻击者。大数据采用分布式和虚拟化架构,用户与许多不同的数据节点同时通信,使得更
收稿日期 : 2016-08-25
作者简介 : 黄钟(1979—),女,四川,工程师,硕士,主要研究方向为信息安全测评 ;陈肖(1989—),男,湖北,工程师,硕士,主要研究方向
为信息安全测评 ;文书豪(1992—),男,四川,本科,工程师,主要研究方向为信息安全测评。
通信作者 : 黄钟 7733228@qq.com
180
信息安全等级保护技术大会入选论文 2016年增刊
多数据在网络上传输,传统的“围墙”式防护被海量分散的、
流动性极强的数据洪流冲破,比如,NOSQL 数据库无法沿
用严格访问控制和隐私管理的 SQL 技术模式,现有的 API
访问权限控制以及密钥管理等方面不能满足安全需求 [6]。
2.3 数据安全威胁
数据安全是大数据安全保护的核心,但目前对数据安
全控制力度显然不够。复杂多样的数据集中存储,以及频
繁无序的使用状况,使得重要数据混杂其间,用户间没有
固定的安全隔离边界。数据价值显隐并存、动态变化,数
据之间存在复杂的关联性,数据属性和表现形式不断变化,
基于静态数据集的传统数据保护模型和技术面临挑战。因
此,大数据安全保护,亟待注重数据显隐价值和动态防护 [7]。
2.4 大数据技术被应用到攻击手段中
数据挖掘和数据分析等大数据技术在带来商业价值的
同时,也被黑客用来发起攻击。黑客最大限度地收集更多
有用信息,比如社交网络、电子商务、邮件、电话、微博
和家庭住址等信息,为发起攻击做准备,大数据分析让黑
客的攻击更精准。此外,黑客利用大数据发起僵尸网络攻击,
可能会同时控制上百万台傀儡机并发起攻击,这个数量级
是传统单点攻击所不具备的。
3 大数据技术架构
结合大数据技术、平台和应用特征 [8-10],参考大数据
全生命周期阶段划分,我们提出的大数据架构分为 5 个层
次,分别是基础设施层、文件系统层、分布式计算层、数
据处理层和数据应用层,从信息流转角度,在两端引入数
据资源接入、应用服务消费。如图 1 所示。
图1 大数据体系架构
基础设施层通常使用普通的商用服务器集群构建,提
供分布式存储和计算的硬件基础设施,有效的解决大数据
平台大规模数据存储、分析和低成本的需求。
文件系统层和分布式计算层构成了大数据分布式平台。
文件系统层在服务器的操作系统上实现了海量数据的分布
式存储。基于服务器集群文件系统层在逻辑上构建了一个
具有巨大容量的分布式文件系统,实现了大数据平台对数
据存储高可靠性、高并发访问和高扩展性的要求。分布式
计算层为大数据平台提供了大规模数据并行计算的能力,
相比于传统的集中式计算和串行计算,分布式计算能提供
够短时间处理海量数据的计算能力,可以采用不同的大数
据计算模型和方法,包括批处理计算、流式计算、图计算、
内存计算等。分布式计算层还细分为数据分析、分布式计
算模型、数据库、资源调度系统。
数据处理层能够对计算后的数据进行分析和处理。主
要采用的是各种机器学习和分析挖掘算法,对各种看似毫
无关联的数据集进行交叉处理,进而能够提取出具有重要
价值的分析结果。
数据应用层是基于上述四个层次构造的将行业领域的
知识与计算机技术结合在一起的大数据应用系统,根据各
种行业或领域而不同
|