失效链接处理 |
数据挖掘导论 PDF 下载
本站整理下载:
相关截图:
主要内容:
计算机与信息技术经历了半个世纪的发展,给人类社会带来了巨大的变化与影
响。在支配人类社会三大要素(能源、材料和信息)中,信息愈来愈显示出其重要
性和支配力,它将人类社会由工业化时代推向信息化时代。随着人类活动范围的扩
展,生活节奏的加快,以及技术的进步,人们能以更快速更容易更廉价的方式获取
和存储数据,这就使得数据及其信息量以指数方式增长。早在 世纪八十年代,据
粗略估算,全球信息量每隔 个月就增加一倍。而进入九十年代,全世界所拥有的
数据库及其所存储的数据规模增长更快。一个中等规模企业每天要产生 以
上来自各生产经营等多方面的商业数据。美国政府部门的一个典型大数据库每天要
接收约 数据量,在 秒到 分钟时间里,要维持的数据量达到 ,存档
数据达 。在科研方面,以美国宇航局的数据库为例,每天从卫星下载的
数据量就达 之多;而为了研究的需要,这些数据要保存七年之久。九十年
代互联网(!
)的出现与发展,以及随之而来的企业内部网(!
)和企业
外部网("#
)以及虚拟私有网($%:$&
')的产生和应用,
使整个世界互联形成一个小小的地球村,人们可以跨越时空地在网上交换信息和协
同工作。这样,展现在人们面前的已不是局限于本部门,本单位和本行业的庞大数
据库,而是浩瀚无垠的信息海洋。据估计,(( 年全球数据存贮容量约为二千 , 到 年增加到三百万 ,面对这极度膨胀的数据信息量,人们受到“信息爆炸”、
“混沌信息空间”(!
)*
+,
)和“数据过剩”(&)的巨大压
力。
数据挖掘 第一章 数据挖掘导论
然而,人类的各项活动都是基于人类的智慧和知识,即对外部世界的观察和了
解,做出正确的判断和决策以及采取正确的行动,而数据仅仅是人们用各种工具和
手段观察外部世界所得到的原始材料,它本身没有任何意义。从数据到知识到智慧, 需要经过分析加工处理精炼的过程。如图-- 所示,数据是原材料,它只是描述发
生了什么事情,并不能构成决策或行动的可靠基础。通过对数据进行分析找出其中
关系,赋予数据以某种意义和关联,这就形成所谓信息。信息虽给出了数据中一些
有一定意义的东西,但它往往和人们需要完成的任务没有直接的联系,也还不能做 为判断、决策和行动的依据。对信息进行再加工,即进行更深入的归纳分析,方能
获得更有用的信息,即知识。而所谓知识,可定义为“信息块中的一组逻辑联系,
其关系是通过上下文或过程的贴近度发现的”。从信息中理解其模式,即形成知识。
在大量知识积累基础上,总结出原理和法则,就形成所谓智慧(.
)。事实上,
一部人类文明发展史,就是在各种活动中,知识的创造、交流,再创造不断积累的
螺旋式上升的历史。
客观世界 客观世界 收集 数据 数据 深入分析
知识 知识
决策与行动
分析 信息 信息
图-- 人类活动所涉及数据与知识之间的关系描述
计算机与信息技术的发展,加速了人类知识创造与交流的这种进程,据德国《世 界报》的资料分析,如果说 ( 世纪时科学定律(包括新的化学分子式,新的物理关
系和新的医学认识)的认识数量一百年增长一倍,到本世纪 / 年代中期以后,每五
年就增加一倍。这其中知识起着关键的作用。当数据量极度增长时,如果没有有效
的方法,由计算机及信息技术来帮助从中提取有用的信息和知识,人类显然就会感
到像大海捞针一样束手无策。据估计,目前一个大型企业数据库中数据,约只有百 分之七得到很好应用。因此目前人类陷入了一个尴尬的境地,即“丰富的数据”(
*)而“贫乏的知识0('
,
)。
|