失效链接处理 |
数据挖掘研究现状综述 PDF 下载
本站整理下载:
相关截图:
主要内容:
1.1 数据挖掘技术的任务
数据挖掘技术并不是仅仅面向特定数据库的简单检索查询,而是对大量的数据从宏观、微观的角度进行统计、分析、综合和推理,进而来指导现实生活中实际问题的解决,有时还要根据已有的数据展开推理预测。数据挖掘的主要任务是分类、聚类、关联、序列等。
分类就是在数据中找出一个类别的概念描述,这个概念代表了这类数据的基本信息,即该类概念的内涵描述,然后根据这种描述建立模型。常用的分类构造方法主要有统计方法、机器学习方法、神经网络方法等。其中统计方法包括贝叶斯法和非参数法,机器学习方法包括决策树法和规则归纳法,神经网络法主要是以BP算法为主。
聚类就是把具有相似性的数据归纳成若干类别,同一类别的数据相似,不同类别的数据相异,聚类分析可以在分类的基础上进一步建立宏观的概念,进而发现数据的分布模式。
当两个或者两个以上变量的取值直接存在某种规律性时,我们就可以称之为关联。
序列和关联类似,只是把关联中一起发生的项目间关系扩展成一段时间的项目集间的关系,因此,序列常常被看作由时间变量连起来的关联。序列的主要作用是分析长时间的相关记录,进而发现经常发生的模式。
1.2 数据挖掘技术的研究现状及发展方向
近年来,随着计算机科学领域的快速发展,数据挖掘技术作为一种新兴的学科,其研究热度正在逐渐升温,研究的水平也在逐步提高,同时由于国家政府的政策支持与资金支持,越来越多的数据专业研究者被吸引加入其中。在数据挖掘技术未来的研究过程中,其主要方向应包括以下几点:(1)参照于 SQL 语言的标准化的研究成果,对数据挖掘技术进行形式化的描述,即发现数据语言。(2)为实现关于数据额挖掘技术人机交互工作的顺利开展,应满足用户对知识发现过程的可视化进程。(3)研究在计算机领域的数据挖掘技术的发展,可以通过数据挖掘服务器的有效配合的方式实现。
数据挖掘技术是面向应用的。数据挖掘的研究有利地促进了数据挖掘技术应用的发展与推广。在当今,数据的信息量是非常的庞大的,因为我们所获得的大量的实验数据的观测如果仅仅是去依靠一些比较传统的分析数据的工具,是非常的不靠谱的。所以,对一些具有强大功能且具有自动化的工具的需要就越来越迫切了,这很显然的推动了数据挖掘技术的发展,并还在一定的程度之上取得了重要的成果。随着研究的深入,数据挖掘技术的应用越来越广泛。主要集中在以下几方面:
(1)医学领域,随着医院信息系统和健康网站的发展,医疗活动、医学研究和健康信息行为中的数据被存储下来,形成了海量的健康医疗大数据。这类数据的数据量大,存储形式多样,难以用传统数据处理方法进行处理数据挖掘由于能够分析海量异构数据,越来越多地被应用于健康医疗领域。针对相关的生物医学与DNA的数据所分析的数据进行挖掘。数据挖掘技术在基因工程中的染色体、基因序列的识别分析、基因表达路径分析、基因表达相似性分析、以及制药、生物信息和科学研究等方面都有广泛应用。
(2)金融领域,针对其金融的分析 因为一些金融的投资一般都存在着很大的风险,所以我们在进行投资和决策的时候,就需要去对各种各样的投资方向相关的数据进行分析,我们现在不但可以对所获取的一些信息进行加工和处理,还可以对市场进行预测。此外,数据挖掘技术广泛应用于银行的存款贷款趋势预测,优化存款贷款策略和投资组合。
(3)零售业,在零售业当中,运用数据挖掘技术不但可以在一定的程度之上了解相关消费者的消费倾向,从而迎合消费者的口味,制定出更加接地气的市场政策,以提高销售额。当然,还可以适当的预测行业状况。例如,数据挖掘技术被用来进行分析购物篮来协助货架设置,安排促销商品组合和促销时间商业活动。
(4)保险业,当中数据挖掘的应用 我们知道,保险业是一种风险性十分巨大的业务。相关的研究表明,数据挖掘技术的运用不但可以预测相关风险性,还可以在一定的程度之上为保险业务工作者提供正确的方向。很明显,这是非常的有利于保险业的持续性发展的。
|