数据挖掘研究的现状与发展趋势_郑继刚由刀豆文库小编整理,希望给你工作、学习、生活带来方便,猜你可能喜欢“数据挖掘研究现状”。
数据挖掘研究的现状与发展趋势
郑继刚,王边疆
(保山学院数学系,云南保山678000)影响其空间分布的因素之间的关系;预测型的模 型用来根据给定的一些属性预测某些属性,如分类模 型和回归模型等.目前,主要在空间数据挖掘的体系结构和挖掘过 程做了大量研究,包括面向对象的空间数据库的数据 挖掘、模糊空间关联规则的挖掘、不确定性挖掘、聚类 挖掘、挖掘空间数据的偏离和演变规则、基于多专题 地图的挖掘、交叉概化、基于时空数据的概化、并行数 据挖掘、统计分析与数据挖掘的协同和遥感影像的挖 掘等,主要采用了基于统计学和概率论、集合论、机器 学习、仿生物学、地球信息学的研究方法.4.2多媒体数据挖掘
多媒体数据,包括图形、图像、文本、文档、超文 本、声音、视频和音频数据等,数据类型复杂.随着信 息技术的进步,人们所接触的数据形式越来越丰富, 多媒体数据的大量涌现,形成了很多海量的多媒体数 据库[8].这些数据大多是非结构化数据、异构数据, 特征向量通常是数十维甚至数百维,转化为结构数据 和降维成了多媒体数据挖掘的关键技术.有研究者提出了多媒体数据挖掘的系统原型
MDMP,将多媒体数据的建模表示、存储和检索等多 媒体数据库技术与数据挖掘技术有机地结合在一起, 采用多媒体图像数据的相似性搜索、多维分析、关联 规则挖掘、分类与聚类分析等挖掘方法,广泛地应用 于医学影像诊断分析、卫星图片分析、地下矿藏预测 等各种领域.4.3时序数据挖掘
时序数据挖掘通过研究信息的时间特性,深入洞
悉事物进化的机制,揭示其内在规律(如波动的周期、振幅、趋势的种类等),成为获得知识的有效途径.关 键问题是要是寻找一种合适的序列表示方式,基于点 距离和关键点是常用的算法,但都不能完整表示出序 列的动态属性.时序数据挖掘的主要技术有趋势分析 和相似搜索,在宏观的经济预测、市场营销、客流量分 析、太阳黑子数、月降水量、河流流量、股票价格波动 等众多领域得到了应用.国内对于时序数据的研究比较少,使用的方法和 技术主要有人工神经网络技术,利用它预测和处理混 沌观测时间序列能达到较高的精度[9].此外还有通 过对时序数据进行离散傅立叶变换将其从时域空间 变换到频域空间,将时序数据映射为多维空间的点, 在此基础上,有学者提出一种新的基于距离的离群数 据挖掘算法[10].4.4Web数据挖掘
随着Internet/Web技术的快速普及和迅猛发展, 使各种信息可以在网络上获得,但是它是巨大的、分 布广泛的、全球性多样的和动态变化的.面对如此大 量的Web数据,如何在这个全球最大的数据集合中 发现有用信息成为Web数据挖掘研究的热点.当前, Web数据挖掘可分为四类,即Web内容挖掘、Web结 构挖掘、Web使用记录挖掘和Web用户性质挖掘.4.5不确定数据挖掘
传统的数据挖掘技术处理位置已经被精确给定 的对象,然而在实际应用领域,由于测量仪器的局限 性会造成测量值的不准确,数据的不确定性是不可避 免的.数据的不确定性主要可以分为存在的不确定性 和值的不确定性两大类,存在的不确定性指的是不确 定对象或元组的存在与否,如关系数据库的某个元组 和一个概率相关联表示这个元组存在的可信度,值的 不确定指的是一个元组的存在是确定的,但它的值是 不确定的.现在对不确定数据挖掘的研究已成为热点,在聚
类分析、关联规则、空间挖掘等方面都有突破,经典的K-means算法扩展到了UK-means算法,Apriori算 法扩展到了UApriori算法等.5数据挖掘面临的问题
数据挖掘任务、数据挖掘方法、用户交互、性能和 各种数据类型的多样性,给数据挖掘提出了许多挑战 性的课题.数据挖掘语言的设计,高效而有用的数据 挖掘方法和系统的开发,交互和集成的数据挖掘环境 的建立,以及应用数据挖掘技术解决大型应用问题, 都是目前数据挖掘、系统、研究人员和应用开发人员 所面临的主要问题[11].5.1挖掘方法和用户交互问题
这反映所挖掘的知识类型、在多粒度上挖掘知识 的能力、知识的使用、特定的挖掘和知识可视化.如, 数据库中挖掘不同类型的知识;多个抽象层的交互知 识挖掘;结合背景知识;数据挖掘查询语言和特定的 数据挖掘;数据挖掘结果的表示和可视化;处理噪声 和不完全数据;模式评估即兴趣度问题.5.2性能问题
主要包括数据挖掘算法的有效性、可伸缩性和并 行处理等性能问题.如,数据挖掘算法的有效性和可 伸缩性;并行、分布式和增量挖掘算法.5.3关于数据库类型的多样性问题
如,关系的和复杂的数据类型的处理;由异种数 47红河学院学报 2009.2/数学 表1 数据挖掘研究的进化历程
进化阶段支持技术产品厂家产品特点 数据搜集
(20世纪60年代)计算机、磁带和磁盘IBM、CDC提供历史性的、静态的数据信息 数据访问
(20年代80世纪)关系数据库、结构化查询语言、ODBC Oracle、Sybase、Informix、IBM、Microsoft 在记录级提供历史 性的、动态的数据信息 数据仓库、决策支持(20世纪90年代)联机分析处理、多维数据库、数据仓库
Pilot、Comshare、Arbor、Cognos、Microstrategy 在各种层次上提供
回溯的、动态的数据信息 数据挖掘(正在流行)高级算法、多处理器计算机、海量数据库
Pilot、Lockheed、IBM、SGI、其它初创公司提供预测性的信息 3数据挖掘研究的现状与成果
在国外,数据挖掘技术已被广泛的应用于各个领 域,其中一些典型应用如加州理工学院喷气推进实验 室与天文科学家合作开发的SKICAT系统,能够帮助 天文学家发现遥远的类星体,是人工智能技术在天文 学和空间科学上的第一批成功应用之一;生物学研究 中用数据挖掘技术对DNA进行分析;利用数据挖掘 技术识别顾客的购买行为模式,对客户进行了分析;对银行或保险公司经常发生的诈骗行为进行预测;IBM公司开发的AS(AdvancedScout)系统针对NBA 的比赛数据,帮助教练优化战术组合等[5].在学术研究上,数据库、人工智能、信息处理、知 识工程等领域的国际学术刊物也纷纷开辟了数据挖
掘专题或专刊,如IEEE的KnowledgeandDataEngi-neering会刊领先在1993年出版了数据挖掘技术专 刊,在Internet上还有不少数据挖掘电子出版物,其中
以半月刊KnowledgeDiscoveryNuggets最为权威.另 一份在线周刊为DS*(DS代表决策支持),1997年
10月7日开始出版,可向dstrial@tgc.com提出免费 订阅申请.与国外相比,国内对数据挖掘的研究稍晚,没有
形成整体力量.1993年国家自然科学基金首次支持 数据挖掘领域的研究项目,目前,国内的许多科研单 位和高等院校竞相开展数据挖掘和知识发现的基础 理论及其应用研究,这些单位包括清华大学、中科院 计算技术研究所、空军第三研究所、海军装备论证中 心等.例如,复旦大学施伯乐教授领导开发了数据挖
掘工具集AMINER;北京大学智能科学系的唐世渭和 杨冬青教授领导开发了基于空间数据挖掘的客户分 析系统模型CASDM.此外,清华大学周立柱教授领导 的数据挖掘研究小组,四川大学唐常杰教授领导的针 对时间序列方面的数据挖掘研究小组,中国科技大学 蔡庆生教授领导的针对关联规则的研究小组,复旦大 学朱扬勇教授领导的数据挖掘工作组,云南大学王丽 珍教授带领的针对不确定数据挖掘的研究小组等,都 取得了许多重要的研究成果.在数据挖掘算法研究方 面,中科院计算所史忠值研究员、清华大学石纯
一、陆 玉昌教授、武汉大学李德仁院士、北京科技大学杨炳 儒教授、复旦大学周傲英教授等都取得了许多重要的 研究成果.国内比较重要的会议有全国数据库学术会
议(NationalDataBaseAcademicConference,简称ND-BC),权威的杂志有《计算机学报》、《软件学报》和 《计算机研究与发展》等[6].4数据挖掘研究方向
数据挖掘涉及的学科领域和方法很多,有不同的 分类分支.根据挖掘任务可以分为:分类或预测模型
发现、数据总结与聚类发现、关联规则发现、序列模式 发现、相似模式发现、混沌模式发现、依赖关系或依赖 模型发现、异常和趋势发现等;根据挖掘对象可以分 为:关系型数据库挖掘、面向对象数据库挖掘、空间数 据库挖掘、时态数据库挖掘、文本数据源挖掘、多媒体 数据库挖掘、异质数据挖掘、遗产数据挖掘、Web数据 挖掘等;根据挖掘方法可以分为:机器学习方法、统计 方法、聚类分析方法、神经网络方法、遗传算法方法、数据库方法、近似推理和不确定性推理方法、基于证 据理论和元模式的方法、现代数学分析方法、粗糙集 方法和集成方法等;根据数据挖掘所发现的知识可以 分为:挖掘广义型知识、挖掘差异型知识、挖掘关联型 知识、挖掘预测型知识、挖掘异常型知识、挖掘不确定 性知识等[7].4.1空间数据挖掘
空间数据是从遥感、地理信息系统(GIS)、多媒 体系统、医学和卫星图像等多种应用中收集而来,收 集到的数据远远超过了人脑的分析能力.空间数据挖 掘技术按功能划分可分为三类:描述、解释、预测.描 述性的模型将空间现象的分布特征化,如空间聚类;解释性的模型用于处理空间关系,如处理一个空间对 46郑继刚王边疆:数据挖掘研究的现状与发展趋势
摘 要:数据挖掘作为提取知识的过程,概述了数据挖掘研究的过去和现状,着重分析了目前数据挖掘的分支方向、面临的问题,并对数据挖掘技术的发展趋势作了展望.关键词:数据挖掘;分支;研究;现状;趋势
中图分类号:TP31文献标识码:A
文章编号:1008-9128(2010)02-0045-04
进入信息时代,保存在计算机中的文件和数据库 中的数据量正在以指数速度增长,同时人们期望从数 据中获得更有用的信息.实际上,这些数据中只有一 小部分有用,但人们却渴求获得知识,正面临“数据丰 富而知识贫乏”的问题,所以迫切需要一种新的技术 从海量数据中自动、高效地提取所需的有用知识,这 时,数据挖掘技术由此而生.数据挖掘(DataMining,简称DM)所要处理的问 题,就是在庞大的数据库中找出有价值的隐藏事件, 并且加以分析,其主要的贡献在于从数据库中获取有 意义的信息以及对数据归纳出有用的结构,作为企业 进行决策的依据.此外,数据挖掘的也是发现数据库 拥有者先前关心却未曾知悉的有价值信息.事实上, 数据挖掘并不只是一种技术或是一套软件,而是一种 结合数种专业技术的应用[1].1数据挖掘的定义
数据挖掘又叫做数据库中发现知识(Knowledge
DiscoveryinDatabase,简称KDD),是20世纪90年代 以来发展起来的数据库系统和数据库应用领域一个 欣欣向荣的前沿学科,是从大量的、不完全的、有噪声 的、模糊的、随机的实际应用数据中,提取隐含在其中 的但又是潜在有用的信息和知识的过程[2].它涉及 到对数据库中的大量数据进行抽取、转换、分析以及 模型化处理,从中提取辅助决策的关键性数据.数据 挖掘可以帮助决策者寻找规律,发现被忽略的要素, 预测趋势,进行决策,也是对数据内在和本质的高度 抽象与概括,是对数据从理性认识到感性认识的升 华.数据挖掘是一门交叉学科,它把人们对数据的应 用从低层次的简单查询,提升到从数据中挖掘知识, 提供决策支持.是建立在数据库、人工智能、机器学 习、神经网络、统计学、模式识别、高性能计算等技术 基础上的一门新兴技术.因此,在这种需求牵引下,汇 聚了不同领域的研究者,吸引了数据库技术、人工智 能技术、数理统计、可视化技术、并行计算等方面的学 者和工程技术人员投身到数据挖掘这一新兴的研究 领域,形成新的技术热点.2数据挖掘研究的过去
数据库中发现知识一词首次出现于1989年在美 国底特律召开的第十一届国际联合人工智能学术会 议上,到1995年在加拿大蒙特利尔召开的首届KDD
&DataMining国际学术会议,再到以后每年都要召开 一次的KDD&DataMining国际学术会议,经过十多年 的努力,数据挖掘技术的研究已经取得了丰硕的成 果,不少软件公司已研制出数据挖掘软件产品,并在 北美、欧洲等国家得到应用[3].数据挖掘可以认为是数据库技术和信息技术自 然演变的结果.在数据库业界,数据挖掘的进化经历 了四个阶段:数据搜集、数据访问、数据仓库和决策支 持(见表1)[4].收稿日期:2010-02-26 作者简介:郑继刚(1983-),男,云南保山人,讲师,云南大学在读硕士.研究方向:数据挖掘.据库和全球信息系统挖掘信息.6数据挖掘的发展趋势
数据挖掘任务和数据挖掘方法的多样性对数据
挖掘提出了许多挑战性的研究问题,在将来会形成更 大的高潮,研究焦点可能会集中到以下几个方面:研 究专门用于知识发现的数据挖掘语言,走向形式化和 标准化;寻求数据挖掘过程中的可视化方法,使得知 识发现的过程能够被用户理解,也便于在知识发现过 程中的人机交互;研究在网络与分布式环境下的数据
挖掘技术,特别是在Internet上建立数据挖掘服务器, 与数据库服务器配合,实现数据挖掘;加强对各种非 结构化数据的挖掘,如文本数据、图形图像数据、多媒 体数据;探索可伸缩的和可交互的数据挖掘方法,全 面提高挖掘过程的总体效率,尤其是超大规模数据集 中数据挖掘的效率;扩大数据挖掘应用范围,如金融 分析、生物医药研制、犯罪侦查等;开发适应多数据类 型、容噪的挖掘方法,以解决异质数据集的数据挖掘 问题;动态数据和知识的数据挖掘等.结语
在这个年轻且充满希望的研究领域,商业利益的 强大驱动力将会不停地促进数据挖掘技术的发展,每 年都有新的数据挖掘方法和模型问世,人们对它的研 究正日益广泛和深入.虽然对数据挖掘的研究取得了 一定的成果,但是数据挖掘研究仍然面临着许多问题 和挑战,还存在许多问题等待我们去探索和研究.参考文献: [1]谢邦昌,李扬.数据挖掘与商业智能的现况及未来发 展[J].统计与信息论坛,2008(5):94-96.[2]JiaweiHan,MichelineKamber.数据挖掘概念与技术 [M].北京:机械工业出版社,2007:25-26.[3]陈娜.数据挖掘技术的研究现状及发展方向[J].电脑 与信息技术,2006(2):46-49.[4]陆建江,张亚非,宋自林.模糊关联规则的研究与应用 [M].北京:科学出版社,2008.[5]李菁菁,邵培基,黄亦潇.数据挖掘在中国的现状和发 展研究[J].管理工程学报,2004(3):10-15.[6]徐雪琪.基于统计视角的数据挖掘研究[D].杭州:浙 江工商大学,2007.[7]毛国君,段立娟,王实等.数据挖掘原理与算法[M].北京:清华大学出版社,2005.[8]郑继刚,谢芳.多媒体图像挖掘的关联规则挖掘[J].红河学院学报,2009(5):44-47.[9]臧洌.人工神经网络在混沌观测时序数据处理中的应 用[J].数据采集与处理,2001(4):486-489.[10]郑斌祥,杜秀华,席裕庚.一种时序数据的离群数据 挖掘新算法[J].控制与决策,2002(3):324-327.[11]林建勤.数据挖掘主要问题的对策研究[J].贵阳学 院学报,2007(2):1-4.[责任编辑 宋焕斌] CurrentSituationandDevelopmentTrendofDataMining
ZHENGJi-Gang,WANGBian-Jiang
(BaoshanCollege,Baoshan678000,China)Abstract:Thispaperoutlinesthepastandpresentsituationofdataminingasaprocessofknowledgeextraction.ItfocusesonanalyzingthebranchofdataminingandProblemoffacing,givinganoutlookonthedevelopmenttrendof dataminingtechnology.Keywords:datamining;branch;research;currentsituation;trendClassNo:TP311DocumentMark:A 48郑继刚王边疆:数据挖掘研究的现状与发展趋势