数据挖掘调研报告(精选8篇)由刀豆文库小编整理,希望给你工作、学习、生活带来方便,猜你可能喜欢“数据挖掘综述报告”。
第1篇:数据挖掘
第4章 无监督学习
4.1基本概念
图4.1数据点的三个自然
4.2k-均值聚类
4.2.1k-均值算法
图4.2k-均值算法
计算机组成原理(第三版)
图4.3k-均值算法的运行实例
4.2.2k-均值算法的硬盘版本
图4.4一个简单的k-均值算法硬盘版本
计算机组成原理(第三版)4.2.3优势和劣势
图4.5存在和不存在异常值情况下的聚类
图4.6不理想的初始种子(聚类中心)
图4.7理想的初始种子(聚类中心)4
计算机组成原理(第三版)
图4.8自然(不规则)聚类和k-均值聚类
4.3聚类的表示
4.3.1聚类的一般表示方法
图4.9聚类的规则描述
4.3.2任意形状的聚类
图4.10两个自然聚类以及
计算机组成原理(第三版)4.4层次聚类
图4.11层次聚类的一个例子
图4.12合并层次聚类算法
图4.13合并层次聚类算法的工作
4.4.1单链接方法
图4.14单链接方法的连锁反应
计算机组成原理(第三版)4.4.2全链接方法
图4.15采用全链接方法聚类
4.4.3平均链接方法 4.4.4优势和劣势
4.5距离函数
4.5.1数值的属性(Numeric Attributes)4.5.2布尔属性和符号属性(Binary and Nominal Attributes)
图4.16两个只具有布尔属性数据点的混合矩阵
计算机组成原理(第三版)4.5.3文本文档
4.6数据标准化 4.7混合属性的处理 4.8采用哪种聚类算法 4.9聚类的评估
图4.17带有熵和纯度值的混合矩阵
计算机组成原理(第三版)4.10发现数据区域和数据空洞
图4.18用决策树来区分数据区域和空洞区域
第2篇:数据挖掘实习报告
通过半年的实习,我在这里得到了一次较全面的、系统的锻炼,也学到了许多书本上所学不到的知识和技能。以下是我这次的实习鉴定。
经历了实习,对社会也有了基本的实践,让我学到了书本以外的知识,实习期间,我努力尽量做到理论与实践相结合,在实习期间能够遵守工作纪律,不迟到、早退,认真完成领导交办的工作。在实习鉴定中,我参与了整个数据分析工作,从数据获取到数据清洗、数据报表的制定到模型的建立以及模型监控等等,让我充分学习了数据分析岗位的实际操作。
在实习初期,项目经理安排了我参与数据获取的相关工作,主要是编写SQL代码在linux上用Perl语言调用获取数据。起初觉得自己对SQL语言了解较多,以为这份工作非常简单。但实际操作起来才知道,在数据量达到几百兆甚至上GB级别的时候,所学的SQL根本解决不了问题。经向项目经理学习,这才知道了如何使用分层次操作等速度较快的SQL技巧。通过这两个月的实习充分认识到所学知识远远不够。
完成数据获取阶段之后,项目经理开始安排数据清洗以及数据报表制定的相关工作。接到这份工作之初,对数据清洗并没有太多的认识,以为很多都是按照《数据挖掘》教材中步骤进行就可以的。但经过项目经理指导之后才知道数据清洗之前首先要对项目业务进行一定的了解,只有清晰了业务数据的来源、数据的实际意义才知道哪些数据可以称为极端值,哪些数据又是不正常的,制定报告或者交给模型分析师时需要去除的等等。同时,在制定数据报表的同时学习了很多excel函数的使用,透视表的使用,PPT报告的书写等等。
在实习的后三个月,开始接触了模型的分析与监控。在学习《机器学习》以及《数据挖掘》书本时,总会想到各种各样的分类模型,也总会认为模型准确率高的模型才会是好模型。在运用统计模型之前,项目经理首先向实习生介绍了目前挖掘部门常用的分类模型以及具体的一些使用方法。其中逻辑回归模型、决策树模型是常用的分类模型,回归分析和时间序列模型是常用的预测模型,这与平日所学基本一致。正当好奇为什么不使用支持向量机以及神经网络模型之时,项目经理说,由于模型结果都是要给市场部门的同事报告的,所以模型结果最好能够简单易懂的。在实际工作才知道,一般除了用模型准确率来衡量模型的效果外,还有例如灵敏度、ROC曲线、RA曲线等等指标值。而模型的操作过程也不是想象的那么简单,并不是用R软件上的几个函数,几行代码就能解决的,选择什么参数、选择什么样的模型,当然最重要的还是选择什么样的基础数据作为模型的训练数据才是最重要的,这才发现项目经理之前提到的业务知识是多么的重要。
在模型建立之后就是模型监控了,由于是我负责的项目,所以项目经理也将监控这一任务交给了我。数据挖掘模型通常情况下都是要上线的,但模型的效果会随着数据的变化而变化,当模型的指标达到一定程度时就需要修改模型。在这一阶段,充分锻炼了我的程序编写能力。
在整一个实习过程,非常感谢项目经理给予了我数据挖掘整一个流程学习的机会,让我真正对数据挖掘的实际工作有了一定的认识,也让我学习到了很多学校学习中学不到的实际操作能力,在此表示衷心的感谢。
第3篇:《数据挖掘导论》读书报告
数据收集和数据存储技术的快速进步使得各组织机构可以积累海量数据。然而,提取有用的信息已经成为巨大的挑战。通常,由于数据量太大,无法使用传统的数据分析丁具和技术处理它们。有时,即使数据集相对较小,但由于数据本身具有一些非传统特点,也不能使用传统的方法处理。在另外一些情况下,面临的问题不能使用已有的数据分析技术来解决。这样,就需要开发新的方法。
数据挖掘是一种技术,它将传统的数据分析方法与处理大量数据的复杂算法相结合。数据挖掘为探査和分析新的数据类型以及用新方法分析旧有数据类型提供了令人振奋的机会。本章,我们概述数据挖掘,并列举本书所涵盖的关键主题。
数据挖掘技术可以用来支持广泛的商务智能应用,如顾客分析、定向营销、工作流管理、商店分布和欺诈检测等。数据挖掘还能帮助零售商回答一些重要的商务问题,如“谁是最有价值的顾客? ”“什么产品可以交叉销售或提升销售? ”“公司明年的收入前景如何? ”这些问题催生了一种新的数据分析技术。
医学、科学与工程医学、科学与工程技术界的研究者正在快速积累大量数据,这些数据对获得有价值的新发现至关重要。例如,为了更深入地理解地球的气候系统,NASA己经部署了一系列的地球轨道卫星,不停地收集地表、海洋和大气的全球观测数据。然而,由于这些数据的规模和时空特性,传统的方法常常不适合分析这些数据集。数据挖掘开发的技术可以帮助地球科学家回答如下问题:“千旱和飓风等生态系统扰动的频度和强度与全球变暖之间有何联系?”“海洋表面温度对地表降水量和温度有何影响?”“如何准确地预测一个地区的生长季节的开始和结束?”
什么是数据挖掘
数据挖掘是在大型数据存储库中,自动地发现有用信息的过程。数据挖掘技术用来探査大型数据库,发现先前未知的有用模式。数据挖掘还可以预测未来观测结果,例如,预测一位新的顾客是否会在一家百货公司消费100美元以上。
并非所有的信息发现任务都被视为数据挖掘。例如,使用数据库管理系统查找个别的记录,或通过因特网的搜索引擎査找特定的Web页面,则是信息检索领域的任务。虽然这些任务非常重要,可能涉及使用复杂的算法和数据结构,但是它们主要依赖传统的计算机科学技术和数据的明显特征来创建索引结构,从而有效地组织和检索信息。尽管如此,人们也在利用数据挖掘技术增强信息检索系统的能力。
数据挖掘与知识发现
数据挖掘是数据库中知识发现(knowledge discovery in database, KDD)不可缺少的一部分,而KDD是将未加工的数据转换为有用信息的整个过程。该过程包括一系列转换步骤,从数据的预处理到数据挖掘结果的后处理。输入数据可以以各种形式存储(平展文件、电子数据表或关系表),并且可以驻留在集中的数据存储库中,或分布在多个站点上。数据预处理(preproceing)的目的是将未加工的输入数据转换成适合分析的形式。数据预处理涉及的步骤包括融合来自多个数据源的数据,清洗数据以消除噪声和重复的观测值,选择与当前数据挖掘任务相关的记录和特征。由于收集和存储数据的 方式多种多样,数据预处理可能是整个知识发现过程中最费力、最耗时的步骤。
“结束循环”(dosing the loop)通常指将数据挖掘结果集成到决策支持系统的过程。
第4篇:数据挖掘总结
数据挖掘总结(职业篇)
数据分析微信公众号datadw——关注你想了解的,分享你需要的。前面对数据挖掘相关资源等等进行了总结。但是,很多人不明白学习数据挖掘以后干什么,这个问题也经常被问到。记得刚学数据挖掘的时候,有一个老师说学数据挖掘有什么用,你以后咋找工作。当时听了,觉得很诧异,不知道他为何有此一问。数据挖掘在国外是一份很不错的工作。我喜欢数据挖掘,因为它很有趣。很高兴以后就从事这方面的工作啦。写论文之余,也考虑一下数据挖掘工程师的职业规划。以下是从网上找的一些相关资料介绍,和即将走上数据挖掘岗位或是想想这方面发展的朋友共享:
BI职业发展方向:数据分析师---商业分析师--管理者
但是在每个公司,可能有不同的发展方向,但是大致上是从数据挖掘工程师起步。DMFighter:
数据挖掘从业人员工作分析 1.数据挖掘从业人员的愿景:
数据挖掘就业的途径从我看来有以下几种,(注意:本文所说的数据挖掘不包括数据仓库或数据库管理员的角色)。
A:做科研(在高校、科研单位以及大型企业,主要研究算法、应用等)B:做程序开发设计(在企业做数据挖掘及其相关程序算法的实现等)C:数据分析师(在存在海量数据的企事业单位做咨询、分析等)2.数据挖掘从业人员切入点: 根据上面的从业方向倒序并延伸来说说需要掌握的技能。
C,数据分析师:需要有深厚的数理统计基础,可以不知道人工智能和计算机编程等相关技术,但是需要熟练使用主流的数据挖掘(或统计分析)工具。从这个方面切入数据挖掘领域的话你需要学习《数理统计》、《概率论》、《统计学习基础:数据挖掘、推理与预测》、《金融数据挖掘》,《业务建模与数据挖掘》、《数据挖掘实践 》等,当然也少不了你使用的工具的对应说明书了,如SPSS、SAS等厂商的《SAS数据挖掘与分析》、《数据挖掘Clementine应用实务》、《EXCEL 2007数据挖掘完全手册》等,如果多看一些如《中文版 数据挖掘原理》 等书籍那就更好了。
B,程序设计开发:主要是实现数据挖掘现有的算法和研发新的算法以及根据实际需要结合核心算法做一些程序开发实现工作。要想扮演好这个角色,你不但需要熟悉至少一门编程语言如(C,C++,Java,Delphi等)和数据库原理和操作,对数据挖掘基础课程有所了解,读过《数据挖掘概念与技术》(韩家炜著)、《人工智能及其应用》。有一点了解以后,如果对程序比较熟悉的话并且时间允许,可以寻找一些开源的数据挖掘软件研究分析,也可以参考如《数据挖掘:实用机器学习技术及Java实现》等一些教程。
A.做科研:这里的科研相对来说比较概括,属于技术型的相对高级级别,也是B,C的归宿,那么相应的也就需要对B、C的必备基础知识了。
-----------数据挖掘人员需具备以下基本条件,才可以完成数据挖掘项目中的相关任务。
一、专业技能
硕士以上学历,数据挖掘、统计学、数据库相关专业,熟练掌握关系数据库技术,具有数据库系统开发经验
熟练掌握常用的数据挖掘算法
具备数理统计理论基础,并熟悉常用的统计工具软件
二、行业知识
具有相关的行业知识,或者能够很快熟悉相关的行业知识
三、合作精神
具有良好的团队合作精神,能够主动和项目中其他成员紧密合作
四、客户关系能力
具有良好的客户沟通能力,能够明确阐述数据挖掘项目的重点和难点,善于调整客户对数据挖掘的误解和过高期望
具有良好的知识转移能力,能够尽快地让模型维护人员了解并掌握数据挖掘方法论及建模实施能力
进阶能力要求
数据挖掘人员具备如下条件,可以提高数据挖掘项目的实施效率,缩短项目周期。
具有数据仓库项目实施经验,熟悉数据仓库技术及方法论
熟练掌握SQL语言,包括复杂查询、性能调优
熟练掌握ETL开发工具和技术
熟练掌握Microsoft Office软件,包括Excel和PowerPoint中的各种统计图形技术
善于将挖掘结果和客户的业务管理相结合,根据数据挖掘的成果向客户提供有价值的可行性操作方案
五、应用及就业领域
当前数据挖掘应用主要集中在电信(客户分析),零售(销售预测),农业(行业数据预测),网络日志(网页定制),银行(客户欺诈),电力(客户呼叫),生物(基因),天体(星体分类),化工,医药等方面。当前它能解决的问题典型在于:数据库营销(Database Marketing)、客户群体划分(Customer Segmentation &Claification)、背景分析(Profile Analysis)、交叉销售(Cro-selling)等市场分析行为,以及客户流失性分析(Churn Analysis)、客户信用记分(Credit Scoring)、欺诈发现(Fraud Detection)等等,在许多领域得到了成功的应用。如果你访问著名的亚马逊网上书店(www.daodoc.com),会发现当你选中一本书后,会出现相关的推荐数目“Customers who bought this book alsobought”,这背后就是数据挖掘技术在发挥作用。
数据挖掘的对象是某一专业领域中积累的数据;挖掘过程是一个人机交互、多次反复的过程;挖掘的结果要应用于该专业。因此数据挖掘的整个过程都离不开应用领域的专业知识。“Busine First, techniquesecond”是数据挖掘的特点。因此学习数据挖掘不意味着丢弃原有专业知识和经验。相反,有其它行业背景是从事数据挖掘的一大优势。如有销售,财务,机械,制造,call center等工作经验的,通过学习数据挖掘,可以提升个人职业层次,在不改变原专业的情况下,从原来的事务型角色向分析型角色转变。从80年代末的初露头角到90年代末的广泛应用,以数据挖掘为核心的商业智能(BI)已经成为IT及其它行业中的一个新宠。
数据采集分析专员
职位介绍:数据采集分析专员的主要职责是把公司运营的数据收集起来,再从中挖掘出规律性的信息来指导公司的战略方向。这个职位常被忽略,但相当重要。由于数据库技术最先出现于计算机领域,同时计算机数据库具有海量存储、查找迅速、分析半自动化等特点,数据采集分析专员最先出现于计算机行业,后来随着计算机应用的普及扩展到了各个行业。该职位一般提供给懂数据库应用和具有一定统计分析能力的人。有计算机特长的统计专业人员,或学过数据挖掘的计算机专业人员都可以胜任此工作,不过最好能够对所在行业的市场情况具有一定的了解。
求职建议:由于很多公司追求短期利益而不注重长期战略的现状,目前国内很多企业对此职位的重视程度不够。但大型公司、外企对此职位的重视程度较高,随着时间的推移该职位会有升温的趋势。另外,数据采集分析专员很容易获得行业经验,他们在分析过程中能够很轻易地把握该行业的市场情况、客户习惯、渠道分布等关键情况,因此如果想在某行创业,从数据采集分析专员干起是一个不错的选择。
市场/数据分析师
1.市场数据分析是现代市场营销科学必不可少的关键环节: Marketing/Data Analyst从业最多的行业: Direct Marketing(直接面向客户的市场营销)吧,自90年代以来,Direct Marketing越来越成为公司推销其产品的主要手段。根据加拿大市场营销组织(Canadian MarketingAociation)的统计数据: 仅1999年一年 Direct Marketing就创造了470000 个工作机会。从1999至2000,工作职位又增加了30000个。为什么Direct Marketing需要这么多Analyst呢? 举个例子, 随着商业竞争日益加剧,公司希望能最大限度的从广告中得到销售回报, 他们希望能有更多的用户来响应他们的广告。所以他们就必需要在投放广告之前做大量的市场分析工作。例如,根据自己的产品结合目标市场顾客的家庭收入,教育背景和消费趋向分析出哪些地区的住户或居民最有可能响应公司的销售广告,购买自己的产品或成为客户,从而广告只针对这些特定的客户群。这样有的放矢的筛选广告的投放市场既节省开销又提高了销售回报率。但是所有的这些分析都是基于数据库,通过数据处理,挖掘,建模得出的,其间,市场分析师的工作是必不可少的。
2.行业适应性强: 几乎所有的行业都会应用到数据, 所以作为一名数据/市场分析师不仅仅可以在华人传统的IT行业就业,也可以在政府,银行,零售,医药业,制造业和交通传输等领域服务。
现状与前景
数据挖掘是适应信息社会从海量的数据库中提取信息的需要而产生的新学科。它是统计学、机器学习、数据库、模式识别、人工智能等学科的交叉。在中国各重点院校中都已经开了数据挖掘的课程或研究课题。比较著名的有中科院计算所、复旦大学、清华大学等。另外,政府机构和大型企业也开始重视这个领域。
据IDC对欧洲和北美62家采用了商务智能技术的企业的调查分析发现,这些企业的3年平均投资回报率为401%,其中25%的企业的投资回报率超过600%。调查结果还显示,一个企业要想在复杂的环境中获得成功,高层管理者必须能够控制极其复杂的商业结构,若没有详实的事实和数据支持,是很难办到的。因此,随着数据挖掘技术的不断改进和日益成熟,它必将被更多的用户采用,使更多的管理者得到更多的商务智能。
根据IDC(International DataCorporation)预测说2004年估计BI行业市场在140亿美元。现在,随着我国加入WTO,我国在许多领域,如金融、保险等领域将逐步对外开放,这就意味着许多企业将面临来自国际大型跨国公司的巨大竞争压力。国外发达国家各种企业采用商务智能的水平已经远远超过了我国。美国Palo Alto 管理集团公司1999年对欧洲、北美和日本375家大中型企业的商务智能技术的采用情况进行了调查。结果显示,在金融领域,商务智能技术的应用水平已经达到或接近70%,在营销领域也达到50%,并且在未来的3年中,各个应用领域对该技术的采纳水平都将提高约50%。
现在,许多企业都把数据看成宝贵的财富,纷纷利用商务智能发现其中隐藏的信息,借此获得巨额的回报。国内暂时还没有官方关于数据挖掘行业本身的市场统计分析报告,但是国内数据挖掘在各个行业都有一定的研究。据国外专家预测,在今后的5—10年内,随着数据量的日益积累以及计算机的广泛应用,数据挖掘将在中国形成一个产业。
众所周知,IT就业市场竞争已经相当激烈,而数据处理的核心技术---数据挖掘更是得到了前所未有的重视。数据挖掘和商业智能技术位于整个企业IT-业务构架的金字塔塔尖,目前国内数据挖掘专业的人才培养体系尚不健全,人才市场上精通数据挖掘技术、商业智能的供应量极小,而另一方面企业、政府机构和和科研单位对此类人才的潜在需求量极大,供需缺口极大。如果能将数据挖掘技术与个人已有专业知识相结合,您必将开辟职业生涯的新天地!
职业薪酬
就目前来看,和大多IT业的职位一样,数据仓库和数据挖掘方面的人才在国内的需求工作也是低端饱和,高端紧缺,在二线成熟,高端数据仓库和数据挖掘方面的人才尤其稀少。高端数据仓库和数据挖掘人才需要熟悉多个行业,至少有3年以上大型DWH和BI经验,英语读写流利,具有项目推动能力,这样的人才年薪能达到20万以上。
第5篇:数据挖掘试题
《数据挖掘》总复习题
1.数据挖掘系统可以根据什么标准进行分类?
答:根据挖掘的数据库类型分类、根据挖掘的知识类型分类、根据挖掘所用的技术分类、根据应用分类
2.知识发现过程包括哪些步骤?
答:数据清理、数据集成、数据选择、数据变换、数据挖掘、模式评估、知识表示3.什么是概念分层?
答:一个映射序列,将低层概念映射到更一般的较高层概念。4.多维数据模型上的 OLAP 操作包括哪些?
答:上卷、下钻、切片和切块、转轴 / 旋转、其他OLAP操作5.OLAP 服务器类型有哪几种?
答:关系 OLAP 服务器(ROLAP)、多维 OLAP 服务器(MOLAP)、混合 OLAP 服务器(HOLAP)、特殊的 SQL 服务器6.数据预处理技术包括哪些?
答:聚集、抽样、维规约、特征子集选择、特征创建、离散化和二元化、变量变换。7. 什么是数据清理?
答:填写缺失的值,平滑噪声数据,识别、删除离群点,解决不一致性 8. 什么是数据集成?
答:集成多个数据库、数据立方体或文件 9.什么是数据归约?
答:得到数据集的压缩表示,它小得多,但可以得到相同或相近的结果 10.数据清理的内容包括哪些?
答:缺失值、噪声数据、数据平滑、聚类、回归11.将下列缩略语复原
OLAP——on-line analytical proceing DM——data mining
KDD——knowledge discovery in databases OLTP——on-line transaction proceingDBMS——database management system DWT——discrete wavelet transform
(DMQL)--Data Mining Query Language 12.什么是数据挖掘?
答:简单地说,数据挖掘是从大量数据中提取或挖掘知识。具体地说,数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的实际 应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和 知识的过程。13.什么是关联规则? 答:(关联规则是形如X→Y的蕴涵式,其中且,X和Y分别称为关联规则的先导和后继。)假设I是项的集合。给定一个交易数据库,其中每个事务(Transaction)t是I的非空子集,即,每一个交易都与一个唯一的标识符TID(Transaction ID)对应。关联规则在D中的支持度(support)是D中事务同时包含X、Y的百分比,即概率;置信度(confidence)是包含X的事务中同时又包含Y的百分比,即条件概率。关联规则是有趣的,如果满足最小支持度阈值和最小置信度阈值。这些阈值是根据挖掘需要人为设定。
(关联规则反映一个事物与其它事物之间的相互依存性和关联性,如果两个事物或者多个事物之间存在一定的关联关系,那么其中一个事物就能够通过其他事物预测到。)15.什么是概念描述?什么是特征化?什么是属性相关分析?
答:概念描述:用汇总的、简洁的和精确的方式描述各个类和概念可能是有用的。特征化:是目标类数据的一般特性或特征的汇总。
属性相关分析:可能需要在分类和预测之前进行,它试图识别对于分类或预测过程无用的属性。这些属性应当排除。
16.什么是数据仓库?其主要特征是什么?
答:数据仓库是一个提供决策支持功能的数据库,它与组织机构的操作数据库分别维护。它允许将各种应用系统集成在一起,为统一的历史数据分析提供坚实的平台,对信息处理提供支持。
特征:面向主题、数据集成、随时间而变化、数据不易丢失(数据不易丢失是最明显特征)17.什么是数据集市?
答:数据集市包含企业范围数据的一个子集,对于特定的用户群是有用的。其范围限于选定的主题。
(是完整的数据仓库的一个逻辑子集,而数据仓库正是由所有的数据集市有机组合而成的)18.数据库中的知识发现过程由哪几个步骤组成?
答:数据清理、数据仓库、任务相关数据、数据挖掘、模式评估、知识表示 19.典型的数据挖掘系统有哪几个主要成分?
答:数据库、数据仓库、万维网或其他信息库;数据库或数据仓库服务器;知识库;数据挖掘引擎;模式评估模块;用户界面
20.从软件工程的观点来看,数据仓库的设计和构造包含哪些步骤?
答:规划、需求研究、问题分析、仓库设计、数据集成和测试、部署数据仓库。21.在数据挖掘系统中,为什么数据清理十分重要?
答: 脏数据的普遍存在,使得在大型数据库中维护数据的正确性和一致性成为一个极其困难的任务。
22.脏数据形成的原因有哪些?
答:滥用缩写词、数据输入错误、数据中的内嵌控制信息、不同的的惯用语、重复记录、丢失值、拼写变化、不同的计量单位、过时的编码23.数据清理时,对空缺值有哪些处理方法?
答:忽略元组、人工填写缺失值、使用一个全局变量填充缺失值、使用属性的平均值填充缺失值、使用与给定元组属同一类的所有样本的属性均值、使用最可能的值填充缺失值 24.什么是数据变换?包括哪些内容?
答:将数据转换或统一成适合于挖掘的形式。包括:光滑、聚集、数据泛化、规范化、属性构造 25. 数据归约的策略包括哪些?
答:数据立方体聚集、性子集选择、维度归约、数值归约、离散化和概念分层产生 26.提高数据挖掘算法效率有哪几种思路?
答:减少对数据的扫描次数;缩小产生的候选项集;改进对候选项集的支持度计算方法 27.假定属性income的最小值与最大值分别为12000和980到区间[0.0,1.0],根据 min-max 规范化,income的值73600将变为_3631/551_。
28.假定属性income的平均值和标准差分别为54000和16000,使用 Z-score 规范化,值73600被转换为_1.225_。
29.假定A的值由-986到917.A的最大绝对值为986,使用小数定标规范化,-986被规范化为_-0.986_
30.从结构角度来看,有哪三种数据仓库模型。答:企业仓库、数据集市、虚拟仓库
31.什么是聚类分析?它与分类有什么区别?
答:将物理或抽象对象的集合分组成为由类似的对象组成的多个类的过程 区别:分类有监督 聚类无监督 分类要靠学习 聚类要靠启发式搜索 32.与数据挖掘类似的术语有哪些?
答:数据库中挖掘知识、知识提取、数据/模式分析、数据考古和数据捕捞。33.解释下列术语 34.翻译下列术语
Data Mining 数据挖掘Data warehousing 数据仓库Data Mart 数据集市
drill-down 下钻roll-up上卷OLAP 联机分析处理Data cube 数据立方体 Aociation rule 关联规则Data cleaning数据清理Data integration 数据集成 Data transformation数据变换Data reduction 数据归约
35.可以对按季度汇总的销售数据进行___B___,来观察按月汇总的数据。A 上卷 B 下钻 C 切片 D 切块
36.可以对按城市汇总的销售数据进行____A__,来观察按国家总的数据。A 上卷 B 下钻 C 切片 D 切块
37.通过不太详细的数据得到更详细的数据,称为____B____。A 上卷 B 下钻 C 细化 D 维规约
38.三层数据仓库结构中,从底层到尾层分别是_仓库数据服务器、OLAP服务器、前端客户层__。
42.常用的四种兴趣度的客观度量。
答:简单性 确定性 实用性 新颖性43.四种常用的概念分层类型。
答:模式分层、集合分组分层、操作导出的分层、基于规则的分层45.如何理解现实世界的数据是“肮脏的”?答:不完整的、含噪声的、不一致的、重复的 46.多维数据仓库有哪几种概念模型?
答:星形模式、雪花形模式或事实星座形模式。
48.在多路数组聚集算法中,如何尽量少地占用内存?
答:将最小的平面放在内存中,将最大的平面每次只是提取并计算一块。49.给出方体的维数,会计算各D方体有多少,总的方体个数有多少?2^n50.什么是离群点?离群点都需要删除吗?为什么?
答:离群点:一些与数据的一般行为或模型不一致的孤立数据。不需要。通常离群点被作为“噪音”或异常被丢弃,但在欺诈检测中却可以通过对罕见事件进行离群点分析而得到结论。
【51.所有模式都是有趣的吗?
答:一个模式是有趣的,如果(1)它易于被人理解 ;(2)在某种程度上,对于新的或测试数据是有效的;(3)具有潜在效用;(4)新颖的;(5)符合用户确信的某种假设。】
第6篇:数据挖掘作
第二章
2.1使用STATISTIC分析软件中的关联规则对数据集bnkserv.sta中的各类银行服务进行关联分析。使用Statistics菜单下的Data-Mining命令,选择Sequence下的Aociation and Link Analysis模块。通过一系列的变量等的设置,最终得到的频繁项集如表2.11所示: 表2.11
Summary of sequential rules(bnkserv)Min: support = 20.0%, confidence = 10.0%Max.size of an itemset = 10Body==>HeadSupport(%)Confidence(%)1(CKING)==>(SVG)54.1734563.150982(CKING)==>(SVG),(ATM)24.8529628.971553(CKING),(SVG)==>(ATM)24.8529645.876654(CKING)==>(ATM)36.1907142.188185(CKING)==>(CD)20.9861124.463896(SVG)==>(ATM)25.6914041.52508
从表2.11中我们可以看出,这13种银行服务经STATISTIC软件中的关联规则分析总共生成6个频繁项集,其中序列规则If(CKING)Then(SVG)的支持度和置信度是最大的,分别为54.17%、63.15%。每一频繁项集的支持度和置信度一一对应,下面的图2.1-1和图2.1-2比较直观的将各频繁项集的最小支持度和最小置信度表现出来了。
单击“ASCResult”窗口中的“Support graph”就可得到如图2.11所示的结果。
Support bar chartMin: support = 20.0%, confidence = 10.0%Max.size of an itemset = 10图2.11
从该图中我们可以直观、清晰地看出各个规则支持度的大小。例如,同其他规则相比较,If(CKING)Then(CD)的支持度是最小的。
单击“ASCResult”窗口中的“Confidence graph”就可得到如图2.12所示的结果。
Confidence bar chartMin: support = 20.0%, confidence = 10.0%Max.size of an itemset = 10
图2.12 从这个图中我们可以直观、清晰地看出各个规则置信度的大小。例如,同其他规则相比较,If(CKING)Then(CD)的置信度是最小的。
通过对以上各银行服务组合的支持度和置信度的分析,我们发现不同的银行服务组合在总的业务组合中所占的比例不同,据此我们可以推测不同的银行服务组合所面向的客户群不同。
单击“Rule graph”按钮得到图2.13,该图直观清晰的显示出各银行服务组合间的关联性。
Rule graphNode size: Relative support of each itemColor darkne: Relative confidence0.2450.632CDATMBodySVGCKINGCKINGSVGHeadATMCD图2.13 我们以圆点的大小和颜色代表支持度和置信度的大小。从图中我们可以得到与前面相同的结论: CKING和SVG之间的序列关联是最强的;CKING和CD之间的序列关联最弱。
2.2使用STATISTIC分析软件中的关联规则对数据集gz3g.sta中的各3G业务进行关联分析。使用Statistics菜单下的Data-Mining命令,选择Sequence下的Aociation and Link Analysis模块。通过一系列的变量等的设置,最终得到的频繁项集如表2.21所示
第7篇:数据挖掘在电子商务应用中的调研报告
调
研
报
告
调研题目:关于数据挖掘在电子商务中
应用的调研报告
指导老师:
学生姓名:
学 号:
西安交通大学软件学院 2016年3月21日 关于数据挖掘在电子商务中应用的调研报告
摘要
电子商务正处在蓬勃发展的大好时期,它所产生的丰富的信息资源,为数据挖掘的应用开辟了广阔的应用舞台。本文通过优化企业资源、管理客户数据、评估商业信用、确定异常事件四个方面来阐述数据挖掘在电子商务中的应用,揭示了数据挖掘在电子商务中的广阔的应用前景。
关键词:电子商务;数据挖掘;调查报告
目 录
一、概述
随着网络技术和数据库技术的成熟,全球传统商务正经历一次重大变革,向电子商务全速挺进。电子商务是商业领域的一种新兴商务模式,它是以网络为平台,以现代信息技术为手段,以经济效益为中心的现代化商业运转模式,其最终目标是实现商务活动的网络化、自动化与智能化。电子商务的产生改变了企业的经营理念、管理方式和支付手段,给社会的各个领域带来了巨大的变革。随着网络技术的迅猛发展和社会信息化水平的提高,电子商务显示出巨大的市场价值和发展潜力。
当电子商务在企业中得到应用时,企业信息系统将产生大量数据,并且迫切需要将这些数据转换成有用的信息和知识,为企业创造更多潜在的利润,数据挖掘概念就是从这样的商业角度开发出来的。数据挖掘是一种新的商业信息处理技术,其主要特点是对商业数据库中的大量业务数据进行抽取、转换、分析和其他模型化处理,从中提取辅助商业决策的关键性数据。利用功能强大的数据挖掘技术,可以使企业把数据转化为有用的信息帮助决策,从而在市场竞争中获得优势地位。
二、数据挖掘在电子商务中的应用
1.优化企业资源
节约成本是企业盈利的关键。基于数据挖掘技术,实时、全面、准确地掌握企业资源信息,通过分析历史的财务数据、库存数据和交易数据,可以发现企业资源消耗的关键点和主要活动的投入产出比例,从而为企业资源优化配置提供决策依据,例如降低库存、提高库存周转率、提高资金使用率等。通过对Web数据挖掘,快速提取商业信息,使企业准确地把握市场动态,极大地提高企业对市场变化的响应能力和创新能力,使企业最大限度地利用人力资源、物质资源和信息资源,合理协调企业内外部资源的关系,产生最佳的经济效益。促进企业发展的科学化、信息化和智能化。
例如:美国运通公司(American Expre)有一个用于记录信用卡业务的数据库,数据量达到54亿字符,并仍在随着业务进展不断更新。运通公司通过对这些数据进行挖掘,制定了“关联结算(Relation ship Billing)优惠”的促销策略,即如果一个顾客在一个商店用运通卡购买一套时装,那么在同一个商店再买一双鞋,就可以得到比较大的折扣,这样既可以增加商店的销售量,也可以增加运通卡在该商店的使用率。
2.管理客户数据
随着“以客户为中心”的经营理念的不断深入人心,分析客户、了解客户并引导客户的需求已成为企业经营的重要课题。基于数据挖掘技术,企业将最大限度地利用客户资源,开展客户行为的分析与预测,对客户进行分类。有助于客户盈利能力分析,寻找潜在的有价值的客户,开展个性化服务,提高客户的满意度和忠诚度。通过Web资源的挖掘,了解客户的购买习惯和兴趣,从而改善网站结构设计,推出满足不同客户的个性化网页。
利用数据挖掘可以有效地获得客户。比如通过数据挖掘可以发现购买某种商品的消费者是男性还是女性,学历、收入如何,有什么爱好,是什么职业等等。甚至可以发现不同的人在购买该种商品的相关商品后多长时间有可能购买该种商品,以及什么样的人会购买什么型号的该种商品等等。在采用了数据挖掘后,针对目标客户发送的广告的有效性和回应率将得到大幅度的提高,推销的成本将大大降低。同时,在客户数据挖掘的基础上,企业可以发现重点客户和评价市场性能,制定个性化营销策略,拓宽销售渠道和范围,为企业制定生产策略和发展规划提供科学的依据。通过呼叫中心优化与客户沟通的渠道,提高对客户的响应效率和服务质量,促进客户关系管理的自动化和智能化。
成功案例:美国的读者文摘(Reader‘s Digest)出版公司运行着一个积累了40年的业务数据库,其中容纳有遍布全球的一亿多个订户的资料,数据库每天24小时连续运行,保证数据不断得到实时的更新,正是基于对客户资料数据库进行数据挖掘的优势,使读者文摘出版公司能够从通俗杂志扩展到专业杂志、书刊和声像制品的出版和发行业务,极大地扩展了自己的业务。
3.评估商业信用
低劣的信用状况是影响商业秩序的突出问题,已经引起世人的广泛关注。由于网上诈骗现象层出不穷,企业财务“造假”现象日益严重,信用危机成为制约电子商务发展的重要因素。利用数据挖掘技术对企业经营进行跟踪,开展企业的资产评估、利润收益分析和发展潜力预测,构建完善的安全保障体系,实施网上全程监控,强化网上交易和在线支付的安全管理。基于数据挖掘的信用评估模型,对交易历史数据进行挖掘,发现客户的交易数据特征,建立客户信誉度级别,有效地防范和化解信用风险,提高企业信用甄别与风险管理的水平和能力。
4.确定异常事件
在许多商业领域中,异常事件具有显著的商业价值,如客户流失、银行的信用卡欺诈、电信中移动话费拖欠等。通过数据挖掘中的奇异点分析可以迅速准确地甄别这些异常事件,为企业采取决策提供依据,减少企业不必要的损失。
三、总结
电子商务是现代信息技术发展的必然结果,也是未来商业运作模式的必然选择。电子商务领域具有丰富的信息资源,为数据挖掘的应用开辟了广阔的应用舞台。数据挖掘将为电子商务提供有力的技术支持,极大地促进电子商务的发展与普及,推动电子商务的应用进程。数据挖掘技术作为电子商务的重要应用技术之一,将为正确的商业决策提供强有力的支持和可靠的保证,是电子商务不可缺少的重要工具,有着广阔的发展前景。
第8篇:数据挖掘关联规则实验报告
实验七
关联规则
1.实验目标
• 使用SSAS进行关联规则挖掘实验
2.实验要求
(1)按“实验内容”完成操作,并记录实验步骤;
(2)回答“问题讨论”中的思考题,并写出本次实验的心得体会;(3)完成实验报告。
3.实验内容
生成市场篮方案。Adventure Works 的市场部希望改进公司的网站以促进越区销售。在更新网站之前,需要根据客户的在线购物篮中已有的其他产品创建一个可预测客户购买需求的数据挖掘模型。这些预测还有助于市场部将可能被集中购买的项统一放置在网站的一个位置上。通过实验,创建关联规则模型,可预测可能出现在购物篮中的其他项或客户想要放入购物篮的项。
4.实验步骤
(1)创建市场篮挖掘模型结构
1.在 Busine Intelligence Development Studio 的解决方案资源管理器中,右键单击“挖掘结构”,再选择“新建挖掘结构”。此时,系统将打开数据挖掘向导。
2.在“欢迎使用数据挖掘向导”页上,单击“下一步”。
3.在“选择定义方法”页上,确保已选中“从现有关系数据库或数据仓库”,再单击“下一步”。4.在“选择数据挖掘技术”页的“您要使用何种数据挖掘技术?”下,选中“Microsoft 关联规则”,再单击“下一步”。
“选择数据源视图”页随即显示。默认情况下,“可用数据源视图”下的 Adventure Works DW 为选中状态。
5.单击“下一步”。
6.在“指定表类型”页上,选中 vAocSeqOrders 表旁的“事例”复选框,选中
vAocSeqLineItems 表旁边的“嵌套”复选框,再单击“下一步”(注意先在视图中建立两个表之间的关联)。
7.在“指定定型数据”页上,依次清除 CustomerKey 旁边的“键”复选框和 LineNumber
旁边的“键”和“输入”复选框。
8.选中 Model 列旁边的“键”和“可预测”复选框。然后,系统也将自动选中“输入”复选框。
9.单击“下一步”。
10.在“指定列的内容和数据类型”页上,单击“下一步”。11.在“完成向导”页的“挖掘结构名称”中,键入 Aociation。12.在“挖掘模型名称”中,键入 Aociation,再单击“完成”。
(2)调整关联模型的参数和处理关联模型
在处理上一个任务中与“关联”挖掘结构一起创建的初始挖掘模型之前,必须更改以下两个参数的默认值:Support 和 Probability。Support 定义规则被视为有效前必须存在的事例百分比。Probability 定义关联被视为有效前必须存在的可能性。
调整关联模型的参数步骤如下:
1.打开数据挖掘设计器的“挖掘模型”选项卡。
2.右键单击设计器网格中的“关联”列,然后选择“设置算法参数”。
系统将打开“算法参数”对话框。
3.在“算法参数”对话框的“值”列中,设置以下参数:
MINIMUM_PROBABILITY = 0.1 MINIMUM_SUPPORT = 0.01 4.单击“确定”。
处理关联模型步骤如下:
1.在 Busine Intelligence Development Studio 的“挖掘模型”菜单上,选择“处理挖掘结构和所有模型”。
系统将打开“处理挖掘结构关联”对话框中,单击“关闭”。
(3)浏览市场篮模型
使用数据挖掘设计器的“挖掘模型查看器”选项卡中的 Microsoft 关联查看器浏览该模型。浏览模型时,可以轻松地查看可能同时出现的产品,并可浏览项之间的关系。还可以筛选出较弱的关联,并对新浮现的模式有一个总体的概念。
Microsoft 关联查看器包含三个选项卡:“项集”、“规则”和“依赖关系网络”。
“项集”选项卡
“项集”选项卡显示与 Microsoft 关联算法发现的项集相关的三种重要信息:支持度(发生项集的事务的数量)、大小(项集中项的数量)以及项集的实际构成。根据算法参数的设置方式,算法可以生成大量的项集。使用“项集”选项卡顶部的控件,可以筛选查看器,使其仅显示包含指定的最小支持度和项集大小的项集。
也可以使用“筛选项集”框来筛选查看器中显示的项集。例如,若要仅查看包含有关 Mountain-200 自行车信息的项集,可在“筛选项集”中输入 Mountain-200。您将在查看器中看到,只有包含“Mountain-200”字样的项集被显示。查看器中返回的每个项集都包含有关销售 Mountain-200 自行车事务的信息。例如,在“支持度”列中包含值 710 的项集表示:在所有事务中,710 个购买 Mountain-200 自行车的人也购买了 Sport-100 自行车。
“规则”选项卡
“规则”选项卡显示与算法发现的规则相关的以下信息。 概率 规则发生的可能性。
重要性 用于度量规则的有用性,值越高则意味着规则越有用。只看概率可能会产生误解。例如,如果每个事务都包含一个 x 项,规则 y 预测 x 发生的概率为 1,即 x 一定会发生。即使规则的准确性很高,但这并未传达很多信息,因为不管 y 如何,每个事务都会包含 x。 规则 规则的定义。
像使用“项集”选项卡一样,可以筛选规则,以便仅显示最关心的规则。例如,如果只想查看包含 Mountain-200 自行车的规则,可在“筛选规则”框中输入 Mountain-200。查看器将仅显示包含“Mountain-200”字样的规则。每条规则都可以根据事务中其他项的发生情况来预测某个项的发生情况。例如,由第一个规则可知:如果一个人购买了 Mountain-200 自行车和水壶,则此人还会购买 Mountain 水壶套的概率为 1。
“相关性网络”选项卡
使用“相关性网络”选项卡,可以研究模型中不同项的交互。查看器中的每个节点表示一个项;例如,Mountain-200 = Existing 节点表示事务中存在 Mountain-200。通过选择节点,可以使用选项卡底部的彩色图例来确定模型中的项与其他的项的相互确定关系。
滑块与规则的概率关联。上下移动滑块可以筛选出弱关联。例如,在“显示”框中,选择“仅显示属性名称”,再单击 Mountain Bottle Cage 节点。查看器显示,Mountain 水壶套预测了水壶和 Mountain-200 自行车,而水壶和 Mountain-200 自行车也预测了 Mountain 水壶套。这意味着,这些项有可能同时在事务中出现。也就是说,如果某个客户购买了自行车,则他也可能会购买水壶套和水壶。
5.实验结果及问题讨论
(1)根据实验结果给出市场部统一放置在网站的一个位置上的可能被集中购买的项的建议。通过项集与规则图,我们可以看出各商品之间的关联程度,及这种关联程度的可信度,通过综合来达到相关联商品的相互促销
通过点击依赖关系网络图中的各项,观察其周围与之相关的其他项的数量,数量越多。说明此项影响其他销售的项目越多,我们就可对此项进行促销,还可将相互影响的物品放在一起,形成相互促销。(2)写出自己对关联规则的理解。
对于那些很难直接看出关系的各项交易,我们可以通过查询其交易的相关性,即购买此种产品会连带购买另一产品的概率,来发现其隐藏的关系,从而通过产品位置的调整或相互促销,来提高销售量