数据挖掘总结模板(10篇)

时间:2022-02-07 02:08:09

导言:作为写作爱好者,不可错过为您精心挑选的10篇数据挖掘总结,它们将为您的写作提供全新的视角,我们衷心期待您的阅读,并希望这些内容能为您提供灵感和参考。

数据挖掘总结

篇1

中图分类号:TN 文献标识码:A 文章编号:1009-914X(2015)23-0208-01

一 概述

客户决定企业命运。企业关注重点从产品逐步转换到客户,逐渐形成客户为中心的客户关系管理理念。客户关系管理是信息技术和商业发展过程中得出的理论体系,客户管理需要客户的支持。客户关系管理是企业利用信息技术和企业生产销售相结的产物。客户关系管理核心价值就是实现客户价值。客户关系管理利用计算机技术,实现市场信息化、销售自动化过程、对客户分析的全过程。客户关系管理可以使企业及时了解客户实际情况,增强客户对企业归属感和信任感。它是一种全新的管理客户模式。数据挖掘在客户关系管理研究与实践,大大促进客户价值实现。数据挖掘对客户挖掘结果会给企业带来指导意见,决定企业未来发展方向。

联通的客户关系管理系统是基于客户战略的,它为企业传递的是一种新的客户服务理念,是联通客户需求的风向标,它直接影响联通如何认识客户以及如何对待客户, 也直接影响联通公司的客户服务形象。通过数据挖掘系统与客户管理系统的结合,可以有效的实现对客户消费模式和客户市场推广的分析,实现对客户的动态防欺诈、流失分析及竞争对手分析。正确有效的运用数据挖掘意义重大。

二 数据挖掘的步骤

1.理解数据和数据的来源,进行数据收集

大量全面丰富的数据是数据挖掘的前提,没有数据,数据挖掘也就无从做起。数据挖掘牵涉了大量的准备工作与规划工作,事实上许多专家都认为整套数据挖掘的过程中,有80%的时间和精力是花费在数据预处理阶段,其中包括数据的净化、数据格式转换、变量整合,以及数据表的链接。可见,在进行数据挖掘技术的分析之前,还有许多准备工作要完成。数据收集是数据挖掘的首要步骤。

2.整合与检查数据

收集到的数据必须是有用的,避免可能存在自身的不一致性,或者有缺失数据的存在等,因此数据的整理是必须的。同时,通过数据整理,可以对数据做简单的泛化处理,从而在原始数据的基础上得到更为丰富的数据信息,进而便于下一步数据挖掘的顺利进行。

3.利建立模型和假设

主要采用时序算法、聚类算法、关联算法等,根据采集数据建立模型。

4.模型评估

模型建立完毕后,需要验证模型的正确性,并进行调整。应该利用未参与建模的数据对模型进行检验。这样做的原因是按照使用建模的数据进行检验,由于模型就是按照这些数据建立的,检验结果自然会很好。但是一旦运用到实际数据中,就会产生很大的偏差。检验的方法是对已知客户状态的数据利用模型进行预测,并将所得到的模型预测值,和实际的客户状态相比较,预测正确值最多的模型就是最优模型。不断重复进行数据挖掘一评估过程,多次的循环反复,以达到预期的效果。

5.决策分析

数据挖掘的最终目的是辅助决策。决策者可以根据数据挖掘的结果,结合实际情况,调整竞争策略等。

三.数据挖掘在联通客户管理业务中的作用

1 数据总结

数据总结目的是对大量的数据进行浓缩,将数据库中的有关数据从较低的个体层次抽象总结到较高的总体层次上,从而实现对原始基本数据的总体把握。是数据挖掘的基本作用。用统计学中的方法计算出数据库的各个数据项的总和、平均、方差、最大值、最小值等基本描述统计量,或者通过利用统计图形工具,对数据制作直方图、饼状图等,是最简单的数据总结方法。另一种广泛使用的数据总结方法是联机分析处理,是对用户当前及历史数据进行分析、辅助领导决策,主要通过多维数据的查询、旋转、钻取和切片等关键技术对数据进行分析和报表。

2 关联分析

数据库中的数据一般都存在着关联关系,也就是说,两个或多个变量的取值之间存在某种规律性。

3 分类

分析数据的各种属性,一个分类函数或分类模型(也常常称作分类器),该模型能够根据数据的属性将数据分派到不同的组中,并预测新数据将属于哪一个组。

4 聚类

聚类分析是按照某种相近程度度量方法,将用户数据分成一系列有意义的子集合。每一个集合中的数据性质相近,不同集合之间的数据性质相差较大。

四.数据挖掘技术在联通客户管理管理方面的应用

1.客户市场推广分析

通过优惠策略预测仿真的方法,利用数据挖掘技术实现优惠策略的仿真。根据数据挖掘模型,进行模拟计费和模拟出账,其仿真结果可以揭示优惠策略中存在的问题,并进行相应的调整优化,以达到优惠促销活动的收益最大化。

2.客户消费模式分析

客户分类是客户数据分析基础,数据挖据对客户分类使用聚类和分类。通过分类可以发现不同客户群体的习惯和规律,找到客户价值点,准确预测客户消费方向。客户分类让市场营销活动更有目的性,提高市场营销效率,企业合理配置企业资源。客户分类结果实现客户利益最大化。如固话及移动话费行为分析,是对客户历年来长话、市话、信息台的大量详单数据以及客户档案资料等相关数据进行关联分析,增值业务话费分析,结合客户的分类,可以从消费能力、消费习惯、消费周期等诸方面对客户的话费行为进行分析和预测,从而为联通全业务运营商的相关经营决策提供依据。

3.客户流失分析

这是根据已有的客户流失数据,建立客户属性、服务属性、客户消费情况等数据与客户流失概率相关联的数学模型,找出这些数据之间的关系,给出明确的数学公式,并根据此模型来监控客户流失的可能性。如果客户流失的可能性过高,可通过促销等手段来提高客户忠诚

度,防止客户流失的发生,这就彻底改变了以往电信运营商在成功获得客户以后无法监控客户流失、无法有效实现客户关怀等状况。

4.对客户欠费进行分析和动态防欺诈

通过数据挖掘,总结现存的各种骗费及其欠费行为的内在规律,并建立一套防欺诈和防欠费行为的规则库,当客户的话费行为与该库中规则吻合时,系统可以提示运营商相关部门采取措施,从而降低运营商的损失风险。

5.竞争对手分析

篇2

一、数据挖掘的基本原理

数据挖掘就是利用数学模型、统计和人工智能技术等方法,把一些高深、复杂的技术封装起来,使人们不用自己掌握这些技术也能完成同样的功能,因而可专注于自己所要解决的问题。数据挖掘按其功能可分为:描述性数据挖掘方法和预测性数据挖掘方法。

1描述性数据挖掘

在取得大量的数据之后,首先要对数据进行总结,也即数据的泛化;在泛化的基础上再对数据进行高层次的处理,包括数据的聚集、关联分析等。

(1)数据总结:数据总结的目的是对数据进行浓缩,给出它们的紧凑描述。数据泛化是一种将数据库中的有关数据从低层次抽象到高层次的过程。

(2)聚集:聚集的目的是要尽量缩小属于同一类别的个体之间的距离,而尽可能扩大不同类别个体间的距离。层次法、密度法、网格法、神经元网络和K-均值是比较常用的聚集算法。

(3)关联分析:关联分析是寻找数据的相关性。关联规则是寻找在同一个事件中出现的不同项的相关性,其核心是使用Apriori算法,找出事物的相应支持度和置信度,最后找到相应的关联规则。

2预测型数据挖掘

在预言模型中,把我们要预测的值或所属类别称为响应变量、依赖变量或目标变量;用于预测的输入变量是预测变量或独立变量。主要通过分类、回归分析、时间序列来建立预测模型。

二、商品销售领域数据挖掘的依据

在商品销售领域采用数据挖掘是商品销售发展到一定阶段的必然要求,它有助于提高商品销售效率,降低商品销售成本。其理论依据有消费者消费行为、细分市场理论、顾客关系、顾客数据库和直接商品销售。

在制定商品销售计划之前,商品销售者需要研究消费者市场和消费者行为。在分析消费者市场时,公司需要了解市场情况,购买对象,购买目的等因素。通过搜集顾客消费数据,采用数据挖掘技术,可以简洁、明了地得到这些信息。

三、商品销售中的数据挖掘过程

1商品销售目标理解

在进行数据挖掘之前,必须从商品销售角度去分析要达到的目标和需求,也即要分析什么商品销售问题,达到什么商品销售目标。首先对商品销售现状进行分析,找出存在的问题,并确定需要实现的营销目标,再将商品销售目标转换成数据挖掘目标,然后将这种知识转换成一种数据挖掘的问题定义,并设计一个达到目标的初步计划。

2数据理解

先搜集初步的数据,然后进行熟悉数据的各种活动,包括识别数据的质量问题,找到对数据的基本观察,或假设隐含的信息来检测感兴趣的数据子集。

3数据准备

首先进行数据抽样,从大量数据中筛选出一些相关的样板数据子集。通过对数据样本的精选,不仅能减少数据处理量,节省系统资源,使数据更加具有规律性。然后,进行数据探索,通常是所进行的对数据深入调查的过程,从样本数据集中找出规律和趋势,用聚类分析法区分类别,最终要达到的目的就是搞清多因素相互影响的复杂关系,发现因素之间的相关性。最后,需要对数据进行调整,通过上述两个步骤的操作,对数据的状态和趋势有了进一步的了解,这时要尽可能对解决问题的要求进行明确化和进一步的量化。

4建模

篇3

社会的不断进步,高端科学技术在社会上的广泛应用,人们生活质量也在不断提高。同样教育行业的教学质量也在不断地提升,教学方法和手段不断处于更新换代过程中。近几年来,数据挖掘技术在教育领域中不断地得到应用,为学校、教师、学生都提供了便利的教学条件,而对于数据挖掘技术在教育领域的应用也受到广泛的关注,本技术在大学英语考试结果中的应用属于重要的一方面。

一、数据挖掘的定义

数据挖掘属于数据分析的一种,即在大量的数据信息资料中的筛选出与人们特定的要求相符和的数据内容。数据挖掘就是通过全智能化的途径,在众多的、不确定的、海量的信息中总结和分析出,原本就存在的但不易被人们感知,具有总结性特点的相关内容。

二、数据挖掘的方法和步骤

1.数据挖掘的分析方法。数据挖掘分析方法主要包括聚类分析、决策树和人工神经网络。

(1)聚类分析就是将具有相同或相似特点的研究对象进行整合,通过数据挖掘技术的分析过滤,在无序的、混乱的研究对象中,输出其中被隐藏的、不明显的的行的特点结果。

(2)决策树是数据挖掘中的另一方面,具有对研究对象进行分类和预测的作用。也就是对众多分析对象按照一定的要求进行重新分组,并达到对某些事项预测结果的目的。

(3)人工神经网络是指类似于人的大脑的神经分布与信息处理的一种分析方法。

如图1所示。

2.数据挖掘的步骤。数据挖掘涵盖了四个部分:目标定义、数据收集、数据分析、数据挖掘结果评析。

(1)数据挖掘的目标定义是指人们利用数据挖掘技术所要的达到的最终目的和预期结果。

(2)数据收集是指确定了数据挖掘目标以后,所要进行的对相关数据的收集和整理,即人们所说的对研究对象的集中。

(3)数据分析是指在完成数据收集之后,通过使用数据挖掘技术,运用上述三种方法对研究对象进行集中处理。

(4)数据挖掘结果评析是指数据挖掘的最终的结果的输出,即预期目标的实现。如图2所示

三、数据挖掘技术在大学英语考试中的应用

在大学英语考试中,数据挖掘技术的应用主要体现在对于学生的身份、考试内容、考试成绩结果等方面。按学生的学号、姓名、年级、指导教教师等标准,进行数据挖掘,分析学生的分布情况。考试内容是指针对于考试内容的难易层次、答题正确率情况,进行数据收集,通过数据挖掘技术,分析学生考试成绩高中低的大体情况,从而确定以后考试试题的难易程度,对应不同层次的学生。

整个考试流程的最终目的是,通过数据挖掘技术,对考试成绩进行分析评估,提取出学生各个层次学生对教学过程中英语知识的掌握程度,进行有针对性的教学,改善教育方法,提高教育水平。

语言是人们与外界沟通的最重要的媒介。英语作为世界上应用最广泛的语言,英语的学习最为关键。大学英语考试是大学教学对大学生的英语接收程度的一种考核方法,大学英语考试结果运用数据挖掘技术,有助于提升教师对考试结果了解效率,化解教与学之间的隔阂,优化大学英语教育方法,提高教学水平。

参考文献:

[1]张和华,向华,吴旋.数据挖掘技术在医疗设备行业中的应用研究[J].中国医学装备,2015,10(01):48-50.

篇4

中图分类号:TP391 文献标识码:A 文章编号:1009-914X(2014)29-0354-01

数据挖掘技术是近年来兴起的被各方关注的技术之一,其在实际应用中的显著优势。我国零售业在近几年的发展速度越来越快,对零售业中的量级较大的数据及信息需要专业化、科学化、有笑话的提取方法以供零售业行业的持续发展。

一、 零售业领域中数据挖掘技术应用概况

数据挖掘技术以数据库技术、人工智能、机器学习、统计分析、模糊逻辑等多门学科的理论为基础依托,结合不断的探索、实践、规律总结不断演化出来的具有高端应用价值的技术。

(一)零售业数据挖掘技术的发展历程

从数据挖掘技术的发展可以清晰看出人类对社会认知的转变历程。就数据挖掘技术而言,其核心技术在于数理统计理论,人们对于数据、信息的敏感程度可以对数据挖掘技术的不断提升有所帮助。鉴于数据挖掘技术的优点,零售业领域中复杂多样的数据属性,不断与该项技术融合,促进零售业领域企业的商业利益最大化。

在应用数据挖掘技术的众多行业中,零售业可以说是最早将此项具有现代化意义的技术应用于自身行业中的领军行业。从摸索阶段到现如今的已有基本规律的状态,数据挖掘技术的应有优势愈发凸显,零售业相关企业期待着更好利用数据挖掘技术促进企业做出有利决策。比如在零售业领域中关于数据挖掘技术的经典例子包括沃尔玛超市对啤酒和尿布在销售方面的规律的提炼,以及台风天气对巧克力等食品的更多需求的研究。

在零售业领域尝到数据挖掘技术的显著优势后,包括制造业、财务金融保险业、医疗企业等多个其余行业也纷纷开始效仿,鉴于数据挖掘技术鲜明的实用性及可操作性,一些公司运用数据挖掘的成功案例,充分显示了这项技术的强大生命力。

(二)零售业数据挖掘技术研究的意义

在零售业领域中,条形码管理、销售管理系统、客户资料管理系统等关于商品信息、客户信息、供应商信息、店铺信息、会员信息等海量数据,以零散状态呈现在人们面前,表面看,这些类别的数据之间毫无关联,但透过数据挖掘的眼光便可以清晰看出这些类别数据之间、同一类别数据之间存在着千丝万缕的联系。大数据理论提出以来,零售业领域研究者们变采取研究手段探究领域内海量数据与商品销售、客户群体选择等众多零售商们头疼的问题之间的关系。实践证明,利用数据挖掘技术可以帮助零售商们解决上述看似无解决方法的疑难杂症。比如,购物篮分析可以探究商品搭配方式与用户诉求之间的匹配程度、消费者对于商品摆放样式的好感度等。

从反方向看数据挖掘技术对于零售业领域的应用意义,对于零售业领域内的规律,人们仅凭经验、人工查找总结的方法将很难实现,缺乏有效数据挖掘手段的零售业领域的规律的探究的可能性非常小。而数据挖掘技术恰恰可以迎合人们这一需求,省去了人工查找的麻烦与困扰。特别是在销售相关数据越来越多的环境中,依靠人工积累的方法很难实现行业发展的突破,对于海量数据问题的解决,数据挖掘技术是非常好的选择。

可见,零售业领域中数据挖掘技术的应用不仅历史久远,并且成果显著。但人们不能将眼光仅仅停留在数据挖掘技术给零售业领域带来的已有成功影响,随着社会的不断发展、市场经济环境的不断变化,业内人士需要对于社会市场体系未来的发展要素予以准确把握,并将此作为零售业领域内数据挖掘技术研究的方向。本文的议题设置初衷也在于此。

二、零售业领域中数据挖掘技术的应用范围

查阅大量相关资料、整合已有成功经验后,可以发现,数据挖掘技术在零售业领域内的功能性体现在三个方面:

首先,数据挖掘技术以海量数据为基础的技术要求恰恰符合了零售业领域内超大数量级的数据现状。数据挖掘技术利用计算机设备的准确、快速的算法更新技术,实现了短时间内对零售业领域内的数据进行聚类、提炼规律性成果的可能。

其次,数据挖掘神经网络算法的出现,进一步提升了零售业领域内数据挖掘的应用效率。这一新型算法的出现有效缓解了外部商业竞争对于零售业领域发展的影响。零售业领域内企业的发展离不开高端有效的数据挖掘技术。

再次,数据挖掘技术令企业充分了解客户对于商品销售的喜好及兴趣,帮助企业有效、准确、及时了解并掌握市场的动态变化,可以做到及时针对市场环境的变化调整自身企业的销售模式及销售方案。在对市场动态变化的及时掌握中,零售业企业可以及时洞察市场上的新商机,谋求企业紧急效益。

三、零售业领域中数据挖掘技术应用存在的问题及未来的发展趋势

第一,零售业中数据挖掘技术在分析变量的选择上仍有不足。数据挖掘的技术关键在于聚类方式的确定,而就相对更加复杂的零售业领域内的有关数据信息而言,其在分析变量的确定方式上仍旧需要持续关注实践结果进行及时调整。选择合适的数据挖掘分析变量,可以明显提升数据挖掘技术在零售业领域中的应用效率。

第二,数据挖掘技术所依托的数据抽取方式需要结合用户需要进行及时调整。抽取数据的目的在于从众多杂乱数据中提炼有用信息,减少不必要的工作量。比如求和、平均值、方差、直方图、饼状图等方式都可以结合实际情况尝试。

第三,数据挖掘技术的数据趋势需要有效预测。在纷繁复杂的数据信息中,也是有一些规律性的趋势可以预测的。在零售业领域中,数据趋势的预测工作十分重要。

四、结语

截至目前,真正适合零售业领域的数据挖掘模型还缺乏统一化,真正具有意义、有效性的数据模型的应用范围应该是在各个行业中都具有互通性的,即便行业在特点方面存在差异,但符合当前社会发展形势的数据挖掘技术需要往统一化中带有特色化的方向发展。因此,要保障数据挖掘的基础数据模型可靠。数据模型包括的种类很多,比如概念数据模型、逻辑数据模型、物理模型、采集模型、处理模型、其他模型等。但目前情况看,上述模型的可靠性均需要经过时间的考验,因此,在零售业领域中的数据挖掘技术需要加大对模型可靠性的研究力度。

篇5

学习内容分析

本课是苏科版七年级初中信息技术第三章第3节的内容,主要包括“数据挖掘的作用”和“数据挖掘的过程”两个部分,可深入细分为“什么是数据挖掘”“数据准备”“数据挖掘”“规律表示”四个内容。教学中,为了让学生深刻体会数据挖掘的意义和价值,教师应鼓励他们对数据进行多角度加工与分析,找到规律或有用的信息,用恰当的方式直观地表达出来,学会搜集、分析身边的数据,用数据说话,让数据挖掘更好地服务于生活与学习。

教学目标

知识与技能目标:理解数据挖掘的概念,体会数据挖掘的作用。

过程与方法目标:尝试进行数据挖掘,经历数据挖掘的一般过程。

情感态度与价值观目标:树立用数据说话、用数据指导生活的思想意识。

教学重难点

重点:数据挖掘的概念及数据挖掘的一般过程。

难点:数据准备及挖掘的过程。

教学策略

数据挖掘是一种强大的分析数据的方法,因涉及到专业软件和统计学术语、数学模型等,会让学生难以理解。而日常使用的WPS表格,作为数据挖掘的有效工具,可以让学生在分析具体数据的过程中,掌握数据挖掘的方法。因此,本节课教学应让学生从已有经验出发,运用WPS表格中的简单工具,学习数据挖掘的一般方法。

“数据挖掘”对学生而言,是一个全新的概念,概念的建构需要一步步地不断累积,从表层到内涵,逐步深化。学生只有在了解了“数据挖掘”的基本含义,并尝试挖掘的基础上,才能体会其作用和意义。所以,笔者设计了层层递进的学习活动(情境再现,感受数据挖掘―案例研习,认识数据挖掘―比较空气质量,尝试数据挖掘―同比空气质量,再探数据挖掘―畅想未来,展望数据挖掘),并且在活动中适时搭建学习所需的“支架”,来帮助学生完成知识的建构。笔者通过一系列的活动,让学生在做中学,在学中思,在思中用,在情境化的技术活动中,归纳出数据挖掘的方法,从而树立用数据说话、用数据指导生活的思想意识。

教学过程

1.情境再现,感受数据挖掘

活动1:情境再现,感受数据挖掘。

①猜一猜:不同的人群浏览同一个网页时,所看到的内容是否一致。

②观察凤凰网的广告区域截图,在组内交流(如下页图1,不同人群浏览的同一网页,推送的广告不同)。

③京东为什么能够根据个人喜好推送商品?

小结:京东在挖掘和分析用户浏览行为的基础上,进行定向产品推广。

设计意图:思维总是由问题开始的,激发问题,能让学生积极主动地参与到学习活动中。以京东广告推送功能来设置情境,把两种不同的浏览行为对照比较,设置悬念,第一时间抓住学生,激发学生学习新知识、新技术的渴望。

2.案例研习,认识数据挖掘

活动2:学生观看视频,并思考、总结。

①安保为什么使用热力图(如图2)?(对百度的定位数据、搜索数据进行挖掘,把握人群密集点动态趋势,帮助警方提前疏导、化解安全风险)

②百度大数据对旅游有什么作用(如图3)?(对用户搜索数据深入挖掘,预测热门旅游景点)

③导航是如何规划路径的(如图4)?(对道路环境、天气情况、特征日等数据进行挖掘和分析,得出每条道路在不同环境或不同时间的路况规律,确定最优的交通路线)

师生对数据进行分析、总结(如表1)。

小结:数据挖掘是指从大量数据中寻找其规律的技术。数据挖掘的目的主要有三个:把握趋势、预测和求最优解。

设计意图:选取日常生活中运用数据挖掘的三个典型事例视频――热力图、旅游预测、导航,借助半成品表格作为输出支架,归纳出数据挖掘的概念和数据挖掘的三个目的。体会挖掘数据价值性的同时,认识数据加工的重要性,为数据挖掘的学习做好铺垫。

3.比较空气质量,尝试数据挖掘

师:图5中空气质量预报实现了数据挖掘的哪一种目标?(把握趋势)盐城市空气质量如何?借助熟悉的WPS表格工具,尝试挖掘空气质量状况。

活动3:比较盐城、秦州、淮安等周边城市空气质量状况。

①登录中国空气质量在线监测分析平台(http:///historydata/),建立盐城周边三市空气质量状况工作表(如图6)。

影响空气质量的因素很多,AQI指数是衡量空气质量的重要指标。

教师演示:浏览数据,提取数据,组成工作表(如图7)。

②计算各市4月份空气质量指数AQI的平均数。(提示:AVERAGE公式使用方法以及自动填充柄的使用)

③比较4月份空气质量状况。(结论:质量指数平均值大小依次是盐城、秦州、淮安)

师:根据质量指数,利用函数工具计算平均数,得出空气质量状况,其实就是数据的挖掘。数据挖掘的一般过程如图8所示。

设计意图:从全国空气质量在线监测分析平台搜集数据,选择WPS函数工具挖掘数据,并对挖掘结果加以解释,来建构数据挖掘的一般过程。在尝试数据挖掘的过程中,学会运用计算思维解决问题,借助流程图总结挖掘过程,有助于学生从整体上把握知识,进一步促进认知体系的构建。

4.同比空气质量,再探数据挖掘

师:通过挖掘比较,我们得出盐城市4月份空气质量在周边城市当中最好,各市以前的空气质量状况如何?

活动4:比较各市2014年、2015年空气质量数据,说明哪一年空气质量更好(如图9)。

①在选定城市后,思考如何同比质量。

②选取函数或图表工具,完成挖掘。

③规律表示。

④从“我的数据分析报告”中的各组中任选城市,从“2014年数据、2015年数据”工作表中,选取数据到“同比空气质量”进行分析(如下页表2)。

小组汇报挖掘过程和得出的结论,形成对数据挖掘的新认识。

小结:用平均数比较,各市两年的数据基本相同,但是合格月份数不一定相同,同比AQI低的月份数也不相同。学生同比之后发现,2015年空气质量好于2014年。

设计意图:学生借助分析报告,以分组合作的形式,再次经历挖掘数据的过程,找到规律或有用的信息,加深对挖掘过程的理解。鼓励学生对数据进行多角度的加工与分析,选择合适的工具进行挖掘,体现了多元化的思想。

5.畅想未来,展望数据挖掘

观看视频(如上页图10,图10中左图为京东慧眼的视频截图,右图为基因测序的视频截图),想象:数据挖掘技术的广泛应用,对生活会产生怎样的影响?

如今,数据挖掘改变了传统的生活模式,未来将会产生更加深远的影响。因此,我们应学会搜集、分析身边的数据,用数据说话,挖掘数据创造出更智慧的生活方式。

设计意图:通过视频播放,让学生深度感受“数据挖掘”与生活息息相关,挖掘数据将给人们生活带来的改变,培养学生搜集、分析身边的数据,用数据说话的意识。

点 评

篇6

数据挖掘在目前的信息社会环境下利用十分的普遍,而所谓的数据挖掘实际上就是利用数据所表现出来的特点以及关联性将其他的因素做带入性分析,这样,无论是产业发展还是产品的生产,其最终的结果都会具有综合性。就软件工程行业的具体实践分析来看,软件开发需要大量的数据,而且数据信息之间的联系需要明确,这样,具体软件开发的时候设计和考虑会更加的全面,最终的软件适用性效果会更加突出。基于此,分析研究软件工程行业中数据挖掘的具体应用有突出的现实价值。

一、数据挖掘的一般流程分析

数据挖掘是一个动态的过程,就目前的分析来看,数据挖掘需要经历三个基本的步骤:(1)数据的预处理。数据预处理是数据挖掘最基础的部分,也是数据挖掘关键性的步骤,其主要包括四项基本的内容,分别是原始数据获取、数据清洗、数据抽取和数据交换。通过数据的预处理,数据之间的逻辑关系会更加清晰,数据的具体利用价值会有明显性提升。(2)数据挖掘。在数据预处理的基础上进行数据挖掘需要经过两个步骤,其一是对挖掘的任务进行明确,具体包括数据的分类、数据总结等等。其二是对数据挖掘的算法进行确定,这样,数据挖掘的效率性和质量性会更好。(3)模式评估和知识表示。在数据挖掘中不同的模式有不同的效果,因此对当前确定的数据挖掘模式做有效性评估,这样可以确定模式利用的最终价值。

二、软件工程行业中的数据挖掘应用

在软件工程行业,数据挖掘的应用十分的广泛,总结分析目前软件工程行业中数据挖掘的主要应用,这可以为数据挖掘的深入推广提供可靠的参考。

(一)软件版本信息挖掘

就当前软件工程行业中数据挖掘的具体应用分析来看,最为广泛的对象之一便是软件工程版型控制信息的挖掘。就现阶段的分析来看,对软件工程版本进行控制,其目的是对软件工程开发人员在软件工程开发过程中所编辑的信息进行统一化的管理,这样,软件开发过程中数据的更新进度可以更好的保持一致性。分析研究当前环境下的软件工程系统版本信息控制,利用数据挖掘技术可以将软件开发过程中的具体变更信息做更加全面的掌握,这样,在探讨同一软件平台不同程序模块的联系和差异方面,具体的信息分析结果会更加的准确,而利用具体的结果对软件开发中需要解决的系统漏洞问题做处理,软件的开发会更具完善性。简言之,在软件版本的更新设计中利用数据挖掘技术,版本更新设计的整体质量会更加突出。

(二)软件漏洞检测挖掘

在软件工程行业,数据挖掘的应用还广泛分布在软件漏洞检测方面。从软件的具体应用来看,漏洞的检测和修复是软件利用需要重点注意的内容,因为这关系着软件利用的综合实效和安全性。就当前软件漏洞具体检测中的数据挖掘分析来看,其主要包括5个方面的内容:(1)软件漏洞检测项目的明确,有了明确的检测项目,具体的数据挖掘范围也会得到确定,这样,数据挖掘的效果会更突出。(2)对软件功能漏洞检测数据信息做深入获取,并就获取的信息做清理和转换工作,这样可以提炼更多有用的知识和信息。(3)对软件工程合适的数据挖掘信息做科学合理的选择,这样可以使数据信息的验证效果更加突出。(4)对软件工程中存在的系统平台缺陷和漏洞做科学划分并予以描述和定位。(5)基于挖掘的信息数据进行系统测试工作。

(三)开源软件代码挖掘

软件工程行业中的数据挖掘应用还体现在开源软件代码挖掘中。从现阶段的分析来看,开源软件代码挖掘可归结为对象挖掘类型,其应用最为广泛的是代码的克隆检测,而克隆检测工程在软件代码以及系统应用数据的复制和拷贝中进行使用。通过系统中具体的代码源检测操作能够将软件工程中存在的代码漏洞问题做有效解决,这样软件工程在后期的运行维护方面效果会有极大的提升。

(四)软件执行记录挖掘

数据挖掘在软件工程行业中的突出利用还体现在软件执行记录的挖掘方面。在软件执行记录当中使用数据挖掘技术,可以借助对软件执行的记录做有效的大数据分析,这样,不同的软件或者是相同的软件在不同模块代码间的关联关系会得到全面性的分析,基于此分析,数据执行的路径等可以得到跟踪,逆向建模的最终效果会更加的突出。简言之,在软件执行记录中利用数据挖掘会对软件的系统代码维护等起到突出的作用,这样,软件工程的稳定性效果会更加突出。

三、结束语

综上所述,在软件工程行业中,具体的软件开发需要对多方面的数据进行利用,更要对各方面数据表现出来的关联性以及数据应用结果做分析,这样,软件最终开发需要考虑的内容和避免的问题会更加的清楚。文章就软件工程行业中数据挖掘的一般步骤和具体内容做分析,最终的目的是为软件工程行业的实践活动开展提供帮助,从而提升软件开发的综合性,提高软件在具体生活实践中的利用价值和效果,达到软件开发的最终目的。

参考文献

[1]吕品,于文兵,汪鑫等.数据挖掘挑战赛驱动的本科生大数据分析能力培养——以上海电机学院软件工程专业学生为例[J].计算机教育,2017(11):36-39.

篇7

一、引言

客户保有的前提是理解客户行为,电信运营商已经积累了大量的客户行为信息,有效结合数据挖掘技术,对已有的无规则客户行为信息进行分析识别,并通过各类算法归纳总结出客户流失的规律及特点,最终建立起数据挖掘模型,经过不断的校验,可以预测客户流失倾向,并将预测结果转化为企业客户保有行为,为企业的营销工作提供帮助、指导,为企业决策提供支持,最终实现电信企业客户保有及价值提升的目的。

二、数据挖掘概述

(1)数据挖掘概念。数据挖掘是指从大量的、随机的、不规则的应用数据中通过算法(如分类、总结、关联规则、聚类等)搜索隐藏于其中的不为人知的、但潜在的有用知识的过程。数据挖掘提供预测性的信息,质上是一个归纳推理的过程,不是验证一个假定模型的正确性,而是在数据库中自己寻找模型。数据挖掘是多学科的产物,包含数据库技术、统计学、可视化、高性能计算、人工智能、机器学习。数据挖掘的三个过程,即数据整理、数据挖掘和结果的解释评估。(2)数据挖掘方法。数据挖掘常用的方法有关联分析、分类、聚类、回归分析、神经网络等,这些方法从不同的角度对数据进行挖掘分析,可以应用到企业客户行为分析、决策支撑等不同阶段和领域。

三、电信客户流失预警中数据挖掘的实施步骤

(1)明确目标。要充分发挥数据挖掘的作用,必须明确目标。电信客户流失预警的重要目标就是提前预知客户流失风险,从而指导维系人员准确定位目标客户,及时给与流失干预,提升电信客户保有率。(2)建立数据挖掘库。我们需要从各类海量电信客户数据库中抽取与客户流失相关数据内容,建立独立的客户流失预警挖掘数据库,该数据库可以是已有数据仓库的一个逻辑子集,而不一定非要是物理上独立的数据库。单独设立的客户预警数据库可以提高分析效率、避免由于数据巨大带来的数据冲突问题的解决。通过对客户流失关键点的数据抽取、精选,可以极大的减少数据处理量,节约系统资源,更好的辅助数据分析目标的达成。(3)数据分析。需要从海量客户、海量信息、海量数据中找到客户流失的关键点,不断从流失数据挖掘库中找到相应的规律和潜在趋势,使用聚类分析的方法进行客户信息类别区分,逐步梳理出影响客户流失的众多因素,并进行重要性分析,找出这些因素之间相互影响、牵连的关系,从而发现因素之间的相关性。(4)准备及调整数据。通过数据分析步骤,将符合分析要求数据进行数据库导入,并对数据进行进一步的调整,关键是实现进一层次的明确及量化,为模型化奠定基础。(5)建立模型。建立模型是数据挖掘的核心环节,在分析数据,并对数据进行系统调整的基础上即可以开始建立模型。通常我们利用聚类分析、时间序列分析等方法来实现建模。(6)评价及解释。从之前的步骤中我们已经很明确的得出客户流失的一系列分析数据及模型,我们会得出对客户流失问题多种描述,综合各类描述的规律性,提供合理的分析支持信息。

四、数据挖掘在电信客户维系中的应用

1、流失客户分析及建模

以往运营商服务模型基本围绕全生命周期时间轴主线,重点描述单客户服务动作,缺少客户聚类特征总结。结合客户流失特征,运用聚类统计分析方法将客户进行特征聚类,区分为入网半年内客户群、入网半年至一年客户群、入网一年以上客户群,其客户流失特征及原因存在区隔,入网半年内客户的流失与前期客户发展质量关系密切,主要取决于在新发展客户营销过程中存在的问题或弊端;而入网半年至一年客户群的流失与功能性的服务感知相关;入网一年以上或更长时间的客户流失与后期客户持续提供的服务及感知密切相关。同时三大聚类客户群又分别具有三个流失关键点,我们可以运用数据挖掘技术“信息熵理论”、“二元分类模型”,找到几个聚类群体流失相关因子,从而构建针对性精准的维系模型,如图1所示。

在基于聚类模型构建起精准的客户维系体系后,对应影响三个聚类群体的核心因子及模型分析,针对性制定标准化维系动作及强化服务方案,增强原有的客户服务体系,从而达到提升客户感知及粘性的目的。

结合三个关键点,从现有的海量客户行为数据中找到维系因子,对影响用户群流失的因子做聚类分析,梳理出关键因子,并进行重要性分析,选定对整体流失影响力较大的因子作为高危挽留的重点突破口,如表1所示。

通过高危因子重要度的区分,每月月初系统自动预警,为客户挽留提供数据支持。

2、客户挽留流程

(1)挽留机会分析。根据三大聚类客户群特点,对三类客户流失倾向进行评价,按风险的高低进行评判,入网初期客户流失风险最高,其次是高危客户流失倾向明显,一年以上到期合约客户也存在流失风险,根据风险度及入网时间的不同,进行流失客户预测,从而及时找到挽留机会。(2)挽留策略的制定。通过高危因子重要度分析,系统自动预警圈定需要挽留的客户群,对不同因子客户进行分析逐一制定挽留策略。针对新入网客户流失分析,梳理主要流失原因,制定相应的入网门槛,并配合相应酬金发放机制,在入网半年内分批分比例发放酬金,提升入网质量;针对入网半年以上客户,结合高危因子,梳理不同因子客户群流失原因,针对性制定挽留策略,如合约计划、网龄升级计划、流量回馈等;对于一年以上合约到期客户,制定老客户合约续费政策,提升合约续费率。(3)采取保有行为并反馈。通过以上两个步骤,找到挽留机会,并制定相应策略后,需将挽留行为分配给不同的渠道人员实施,新入网客户的入网策略由各发展渠道落实并反馈客户信息;半年以上中期高危客户及一年以上合约到期客户的挽留与维系需由维系中心与各实体渠道相互配合,由维系中心进行电话回访式维系,实体渠道配合通过理财专席等方式在日常业务办理中提高客户在网粘性。

五、结束语

事实上,流失模型的建立不可能直接带来客户流失率的减少,但基于数据挖掘的客户流失预警模型的应用,可以很大程度上提升客户维系与挽留的有效性,有效的预警、预测结合针对性的挽留策略及有效的挽留行为,才能够真正实现客户流失率的降低,达到提升客户感知及粘性的最终目的。

篇8

中图分类号:TP311.13

随着经济的发展和科技的进步,手机、电脑在中国随处可见,互联网甚至是移动互联网融入了人们的日常生活,互联网中无法估量的大量数据不断增长,愈演愈烈,面对着海一般的数据信息,人们不能准确的找到自己想要的数据,像手机APP,手游等移动互联网产品,每天都承载着非常多的数据,对运营商而言,如何进行数据分析以及数据挖掘成为一个亟待解决的难题。

较于传统数据处理系统,云计算系统的出现让人眼前一亮,基于云的数据挖掘平台的建构为数据挖掘开辟了一条新路,云计算提供一个虚拟的平台,用户可以在任何地区运用任何终端选择自己想要的数据,而大规模的数据本身就存在一些问题,数据挖掘存在难度,本文就云计算的数据挖掘进行具体的分析如下:

1 云计算概述

一直以来云计算都没有一个统一明确的定义,根据多数人对云计算的定义,总结出以下两方面:(1)云计算通俗一点说就是一个资源盘,其拥有数以万计的可用虚拟资源,有些虚拟资源拥有不同的负载量,云计算的优势就是可用将这些负载量不同的资源进行新的合理分配;(2)就用户而言云计算的服务是方便简单的,且透明化,用户的最终目的是在云计算中获取想要的数据和服务,用户不用在意云计算本身的运行机制,然而云计算的系统也是存在隐患的,如果一个规模庞大的计算机群在运作的过程中仍然不间断的增加计算机的数量,那么云计算系统可能会出错甚至系统崩溃,可见单纯依靠硬件设施是不可取的,此时需要可靠的软件发挥作用,需使用冗余和分布式存储的方式,云计算系统另一个优势就是拥有自我检测系统模式,该模式在不影响正常运行的情况下,可以检测出无效节点并进行删除,总之,云计算系统数据多、存储能力强、计算能力快且准确率高,给用户带来高效、优质的服务。

经过一直以来对云计算的研究总结其特点有五个方面,分别是虚拟化、通用性、扩展性强且规模大、可靠性高、经济性好等特点,具体来说就是云计算不是个实物,是个虚拟的拥有海量数据的平台,用户可以在世界的任何位置通过任何终端获取想要的数据信息和服务;云计算没有局限性,在云计算下可以构建出不同的应用,而且这些应用可同时运行;在不影响用户正常使用的情况下,云计算是可以扩展的,而且是动态扩展,现今最多可扩展几十万台电脑,整个扩展过程用户是可以看到的,是对外的;为了保证服务的质量和可靠性,云计算运用了多种方法如多副本容错和多计算节点同构可互换等;云计算由于自身的优势运用大量廉价节点构成云,采用自动化集中式管理机制,解决企业高昂的数据中心成本,较于传统系统云计算系统成本较低。

2 数据挖掘的方式

数据挖掘是一个循环反复、不断调整和修改的过程,这个过程漫长且复杂。从数据预处理到数据挖掘再到评估和表示这是数据挖掘的整个过程,数据挖掘的过程中方法很多,归纳如下:(1)广义知识挖掘,广义知识被挖掘出来后,与可视化技术相结合,用户可以直观的通过图表形式来了解;(2)关联知识挖掘;(3)类知识挖掘,分分类和聚类两种。决策树、神经网络、贝叶斯分类、支持向量机、遗传算法与进化理论、粗糙集、关联分类、类比学习、模糊集等为分类法。聚类法包括五种,分别是基于划分、密度、层次、模型及网格的不同方法;(4)预测型知识挖掘,包括一些方法和技术,方法有经典的统计方法,技术包括神经网络和机器学习技术;(5)特异型知识挖掘,所谓特异型指特殊的背离常规的异常规律。包括三个类别,分别是孤立点分析、序列异常分析和特异规则发现;(6)自定义数据挖掘算法。

数据挖掘的过程以及方法可以通过图1直观的了解。

3 基于云的数据挖掘平台架构

针对传统数据挖掘平台而言,云计算的产生对其影响很大,云计算的分布式存储和计算使数据挖掘开始变革,数据挖掘云服务只有基于云计算平台才能得以实现,其设计思想是分层设计,思路是面向组件设计,整个平台自下向上分为三层,最下面一层也是最基础的一层是云计算支撑平台层,再往上一层是数据挖掘能力层,最顶层是数据挖掘云服务层。

云计算支撑平台层的功能主要是提供数据的分布式存储和计算,最底层构建可以以企业自主研发的云计算平台为基础 ,也可以以第三方提供的云计算平台为基础。

数据挖掘能力层的能力有算法服务管理、调度引起、数据并行处理框架等,这些都是基础能力,数据挖掘能力层支撑着它的上一层(数据挖掘云服务层)。这层不但支持内部数据挖掘算法和推荐算法库,对于外在的第三方数据挖掘算数法也可以接入。

最顶层数据挖掘云服务层的主要功能是为外在企业和个人提供数据挖掘云服务,其涵盖多种多样的服务能力封装的接口形式,例如针对于简单对象的访问协议简称SOAP的XML等,本地应用程序编程接口也是其形式之一,基于结构化查询语言语句的访问在数据挖掘云服务层也是支持的,同时此层还提供解析引擎和自动调用云服务。

总之,基于云计算的数据挖掘平台从很多方面是优于传统数据挖掘平台的,如大规模数据处理能力、数据动态扩展能力以及低廉的云服务和成本等。

4 云计算关键技术

如今大量数据挖掘最直接有效的方法是分布式计算方法,这个方法包括两部分一部分是分布式数据存储,一部分是分布式并行计算,现在的云计算平台已经涵盖了这两部分的能力,这两部分是云计算数据挖掘平台的核心支撑能力,GFS、KFS、HDFS等三种分布式文件系统是目前比较受欢迎的分布式文件系统,Google公司的分布式文件系统理论是三者的理论基础,KFS、HDFS两种分布式文件系统多被用于商业和学术领域。

分布式并行计算框架在分布式计算方法中非常重要,其在计算过程中封装了一些技术细节,如任务调度、任务容错等,这样便捷了用户,用户只要把握好任务间的逻辑关系,不必注意这些技术细节,目前较为广泛应用的分布式计算框架有并行计算框架Mapreduce和迭代处理计算框架Pregel这两者都由谷歌公司提出,还有微软公司研发的Dryad。

5 结束语

随着互联网和移动互联网时代的到来,海量复杂的数据处理与数据挖掘困扰着各大运营商,与传统数据系统相比,云计算优势明显,强大动态扩展能力、独特的分布式存储和计算方法、以及低廉的成本优势吸引了越来越多企业和个人,基于云的数据挖掘平台,企业和运行商都因此减少了数据挖掘方面的资金投入,对这些企业来说无疑是减小了生产成本。

参考文献:

篇9

中图分类号TP392 文献标识码A 文章编号 1674-6708(2013)102-0222-02

所谓数据挖掘,就是将那些隐含的在数据中的、不能先知以及包含潜在价值的大量信息,从数据中提炼出来以供技术人员参考分析。通过数据挖掘理论所得到的信息,可以为地理信息的测绘提供依据,并且还具有预测和决策的功能。为了能够得到更加精确的信息,我们建立了数据采集平台。数据采集平台侧重于数据的收集,将大量的数据进行有效的汇总,使之转化成有助于测绘地理信息管理和决策的有效信息。我们在实际工作中,常常可以看到,由于对数据没有进行系统科学的分析,使得一些潜在的威胁留在了我们要做的工程中,甚至会为此丧失掉很多利益。如果我们不能够尽力把威胁清除掉,后果可能不堪设想,数据表面,看不出东西(即其隐藏的信息量),绝对是关键所在。因此,我们不仅要做好数据采集工作,更要有效的利用好数据挖掘理论,做好数据分析工作,充分挖掘出这些数据背后所带来的意义。

1数据挖掘的功能

在测绘地理信息技术领域,数据挖掘理论能够将采集的数据转化为我们需要的知识。下面就数据挖掘的功能,并结合其在数据采集中的运用,我概括了几点,主要功能有以下几点:1)聚类功能。即按照数据内在的规则,把数据聚合分类;2)关联分析功能。关联分析是从数据库中发现知识的一类重要方法。当建立在多次检测的基础上的某两个或多个数据之间算出来的数据相似,差异极小的时候, 那么我们就说这些事件之间存在着某种关联, 能够建立起这些关联项的关联规则;3)分类功能。将不同数据按照不同的分类标准进行分类组合;4)偏差检测功能。对那些不常见,极端的特例进行归档分析, 并揭示其发生偏差的原因,以便以后好做调整;5)预测功能。通过数据信息所显示的一些潜在的知识,我们能够做好对未来测绘数据的预测。实践证明,事物的联系是普遍存在的,即数据挖掘的各项功能协调组合,以便发挥更大的作用。数据挖掘通过对数据的总结、分类、聚类和关联等分析, 对采集的数据进行深层次的剖析,把那些潜在的东西给挖掘出来,便于技术人员的管理与预测。

2 “数据挖掘”理论在数据采集平台上的应用基础

2.1数据采集平台的建立

由于科技发展的需要,数据采集平台应势而生。数据采集平台,是一个拥有大量数据的数据库。据最新的统计数据显示,整个平台采集一次便可产生多达50万以上的数据量。数据采集平台最大的作用就是能够产生巨大的数据。

我们知道数据本身就是数据而已,不能够得到对我们有帮助的东西。而数据挖掘理论,基于相应的知识,做出极具准确性的预测性,能够把单纯的数据,通过总结、分类、聚类、偏差检测和关联等功能可以把那些分散在数据库里面的各种数据,进行综合分析整合。数据挖掘理论,是以对数据的分析作为基础的,其功能与分析方法对数据采集平台管理和运用,有着不可估量的作用和意义。

2.2“数据挖掘”理论应用基础

由于科技的不断发展,数据库不断充实,数据采集平台也在不断的完善和发展中。在国家政策,和科技不断发展的趋势下,数据采集平台近几年来,其结构和采集信息量上也发生了翻天覆地的改变。主要表现在版本、汇总部分字段以及采集字段上。即:版本不断的更新,由原先的“08c版”一直发展到现在的“10a001版”; 汇总部分字段和采集字段的增加,使得数据库里的数据成海量的增长,甚至多达数十万。这样使得数据采集平台更加规模化,同时也加强了数据与数据之间的联系,这也使得采集的数据成了 “数据挖掘”的数据基础,给了“数据挖掘”一个更好的平台。也为技术人员运用数据挖掘理论提供了数据来源。

3 “数据挖掘”理论在数据采集平台上的实际应用

在上面我笼统的介绍了数据挖掘的基本功能,即分类、估计、关联、聚类、偏差检测和预测。在这里我具体的介绍一下“关联规则挖掘” 理论。通过“关联规则挖掘”理论,我们知道,如果仅仅是单独、孤立的数据,那是形成不了重要信息的,但是,如果我们将那些相互关联的数据集中起来,并从不同的角度,不同的方面去分析这些数据,那么潜伏在这些数据表面以下的部分就会浮出表面,这样我们就能看到事物的全部。这对我们做决策有着重要的意义。所以我们要可以通过“关联规则挖掘”理论辨证的去分析事物内部所蕴含的关系。相反,如果只是盲目的看到表面的数据,甚至割裂地、孤立地去看待数据,这样不仅找不到数据与数据之间关联关系,更不能通过聚合这些相互关联的数据,这不能做出科学有效的决策。在测绘地理信息的时候,“关联规则挖掘”的理论,为我们提供了更广阔的分析方法和思维模式,为我们做出正确合理的决策提供了理论依据。在实际操作中,我们感觉到任何一个重要问题的分析,我们都要依赖“关联规则挖掘”理论,对具体的数据进行科学分析,以呈现其数据和事物之间的关联性。

4 结论

结合个人的工作经验和实际操作,就数据挖掘理论在数据采集中的应用展开了探讨和研究。介绍了数据挖掘的功能;“数据挖掘”理论在数据采集平台上的应用基础:数据采集平台的建立和“数据挖掘”理论应用基础;以及“数据挖掘”理论在数据采集平台上的实际应用。但是由于自身学识和理解的局限性,说的不是很全面,只是希望大家可以关注一下数据挖掘理论在数据采集中的应用,并能在你所在的领域内有所应用。

参考文献

[1]谭广宇.数据挖掘理论在状态数据采集平台上的应用[J].广西教育,2011(6).

[2]蒋盛益,李霞,郑琪.数据挖掘原理与实践[J].图书,2011(8).

篇10

在社会的发展之下,网络已经成为人们生活与生产中必不可少的工具,但是网络中充斥的大量繁杂信息也在一定程度上影响着人们的信息获取速度,网络信息检索在检准率与检全率方面依然难以满足人们的需求,而将网络数据挖掘技术应用在其中即可很好的解决这一问题。

1 数据挖掘技术简介

数据挖掘技术就是从大量模糊、随机、不完全、有噪声信息中提出有用信息的一个过程,与数据挖掘技术相关的技术还有数据分析技术、数据融合技术、知识发现技术等等,在技术水平的发展下,统计学方法、决策树、关联分析等一些新型数据挖掘技术也相继出现。与数据挖掘不同,信息检索实质上是一种信息发现任务,也是知识发展过程中的重要环节,信息检索能够帮助人们了解各项静态信息,但是难以分析到数据间的关系及其未来发展趋势。而应用数据挖掘技术则可以有效提升系统检索能力,预测出未来的走势,因此,将数据挖掘技术应用在搜索引擎中也是大势所趋。

2 搜索引擎与网络数据挖掘

网络数据挖掘是一种将数据挖掘技术与网络融合的一种新模式,网络数据挖掘也能够称之为Web挖掘,网络数据的页面复杂、数据内容繁杂,文章也具有不规则性,将数据挖掘技术应用在数据挖掘中可以有效的解决上述问题,根据处理对象,网络数据挖掘任务有三种类型,即网络内容挖掘、网络使用挖掘与网络结构挖掘。

2.1 网络内容的挖掘

网络内容挖掘就是从网络数据、网络内容与网络文档中挖掘信息,很多网络信息是能够在网络中过去的,但是依然有很大一部分数据难以采用该种方法获取,如使用PHP、JSP与ASP的动态网页,拒绝访问的网站,商业数据库中的数据。这些内容都能够使用网络内容挖掘法来获取,这可以使用两个方法:网络页面内容挖掘法与搜索结果再挖掘法。

2.2 网络结构挖掘法

网络结构挖掘法强调挖掘网页中的链接结构,并从中推导相关的知识,这种挖掘法与引文分析有着密切的关系,网络中的链接信息能够为数据挖掘提供全面的支持,为了获取到理想的效果,可以来分析网页链接与链接数量,并建立起链接结构模式。其常用的算法有Propriteary算法、Google算法、HITS算法与PageRank算法四种。

2.3 网络使用挖掘法

网络使用挖掘法就是通过日志发现来访问页面的一种模式,与网络内容挖掘模式和网络结构挖掘模式不同,网络使用挖掘法的挖掘对象非是网络与用户交互中的二手数据,这些数据大多来自Cookies或者Web服务器中的信息、系统交互信息与访问记录。

3 数据挖掘技术在网络信息检索中的应用作用

目前,人们已经进入了一个信息爆炸时代,虽然众多搜索引擎网络可以满足人们对于信息检索的基本需求,但是还是有很多地方不到位,目前,网络挖掘技术已经开始在网络领域中得到了应用,也取得了一定的成效。实践显示,将数据挖掘技术应用在网络信息检索中能够取得如下的效用:

3.1 提升标引准确性

标引能够准确选择出文献的检索标示,网络信息范围广、复杂性高、数量多,使用人工标引很难取得理想的检索效果,因此,必须要使用自动标引。将网络数据挖掘技术应用在其中能够深刻的揭示出相关信息的联系,帮助用户在文档中进行标注,提升信息摄取的准确性。而以此为基础来应用加权算法则能够得出具体的信息关联,对于提升检索效果有着十分积极的效用。

3.2 可以对检索结果进行分类

在网络世界中,各个网站之间的转载情况严重,用户在使用搜索引擎时必然会检索出大量的重复信息,这不仅会降低检索效率,也会浪费资源。将数据挖掘技术应用在检索工作中就能够挖掘出网页中的语义内容,有效提升检索效率。此外,数据挖掘技术也可以有效提升检索质量,该种方法是建立在层次法与划分法基础上,如果检索文档相似性大,即可进行聚类处理,将处理后的信息用层次化方式提供给用户,用户可以根据自己的需要自行选择,这就有效减少了浏览数量。

3.3 能够提升自动摘要质量

自动摘要即利用网络来分析文章结构、主题语句的方式,自动摘要可以有效帮助用户来加工与整合信息,与自动摘要相比,人工编制摘要会浪费大量的时间,将网络数据挖掘技术应用在搜索引擎中能够提升自动摘要的质量,该种技术是通过文档内容来总结文本信息,能够将Web中的重要内容总结起来,并提取出摘要。这对于优化网络信息资源的处理质量有着十分积极的意义。

4 结语

总而言之,将数据网络挖掘技术应用在搜索引擎中已经成为了一个大势所趋,采用该种技术可以有效提升标引、自动分类、自动摘要以及自动聚类的准确性,可以根据用户的具体需求来建立模型,从而为用户提供出更加针对性的信息支持。其中,最为常用的技术就是自由分类法,自由分类法能够将难以用传统方式细化的信息归入熟悉类目中,并在排序检索与信息组织上很好的弥补与了传统搜索方法的缺陷,但是,该种方法也存在一些局限性,多应用在小范围网络中,相信在不久的将来,网络数据挖掘技术定可以在搜索引擎中得到更加广泛的使用。

参考文献: