时间:2023-03-01 16:37:18
导言:作为写作爱好者,不可错过为您精心挑选的10篇数据挖掘技术研究,它们将为您的写作提供全新的视角,我们衷心期待您的阅读,并希望这些内容能为您提供灵感和参考。
空间数据挖掘(spatial Data Mining,简称SDM),是指从空间数据库中提取用户感兴趣的空间模式、普遍关系、数据特征的过程。空间数据挖掘技术综合数据挖掘技术与空间数据库技术,可用于对空间数据的理解、空间关系和空间与非空间关系的发现、空间知识库的构造以及空间数据库的重组和查询的优化等,其根本目标是把大量的原始数据转换成有价值的知识,发现大量的地学信息中所隐含的规则。
空间数据挖掘是计算机技术、数据库应用技术和管理决策支持技术等多学科交叉发展的新兴边缘学科,一般来说,空间数据挖掘可分成空间分类、空间聚类、空间趋势分析和空间关联规则四类。空间分类的目的是在空间数据库对象的空间属性和非空间属性之间发现分类规则,是近年来空间数据挖掘领域中比较活跃的一个方向,常用的方法是决策树。空间聚类是在一个比较大的多维数据集中根据距离的度量找出簇或稠密区域,目前提出的空间聚类方法有基于分割的方法、基于层次的方法、基于密度的方法和基于棚格的方法。空间趋势分析指离开一个给定的起始对象时非空间属性的变化情况,例如,当离城市中心越来越远时经济形势的变化趋势,空间趋势分析需要使用回归和相关的分析方法。空间关联规则是指空间邻接图中对象之间的关联,空间关联挖掘多采用逐步求精的优化思想,即首先用一种快速的算法粗略地对初始空间数据库进行一次挖掘,然后再在裁剪过的数据库上用代价高的算法进行进一步精化挖掘。
空间数据挖掘过程一般可分为数据筛选(消除原始数据的噪声或不一致数据)、数据集成(将多种数据源组合在一起)、数据选择(根据用户的要求从空间数据库中提取与空间数据挖掘相关的数据)、数据变换(将数据统一成适合挖掘的形式)、空间数据挖掘(运用选定的知识发现算法,从数据中提取用户所需的知识)、模式评估(根据某种兴趣度度量并识别表示知识的真正有趣的模式),知识表示(使用可视化技术和知识表示技术,向用户提供挖掘的知识)等阶段(见图1)。空间数据挖掘实际上是一个“人引导机器,机器帮助人”的交互理解数据的过程。
2 空间数据挖掘在GIS中的应用
空间数据挖掘技术与地理信息系统(GIS)的结合具有非常广泛的应用空间。数据挖掘与GIs集成具有三种模式:其一为松散耦合式,也称外部空间数据挖掘模式,这种模式基本上将GIS当作一个空间数据库看待,在G IS环境外部借助其它软件或计算机语言进行空间数据挖掘,与GIS之间采用数据通讯的方式联系。其二为嵌入式,又称内部空间数据挖掘模式,即在GIs中将空间数据挖掘技术融合到空间分析功能中去。第三为混合型空间模型法,是前两种方法的结合,即尽可能利用GIS提供的功能,最大限度的减少用户自行开发的工作量和难度,又可以保持外部空间数据挖掘模式的灵活性。
利用空间数据挖掘技术可以从空间数据库中发现如下几种主要类型的知识:普遍的几何知识、空间分布规律、空间关联规律、空间聚类规则、空间特征规则、空间区分规则,空间演变规则、面向对象的知识。目前,这些知识已比较成熟地应用于军事、土地、电力、电信、石油和天然气、城市规划、交通运输、环境监测和保护、110和1 20快速反应系统等资源管理和城市管理领域。在市场分析、企业客户关系管理、银行保险、人口统计、房地产开发、个人位置服务等领域也正得到广泛关注与应用,实际上,它正在深入到人们工作和生活的各个方面。
3 空间数据挖掘面临的问题
(1) 多数空间数据挖掘算法是由一般的数据挖掘算法移植而来,并没有考虑空间数据存储、处理及空间数据本身的特点。空间数据不同于关系数据库中的数据,它有其特有的空间数据访问方法,因而传统的数据挖掘技术往往不能很好地分析复杂的空间现象和空间对象。
(2) 空间数据挖掘算法的效率不高,发现模式不精练。面对海量的数据库系统,在空间数据挖掘过程中出现不确定性、错误模式的可能性和待解决问题的维数都很大,不仅增大了算法的搜索空间,也增加了盲目搜索的可能性。因而必须利用领域知识发现、去除与任务无关的数据,有效地降低问题的维数,设计出更有效的知识发现算法。
(3) 没有公认的标准化空间数据挖掘查询语言。数据库技术飞速发展的原因之一就是数据库查询语言的不断完善和发展,因此,要不断完善和发展空间数据挖掘就必须发展空间数据挖掘查询语言。为高效的空间数据挖掘奠定基础。
(4) 空间数据挖掘知识发现系统交互性不强,在知识发现过程中很难充分有效地利用领域专家知识,用户不能很好掌控空间数据挖掘过程。
(5) 空间数据挖掘方法和任务单一,基本上都是针对某个特定的问题,因而能够发现的知识有限。
(6) 空间数据挖掘与其他系统的集成不够,忽视了GIS在空间知识发现过程中的作用。一个方法和功能单一的空间数据挖掘系统的适用范围必然受到很多限制,目前开发的知识系统仅局限于数据库领域,如果要在更广阔的领域发现知识,知识发现系统就应该是数据库、知识库、专家系统、决策支持系统、可视化工具、网络等多项技术集成的系统。
上述问题使得从空间数据库中提取知识比从传统的关系数据库中提取知识更为困难,这给空间数据挖掘研究带来了挑战。因此,空间数据挖掘在未来的发展中,还有很多理论和方法有待深入研究。
4 空间数据挖掘的发展趋势
(1)空间数据挖掘算法和技术的研究。空间关联规则挖掘算法、时间序列挖掘技术、空间同位算法、空间分类技术、空间离群算法等是空间数据挖掘研究的热点,同时提高空间数据挖掘算法的效率也很重要。
(2) 多源空间数据的预处理。空间数据内容包括数字线划数据、影像数据、数字高程模型和地物的属性数据,由于其本身的复杂性与数据采集的困难,空间数据中不可避免地存在着空缺值、噪声数据及不一致数据,多源空间数据的预处理就显得格外重要。
当今社会已经进入了人工智能时代,人工智能的应用,大大改善了我们的生活。大数据时代已经来临,不论是从数据的使用,挖掘,处理等方面,都为人工智能的应用起到了基础和保障。
1人工智能
1.1人工智能的定义。人工智能(ArtificialIntelligence),简称AI。属于计算机学科下的分支,顾名思义,它是一门专门研究类人化的智能机器学科,即利用现阶段科学的研究方法和技术,研制出具有模仿、延伸和扩展人类智能的机器或智能系统,从而实现利用机器模仿人类智能的一切行为。1.2人工智能的研究背景。在1956年的达特矛斯会议上,“人工智能”这一术语正式由麦卡锡提议并采用了,随后人工智能的研究取得了许多引人注目的成就。在这之后,科研人员进行了许多的研究和开发,人工智能这个话题也取得了飞速的发展。人工智能是一门极具挑战性的科学,从事这项工作的人必须了解计算机知识、心理学和哲学理念。人工智能的研究包涵广泛的科学知识,以及其他领域的知识,如机器学习、计算机视觉等。一般来说,人工智能研究的主要目标是使机器能够做一些通常需要人工智能完成复杂工作的机器。1.3人工智能的研发历程。早期研究领域:人工智能专家系统,机器学习,模式识别,自然语言理解,自动定理证明,自动编程,机器人,游戏,人工神经网络等,现在涉及以下研究领域:数据挖掘,智能决策系统,知识工程,分布式人工智能等。数据挖掘的出现使得人工智能的研究在应用领域得到广泛的发展。以下简要介绍其中的几个重要部分:(1)专家系统。所谓专家系统就是控制计算的智能化程序系统,通过研发人员总结归纳了专业学科知识和日常经验,能够知道计算机完成某个领域内的专业性活动或者解决某些专业级别的问题。人工智能技术可以合理利用已知的经验体系在复杂环境中,解决和处理复杂问题。(2)机器系统。机器系统简单说就是机器人通过人造神经系统,借助于网络或者存储系统汲取系统的知识进行开发研究。(3)感知仿生。感知仿生系统通过模拟人类的感官,感知生物学特征,通过人工智能机器的感部件对外界外部环境进行感知,识别,判断,分析的能力。能够更好的适应环境,做出判断。(4)数据重组和发掘。是指通过人工智能系统,结合当前先进的理念,对大数据的总结归纳,识别存储,调取等应用。通过数据的加工处理,能够主动做出判断和分析。(5)人工智能模式。分布式人工智能是模式之一,该系统利用系统有效的规避和克服系统资源在某段时间内的局限性,并能有效地改善因资源造成的时间和空间不均衡问题。它具备,模式自动转换,并行处理,开放启发方式,冗余且容错纠错的能力。
2数据挖掘
2.1数据挖掘的定义。数据挖掘(DataMining,DM)是揭示数据中存在的模式和数据关系的学科,强调处理大型可观察数据库。数据挖掘的出现使得人工智能的研究在应用领域得到了广泛的发展。这里包括数据挖掘和智能信息提取过程,前者从大量复杂的现实世界数据中挖掘出未知和有价值的模式或规则,后者是知识的比较,选择和总结出来的原则和规则,形成一个智能系统。2.2数据挖掘的研究现状。当前数据挖掘应用主要集中在电信、零售、农业、网络日志、银行、电力、生物、天体、化工、医药等方面。看似广泛,实际应用还远没有普及。而据Gartner的报告也指出,数据挖掘会成为未来10年内重要的技术之一。而数据挖掘,也已经开始成为一门独立的专业学科。2.3数据挖掘的研究发展。具体发展趋势和应用方向主要有:性能方面:数据挖掘设计的数据量会更大,处理的效率会更高,结果也会更精确。工具方面:挖掘工具越来越强大,算法收敛越来越多,预测算法将吸收新颖性算法(支持向量机(SVM),粗糙集,云模型,遗传算法等),并实现自动化的实现算法,选择和自动调谐参数。应用:数据挖掘的应用除了应用于大型专门问题外,还将走向嵌入式,更加智能化。例如进一步研究知识发现方法,对贝叶斯定理和Boosting方法的研究和改进,以及对商业工具软件不断的生成和改进,着重建立整体系统来解决问题,如Weka等软件。在先进理论的指导下,按照国内形态发展,至少需要20年的时间,才能改进数据挖掘的发展。
3数据挖掘与人工智能技术的联系
数据挖掘属于人工智能中独立系统。它于人工智能的存在关系属于,并存联系,且独立运行,互不从属。此设计体系一方面可以有效促进人工智能提升学习能力,增进分析能力,另一方面还对分析,统计,OLSP,以及决策支持系统模块等起到推动作用。在收挖掘应用领域,处理可以对WEB挖掘,还能够有效进行文本,数据库,知识库,不同领域不同学科的信息进行序列矩阵模式挖掘。基于数据本身的分类,辨识,关联规则,聚类算法更加博大精深。因此,独立于人工智能的数据挖掘,更加便于科研团体或者领域对数据的使用和分析。数据挖掘是人工智能领域的一部分。首先,高智能是数据挖掘和人工智能的最终目标,正是由于这个目标,人工智能和数据挖掘有很多关联。其次,数据挖掘和人工智能是各种技术的整合。数据挖掘和人工智能是许多学科的跨学科学科。最后,数据挖掘的出现逐渐发展壮大,加强了人工智能,因此可以说,它们两者是不可分割的。
4人工智能和数据挖掘技术的发展前景
在当前环境下,人工智能和数据挖掘技术具有以下发展前景:(1)在大数据互联网中的应用。将人工智能的技术应用于互联网中将会使网络技术带上智能的特性,可以为人们的生活提供智能化的帮助,给人们的生活带来便利。还可以提高网络运行效率、增加网络安全性等。(2)智能化服务的研究。人工智能和数据挖掘都很注重对智能化服务的研究,例如很多智能机器人便应运而生,它们已经能胜任许多简单的工作,可以为人们提供人性化的服务。高度的智能化是数据挖掘和人工智能研究最终追求的目标,也是二者最终合而为一的标志。(3)使知识产生经济化。在现阶段的知识经济时代,人工智能和数据挖掘势必受到经济的影响,这决定了人工智能和数据挖掘将具有经济特征。人工智能和数据挖掘技术作为无形资产可以直接带来经济效益,通过交流,教育,生产和创新的无形资产将成为知识经济时代的主要资本。可以预期未来的人工智能和数据挖掘技术将更加经济实用。(4)交叉学科的技术融合。各行各业的理论和方法都已经开始融入了人工智能和数据挖掘之中。未来的人工智能和数据挖掘技术必将是一个融合众多领的复合学科。当今,我们已经在逐渐使用人工智能与数据挖掘技术,去攻克更多难题,解决更多问题,造福人类,改善生活,近在眼前。
作者:喻正夫 单位:汉江师范学院
参考文献:
[1]万璞,王丽莎.数据挖掘与人工智能技术研究[J].无线互联科技,2016(10):113-114.
[2]王翔.试论如何利用大数据挖掘技术推动人工智能继续发展[J/OL].科技创新报,2017,14(01).
[3]秦益文.微博数据挖掘中人工智能推理引擎的应用[J].中小企业管理与科技(中旬刊),2017(02).
[4]蒲东齐.数据挖掘在人工智能上的应用[J].信息与电脑(理论版),2016(19).
关键词:
大数据大数据分析大数据挖掘可视分析
随着云计算、物联网和互联网等技术的快速发展,各种移动设备、传感网络、电商网站、社交网络时时刻刻都在生成各种各样类型的数据,大数据时代已经到来。大数据即数据体量巨大、数据类型多样、数据的质量低、处理速度迅速的数据。大数据分析的核心是从大量数据中获取有价值的内容,更准确、更深层次的知识,而不是对数据简单的统计和分析。
1大数据的定义与特征
大数据已经进入了我们每个人的生活,各行各业都在讨论如何发展和运用大数据,那么什么是大数据,大数据的特征是什么?大数据是指所涉及的数据规模巨大到无法通过目前主流的软件工具在合理时间内撷取、管理、处理、挖掘这些数据,并整理成为企业经营决策有用的信息。IBM提出大数据的4V特征,得到了业界的广泛认可。第一,数量(Volume),即数据巨大,从TB级别跃升到PB级别;第二,多样性(Variety),即数据类型繁多,不仅包括传统的格式化数据,还包含来自互联网的大量视频、图片、位置和日志等;第三,速度(Velocity),即处理速度快;第四,价值性(Veracity),即追求高质量的数据。大数据具有4V特征,给人们带来了新的机遇与挑战。
2大数据挖掘与分析的意义
在大数据处理的过程中,数据分析是核心,因为大数据的价值全部在数据分析过程中产生。互联网、硬件等技术迅猛发展,加深了人们对数据分析的需求。如果大数据是一种产业,赚钱的重点在于如何提高数据的分析能力,通过分析发现数据的更多潜在的价值。在大数据时代,数据分析是数据价值发现的最重要环节,也是决策的决定性元素。传统的数据分析主要针对结构化数据,且已经形成一整套非常有效果的分析体系。但是在大数据时代,半结构化和非结构化数据量的快速增长,给传统的分析技术带来了巨大的挑战和冲击。大数据分析于传统数据分析有哪些区别呢?
3大数据挖掘与分析的关键技术
大数据挖掘与分析的关键技术一般包括:大数据采集、大数据预处理、大数据存储及管理、大数据实时处理、大数据可视化和应用等。
3.1大数据采集技术大数据采集一般分为大数据智能感知层和基础支撑层。智能感知层重点攻克针对大数据源的智能识别、感知、适配、传输、接入等技术。基础支撑层重点攻克提供大数据服务平台所需的虚拟服务器、数据库及物联网络资源等处理技术。
3.2大数据预处理大数据预处理是指在大数据挖掘前期对大数据进行的一些提前处理。预处理包括数据清理、数据集成、数据变换和数据归约等几种方法(表1)。大数据的特点是数据量大,但并没有增加数据价值,相反增多了数据噪音,有很多数据放在存储器里就没再用过。数据量的突然增加,各种媒体数据被任意碎片化。在应对处理大数据的技术挑战中,大数据的降噪与清洗技术值得高度重视。早期主要是结构化数据的挖掘,可从数据库中发现时序知识、关联知识和分类知识等。在大数据时代,数据库已经不能满足人们的需求了。大数据中数据类型繁多,我们进入了一个非结构化数据挖掘时代。因此,非结构化数据模型是大数据预处理的重要研究方向。
3.3大数据管理大数据不断地从复杂的应用系统中产生,并且将会以更多、更复杂、更多样化的方式持续增长。多样化的物联网传感设备不断地感知着海量的具有不同格式的数据。物联网系统中大数据的复杂化和格式多样化,决定了物联网系统中针对大数据的应用场景和服务类型的多样化,从而要求物联网大数据管理系统必须采用特定技术来处理各种格式的大数据,而现在针对特定数据类型和业务的系统已经无法满足多样化需求,因此,设计新的具有可扩展性的系统架构已经成为大数据管理的研究热点。
3.4大数据实时处理根据大数据速度快的特点,时间越长,数据的价值也在不断衰减,因此很多领域需要对数据进行实时处理。大数据时代,伴随着各种应用场景的数据分析从离线转向了在线,实时处理的需求不断提高。大数据的实时处理面临着一些新的挑战,主要体现在数据处理模式和算法的选择及改进。
3.5大数据可视分析大数据可视分析是指在大数据自动挖掘的同时,融合计算机的计算能力和人的认知能力,利用人机交互技术和可视化界面,获得大规模复杂数据集的分析能力。在大数据时代,大数据可视化是必须尽快解决的关键问题,为大数据服务的研究指明了方向。
4结语
传统数据处理方法已经不能满足大数据挖掘与分析的需求。近年来,大数据挖掘与分析领域已经出现了很多新技术,并成为大数据采集、存储、处理和呈现的坚实基础。但是对大数据分析的价值尚缺少深入的理解,大数据分析中的很多重要技术还不成熟,还有很多其他关键技术难题需要去继续研究。
参考文献
[1]韩晶.大数据服务若干关键技术研究[D].北京邮电大学博士学位论文,2013.
[2]程学旗,靳小龙,王元卓等.大数据系统和分析技术综述[J].软件学报,2014,25(09):1889-1908.
[3]任磊,杜一,马帅等.大数据可视分析综述[J].软件学报,2014,25(09):1909-1936.
在当前的时代背景下,很多的行业都引入了大数据挖掘的理念,这既给计算机产业带来了发展机遇,也带来了挑战。因为想要做好大数据挖掘的相关工作,就一定要掌握数据分类算法,而数据分类算法可称得上是数据挖掘中的一道难关。随着数据分析的研究不断深入,人们开发了多种多样的分类算法,用以不断减轻其难度。通常都是以数据分类器为基准,进行相应的数据分类,包括决策树类、Bayes类、基于关联规则类以及利用数据库技术类,本文将对它们进行简单的阐述。
1 决策树分类算法
1.1 传统算法
C4.5算法作为传统的数据分类算法,有着很明显的优点,如规则简单易懂,实际操作易于上手。但是随着计算机的不断普及,数据的规模变的越来越庞大,其复杂程度也是日渐增长。C4.5已经逐渐无法满足新时期的数据分类处理工作了。并且由于决策树分类算法的规则,决定了在数据分类的过程中,要对数据进行多次重复的扫描和排序。特别是在构造树的时候,这种缺点更加明显。这不仅会影响数据分析的速度,也浪费了更多的系统资源。对于大数据挖掘来说,C4.5更加无法胜任,因为C4.5算法的适用范围十分有限,只能够处理小于系统内存数量的数据,对于内存无法保留的过于庞大的数据集,C4.5甚至会出现无法运行的情况。
1.2 衍生算法
(1)SLIQ算法和SPRINT算法都是由C4.5算法改良而来,在其基础上做了一些技术性的完善,例如增强了数据的排序技术,并采取了广度优先的处理策略。这使得SLIQ算法能够很好地记录数据处理的个数,并具有相当优秀的可扩展性,为处理大数据提供了基础条件。但是SLIQ算法也存在一些缺点,由于它是以C4.5算法为基础的,因此在进行数据处理时,仍需要将数据集保留在内存中,这就导致SLIQ算法的可处理数据集的大小受到了限制。即数据记录的长度一旦超过了排序的预定长度,SLIQ算法就很难完成数据处理和排序的工作。
(2)SPRINT 算法是为了解决SLIQ算法中数据集大小受到内存限制的问题而开发出来的。SPRINT 算法重新定义了决策树算法的数据分析结构,改变了传统算法将数据集停留在内存中的做法。值得一提的是,它没有像SLIQ 算法那样讲数据列表存储在内存当中,而是将其融合到了每个数据集的属性列表中,这样既避免了数据查询时重复扫描造成的速度缓慢,又释放了内存的压力。特别是在进行大数据挖掘时,由于数据的基数过大,在每个数据集的属性列表内寻找所需数据能够大大节省分析的时间,对数据进行分类的工作也变得更加便捷。但是SPRIT算法同样存在一些缺点,对于不具有可分裂属性的数据列表,由于它只能在数据集内进行分析,结果可能不是十分准确,导致其拓展性受到了限制。
2 其他分类算法
2.1 Bayes分类算法
Bayes分类算法是利用概率统计学而开发出来的一种算法,在目前数据分类中应用比较广泛。但是其缺点也比较明显,由于Bayes分类算法需要在分析之前对数据的特性做出一定的假设,而这种假设往往缺少实际数据的理论支持,因此在数据分析过程中就很难做到准确有效。在此之上,TAN算法又被开发出来,它是为了提高Bayes分类算法的假设命题的准确率,也就是降低了NB任意属性之间独立的假设。
2.2 CBA分类数据算法
基于关联规则的分类算法就是CBA分类数据算法。这种算法一般需要用到数据构造分类器,在数据分析的过程中,先搜索到所有的右部为类别的类别关联规则,这被称为CAR;然后再从CAR中选择合适的数据集。CBA算法中主要用到的是Apriori算法技术,它能够使潜在的数据关联规则呈现到表面,方便进行归纳整理。但是由于其在进行数据分类时容易出现疏漏,因此经常采用设置最小支持度为0的办法来减少遗漏的数据,这就造成了算法的优化作用不能完全发挥,降低了运行效率。
2.3 MIND和GAC-RDB算法分类算法
在大数据挖掘的背景下,未来数据分类算法的发展方向应当是以数据库技术为基础的的分类算法。尽管很久之前就已经有一些专门研究数据库的人员发现并提出了基于数据库技术的分类算法,但是并没有得到实际运用。因为在进行数据挖掘和数据分析的时候,很难将其与数据库的系统集成,目前来说,MIND和GAC-RDB算法还能够较好地解决这个问题。
2.3.1 MIND算法
MIND算法与决策树算法有些相似,都是通过构造数据分类器来进行数据分析。但是MIND算法采用了UDF方法和SQL语句来与数据库系统实现关联。在进行数据分析时,UDF方法能够大大缩短对每个节点的数据特性进行分析的时间,这样就在为数据库的集成提供了理论基础。SQL语句是通过对数据集的属性进行分析,以便从中选择出最合适的分裂属性,然后给数据排序,这样就节省了数据分类的时间。但是MIND算法还不能直接在数据库系统中实现查询功能,更重要的是,该算法的维护成本过高,不利于普及。
2.3.2 GAR-RDB算法
GAR-RDB算法在MIND算法的基础上进行了更多的改进,能够充分利用数据库系统进行聚集运算,也就是实现了数据库系统的集成。该算法拥有分类准确,分析迅速,执行更快的优点,同时可拓展性也比较出色。更重要的是,它可以充分利用数据库提供的查询功能,从而避免了重复扫描数据集的现象,缩短了分析的时间,节约了系统资源。只要在自动确定参数取值的技术上进行一些改进,该算法就能很好地胜任大数据挖掘的数据处理工作。
3 总结
大数据挖掘是时展的潮流,因此数据分类算法的重要性也将随着显现。通过分析几种不同的算法,能够在数据分析速度、可扩展性和结果的准确性上进行比较,从而选择最适合的数据分类算法。它们都在不同程度上有着各自的优缺点,因此要继续深入研究以开发出更好的分类算法。
参考文献
[1]钱双艳.关于数据挖掘中的数据分类算法的综述,2014(13).
1.1.1将文本对比作为基础的方式采用计算机软件系统中的对比程序代码中所包含的语句行展开进一步的判断过程,这种方法在进行后期的改进过程中针对的是对字符串的匹配效率进行提升,提升的办法有很多,最为主要的就是通过Hash函数技术进行匹配效率优化,在这个过程中最为常用的工具为Duploc。
1.1.2将标识符对比作为基础的方式将标识符对比作为基础的方式,最具代表性的方式是对由分词所组成的标识符序列构造前缀树,并将其作为依据然后进行对比,将标识符对比作为基础的方式的工具主要有CCFinder、Dup等[3]。
1.2计算机软件数据检索挖掘数据检索挖掘与克隆代码一样,同样是计算机软件工程中最为原始的数据挖掘需求之一,对于计算机软件数据检索挖掘来说其主要分为以下三步:第一步,为数据信息的录入。所谓的数据信息录入实际上指的是对于要检索的信息进行录入的过程,针对使用者的需求将使用者所需要的数据信息输入到检索信息录入框中进行数据的查找。第二步,为数据信息的查找过程。当客户所需要的信息进入到数据检索录入框中时,进行确认后数据挖掘系统将会根据数据信息中所涵盖的数据信息内容进行数据库中的查找,并且根据不同的分类,对查找信息的数据信息资料进行罗列[4]。第三步,为数据信息资料内容的导出和查看,在查找到相关的客户需要数据内容时,客户可以根据自己本身的实际需要,进行数据信息的导出或者是在线查看,在数据信息资料导出后,需要应用相关的数据信息查看软件进行查看。并且客户在导出数据信息时,会在中形成一定的历史记录,对客户及时查找的数据信息进行记录与保存,当客户想要再次进行查找时能够更为方便与快捷的找到其所需要的数据信息内容。
要让数据电子化,首先要搭建适用的网络平台,网络平台的搭建分为2个过程。如果需要收集数据,则需要搭建一个面向对象的网络平台。在对大学生社会体系和人际关系的研究中,采用的是在WEB上自动收集量表数据,首先将量表转换为汇编语言编写的网页,再采用将量表转换后的电子版网页与数据库中的表相连接,这样,只要被试登录指定网站,就可以在网上完成量表的填写,数据则直接存入数据库中。数据库管理系统使用的是SQLServer2000,在网络成瘾和注意关系偏向的研究中,也采用了同样的方法。如果对现有的数据进行分析,则可以略过数据收集这个步骤,直接将数据输入数据处理软件中。在对于青少年同伴关系的研究中,创建了一个数据仓库来存放现有数据,选用SQLServer2000作为数据仓库的构建平台。由于青少年同伴关系的研究中的维度不是太多,维度层次也不复杂,出于对查询效率和使用者是否容易理解的角度考虑,决定使用星型结构来创建数据仓库,青少年同伴关系研究的星型结构。最后一种方法是直接将数据输入SPSS中,这种方法这样需要大量人力物力,而且效率难以提高,存在误录的可能。
1.2数据挖掘分析
将数据转换为需要的电子文本格式以后,进行简单的数据处理。在剔除了部分缺失或者明显错误的数据后,就可以进行数据挖掘工作了。数据挖掘的常用算法为关联规则挖掘、决策树算法和聚类挖掘算法。在此选用关联规则挖掘算法做详细说明,在大学生社会网络和人际关系研究中,选取被试人际关系满意度为例进行关联规则挖掘。表1被试人际关系满意度关联规则挖掘关联规则挖掘的步骤如下:
①选择数据根据关联规则挖掘的目标,选择如上表所示的属性,通过下面的sql语句选择数据,并将jibenxinxi表和zongjie表通过学号连接起来。select性别,是否独生子女,你对自己的人际关系满意吗,你对自己与父母的关系满意吗,你对自己与同伴的关系满意吗,你对自己与老师的关系满意吗,你认为比较了解你的人会对你的人际关系给出一个怎样的评价,你对自己人际关系的关注程度fromjibenxinxia,zongjiebwherea.学号=b.学号;
②保存选择的数据:首先将第一步选择的数据插入到一张表中,sql语句如下:insertintoguanlianguize1select性别,是否独生子女,你对自己的人际关系满意吗,你对自己与父母的关系满意吗,你对自己与同伴的关系满意吗,你对自己与老师的关系满意吗,你认为比较了解你的人会对你的人际关系给出一个怎样的评价,你对自己人际关系的关注程度fromjibenxinxia,zongjiebwherea.学号=b.学号;
③构造满足关联规则挖掘的事务数据库在guanlianguize1表中增加一个属性item,通过下面的sql语句给item赋值。注意各属性的数据挖掘映射代码如上表所示。新建表social_guanlian_1作为数据挖掘的事务数据库,导入item。Insertintosocial_guanlian_1(item)selectitemfromguanlianguize1以上关联规则挖掘的结果,结果表明:对自己图人际关系评价较高的大学生,同时对自己人际关系的满意度也较高。对自己人际关系评价较低的大学生,同时对自己人际关系的满意度也较低。对人际关系关注程度较低的同学,人际关系满意度也较低。这些数据之间是互相有关联的,因此呼吁大学生多关注人际关系和人际交往的法则,有利于他们及早的认识到自己在人际交往方面的不足,为以后步入社会,创造更大的社会价值打好基础。除此以外,对于教育学中的很多课题,例如青少年同伴关系的研究,网络成瘾与注意偏向关系的研究,学生成绩的分析等等都可以用数据挖掘来进行科学的数据分析,数据挖掘技术在教育学领域正发挥着越来越大的作用。
0 引言
网络舆情作为一种十分重要的舆情表现形式,是公众在互联网上对某种社会现象或社会问题公开表达的具有一定影响力和倾向性的共同意见。要加强对网络舆情信息的分析,及时发现舆情热点,及时对民意走势做出正确引导。在此情况下,我们引入Web数据挖掘技术来提高对舆情的处理和分析的效率以及质量,实现网络舆情的分析。
1 Web挖掘
Web挖掘是数据挖掘在Web上的应用,它是一种综合使用自然语言处理、数据挖掘、人工智能、机器学习等技术的智能分析方法。根据挖掘对象的不同,Web挖掘可以分为Web内容挖掘、Web结构挖掘和Web使用挖掘三个方面。相比于传统的网络舆情分析方法,Web挖掘可以用更短的时间了解网络舆情的状况和走向以及与之相关联的热点问题,为网络舆情的深入分析提供了技术支持。
1.1Web内容挖掘。Web内容挖掘是指从Web文档的内容或者Web搜索的结果中获取知识的过程。由于网页的内容错综复杂不易于计算机理解,Web内容挖掘可以有效的对大量的Web文本集合进行总结、分类、聚类、关联分析,以及利用Web文本进行趋势预测。在网络舆情分析中,Web内容挖掘可以发现与事件主题相关的知识内容和语义关联模式。
1.2Web结构挖掘。Web结构挖掘是指对Web组织结构、Web页面的链接关系等进行挖掘并从中提取出潜在的有用的知识的过程。Web链接信息包括了大量的关于Web内容相关性、质量和结构方面的信息,为网络舆情的分析的提供了重要资源。通过Web结构挖掘,可以获得与舆情主题高度相关的链接以及链接逻辑结构的语义知识,从而帮助舆情分析人员确定重要舆情源和中心页面,有助于深入挖掘舆情信息。
1.3Web使用挖掘。Web使用挖掘是指通过挖掘Web服务器上的日志信息来提取浏览者的访问记录,获取有价值的信息的过程。这些信息包括网络服务器访问记录、服务器日志记录、浏览器日志记录、用户信息、注册记录、用户对话或交易信息、用户提问等。通过上述信息可以发现用户的访问模式以及行为偏好,可以更好地理解用户行为从而提供智能化的服务。通过Web使用挖掘,可以确定舆情热点和焦点,从而更准确地预测网民行为。
2 基于Web数据挖掘的网络舆情分析
2.1数据层。舆情信息采集的主要任务是提取与热点相关度高的信息,为下面的舆情挖掘和分析做好准备工作。舆情信息采集由以下5步完成。
(1)确定主题和选择采集地点。为了使采集效果更好,必须以主题的形式对信息需求进行描述。
(2)利用自动采集软件采集数据。数据采集软件可以自动采集相关信息,并下载到本地进行分析。
(3)页面分析。采集完页面之后,对页面进行分析,提取重要信息,以便进行后续的过滤和处理。
(4)URL与主题的相关性判断。在采集过程中增加过滤机制以便提高采集数据的质量。
(5)页面过滤。对采集页面进行主题相关性评价,去除相关性低的页面,从而提高采集页面的准确性。
2.2 挖掘层。挖掘层主要由语义信息集成和Web挖掘引擎两部分组成,而且语义信息集成为Web挖掘引擎提供经预处理后的结构化信息,简化并加速 了Web挖掘处理。
(1)语义信息集成。由于数据层的数据来自于不同的媒介,因而在结构和语义上都存在很多的不同,需要对其进行统一处理,并根据需要利用智能信息处理技术进行深入的预分析,从而提高挖掘引擎的效能和健壮性。
(2)Web挖掘引擎。Web挖掘引擎是网络舆情分析的动力部分,执行Web挖掘任务。它定义了Web挖掘模型语言,选取了合适的挖掘算法和工具。其主要目的是从大量的网络舆情信息中提取规律,并预测事件的发展趋势。可根据网络舆情信息源的特点,从多个方面更加深入的进行挖掘处理。
2.3分析层。分析层是核心部分,其主要技术应用于对网络舆情信息的智能分析,该分析从六个层面进行,分别是:主体类聚分析、语义关联分析、概念描述、趋势预测分析、主题识别探测和倾向性分析。其功能主要是将经过挖掘处理后的知识进行描述,并生成网络舆情分析报告来辅助决策机构。
2.4应用层。应用层的出现首先方便了与用户之间的交互。用户可以通过软件来指导网络舆情信息的采集、挖掘和分析处理,从而发现隐藏的规律和发展趋势,同时也更易于舆情信息的理解和分析结果的应用。其次,为后续工作提供接口。由于计算机不能对随机出现的各种警情进行判断,因此需要提供系统交互接口,可以让专家进行分析,实现人机互动,从而提高舆情分析的准确性。
3 基于Web挖掘的网络舆情分析系统实例分析
本文以方正智思舆情预警辅助决策支持系统为例,讨论Web挖掘技术在网络舆情分析中的应用。正智思舆情预警辅助决策支持系统是一款由北大方正技术研究院研发而成的中文智能信息挖掘与处理的平台软件。其核心技术为中文信息处理技术与Web挖掘技术,采用B/S结构,利用J2EE技术框架,实现基于浏览器的瘦客户、服务器模式。它不仅能对舆情信息进行全方位采集,还能对舆情信息进行智能分析处理。其实时响应、智能分析、辅助倾向性判断等特点为相关职能部门全面掌握网络舆论动态,作出正确引导,提供分析依据,从而提高各级政府应对突发事件的能力。
4 结语
Web挖掘是一种综合使用自然语言处理、数据挖掘、人工智能、机器学习等技术的智能分析方法。实践表明,将Web挖掘融入网络舆情分析中,可以充分发挥Web挖掘技术从海量信息中发现隐藏的规律,实现对网络舆情信息全方面深入的分析,从而辅助相关职能部门正确引导民意。在网络舆情中应用Web挖掘技术,可以有效地提高网络舆情分析结果的正确性,也是其未来的发展方向。
参考文献:
[1]付业勤,郑向敏. 国内外网络舆情研究的回顾与展望[J]. 编辑之友,2013,12:56-58.
中图分类号:TP311.13
随着因特网的发展,数据信息来源种类逐渐增多,相应的信息复杂性也在增加,传统的数据存储和处理方式已经不能很好的满足实际使用与研究的需求,XML作为一种半结构化数据标准,已经开始被越来越广泛的应用,而对于此类结构化数据的挖掘也为我们的日常研究提供了一个方向。
对于半结构化数据源的挖掘不同于传统的数据挖掘。传统的数据库中的数据类型工整,数据结构性很强,为完全的结构化数据,因此对于此类数据处理较为简单,只需要按照其规律进行分析即可。而对于半结构化的数据则因其表现形式的多样性,所以对其挖掘要比对于单个数据仓库的数据挖掘要复杂。
1半结构化数据
半结构化数据有两种,一种是指该数据在物理层面上缺少结构,另外一种是指该数据在逻辑层上缺少结构。在现有的Web环境中,有一些结构化的数据,为了用于网页页面显示而采用了与HTML语言标记符号嵌套的方式,因此就构成了第一种物理上的半结构化数据。另外网络中有众多的Web页面,页面上有着丰富的数据内容,这些数据大多都以HTML文件的方式存在,并没有严格的结构和类型定义,这样的数据都属于第二类的逻辑层的半结构化数据。网络页面上的数据与传统数据库中存储的数据不同,传统数据库内的数据都有一定的数据模型,每个特定的数据都可以根据模型来进行描述,而网络页面上的数据很复杂,并且不能按照特定的模型进行描述,每一个站点的数据都遵循其独立的设计规则,并且它的数据本身具有自我描述的特性和动态的可变性。因此网络页面上的数据具有一定的结构性,但是其因为具有自述层次的存在,因此属于一种非完全结构化的数据,也称为半结构化数据。
2半结构化数据的来源
(1)在Internet上因为对所存储的数据没有严格模式的限制而产生的半机构化数据,常见的有HTML、XML、SGML等类型的文件。
(2)在电子邮件、电子商务文件、文献资料等文件中,由于没有严格的格式要求,所以存在着大量结构与内容不固定的半结构化数据。
(3)在包含有异构信息源集成的情况下,由于信息源集成范围广泛,对于信息源的存取范围包括各类数据库、电子图书馆、知识库和文件系统等,因此也会产生半结构化数据。
3半结构化数据的几个特点
(1)包含有隐藏的模式信息。虽然说半结构化数据具有一定的结构,但是由于数据和结构混合在一起,所以并没有明显的模式定义。
(2)结构不规则。半结构化数据的一个数据集合可以由不同结构的元素组成,或者在某些情况下使用不同类型的数据来表示相同的信息。
(3)类型约束不严格。半结构化数据由于没有预先确定的表达模式,并且数据在结构上没有遵循相同的规则,因此会导致其缺乏对于数据的严格约束。
基于以上几个半结构化数据模型的特点可以看出半结构化数据缺乏严格、完整的数据结构,但是这类数据并非没有结构,但是它们的结构可能是隐藏的、并不完整的,并且可能是需要不断进行修改的。
半结构化数据的模式与以往的关系数据模式或者面向对象的数据模式最大的区别在于半结构化数据是现有数据然后再有模式。不对数据的结构进行强制性的约束,只需要描述出数据的结构信息,并且它只描述数据部分结构的非精确模式,在应用中随着数据对象的不断更新而动态修改其描述,据此分析半结构化数据的数据特点和它所产生的原因,半结构化数据源的挖掘是能够实现的。
半结构化数据源挖掘技术首先要解决的是数据远模型及其查询与集成的问题。要解决网页页面上的异构数据的集成与查询,就必须要有一个适当的模型来对这些数据进行清晰的描述,因此如何创建这个半结构化的数据模型就成为了解决问题的关键所在。首先我们需要定义一个半结构化数据模型,其次我们还需要一种适用于此模型的半结构化模型挖掘技术用来的从现有的数据中自动挖掘半结构化模型。对于网页页面数据的挖掘就必须以此半结构化数据模型和半结构化数据模型挖掘技术为手段来建立相应的数据库。
在针对多数据源的数据库进行半结构化数据提取、表示和查询的处理一般采用包装的方式来进行。首先把信息源的数据通过包装转换成为目标数据库所使用的格式和类型。同时处理过程中负责监视的部分将自动监测信息中的数据变化,如果发现数据有变化则将这些变化上报,这些变化经过分析发现有新的数据源连接仓库系统或者信息源发生变化时,那么系统就会把这些有变化的数据进行过滤、汇总,并把这些信息源进行汇总处理,并将收集到数据库中。
此系统对半结构化数据进行处理的过程中所面临的主要问题就是如何将其转化为更易于处理的结构化信息。但是对这些半结构化数据进行转换的目标是庞大的网页页面数据源,如果依靠人工手段针对每个数据源编写相应的转换方式的话工作量非常代价。因此,我们需要一种能够快速建造并且直至自动维护的转换工具。目前这类工具还不是很多,并且使用上并不十分完善。但是,随着近年来XML及其应用技术的发展为处理半结构化数据提供了很好的工具和方法。
4XML有如下几个特点
(1)XML语法具有严格的标记规定;
(2)XML对于各元素之间的顺序有着严格的先后顺序,是按照相应的解释模式来排列的;
(3)XML中的元素可以包含有多个属性值。基于以上几个特点,如今XML已经成为正式规范,开发人员已经开始使用XML格式的标记和交换数据。XML在网页数据挖掘中可以用于建立信息源层的数据集成,即构建数据仓库),也可以用于将信息处理结果以XML的形势发往数据仓库,也可以基于数据仓库将数据进行挖掘和分析处理,还可以将半结构化数据挖掘处理的结果送往应用层。
基于XML的网页页面信息提取一般包括页面捕获、页面预处理和半结构化数据提取等方面。其中页面捕获有多种方法,一种是直接利用OCX控件,根据提供的入口参数URL来获取页面超文本内容;另外一种是利用开发工具所提供的支持网页文本获取的功能接口来获取。
XML为基于Web的应用提供了强大的功能和广泛的灵活性,它能为开发者带来更多的好处,例如Web数据可以按照XML的格式进行唯一性的表示,因此可以进行更有意义的搜索。有了XML之后,搜索软件可以不必了解每个数据库都是如何构建的。在使用XML之前由于每个数据库描述数据的格式几乎都不相同并且数据来源广泛,所以针对不同来源数据进行搜索几乎是不可能的。但是XML语言能够将不同来源的半结构化数据进行结合,相关应用集成上可以使用中间层服务器对采集上来的半结构化数据进行挖掘,然后将处理后的数据发送到最终用户或者其他服务器做进一步的处理。
XML的丰富扩展性和灵活性使它能够描述不同类型应用中的数据,并且XML文档因为是对象模式,因此它允许使用脚本或者其它程语言进行数据处理,数据计算不需要返回到服务器就可以操作。在Web中XML可以被用来分离使用者浏览的数据页面,可以用简单灵活和开放的格式为Web创建功能强大的云应用,通过创建高效的云计算平台来为用户服务,而以前此类软件只能依靠高端数据库来构建。
5结束语
XML作为一种结构化数据的工作也标准,为广大组织、开发者、网站和终端使用者提供了有利的条件,随着XML作为WEB上进行数据交换的一种标准方式的逐步发展,基于XML的半结构化数据挖掘将会变得越来越轻松。
参考文献:
[1]李效东,顾毓清.基于DOM的Web信息提取[J].计算机学报,2002(5):526-533.
中图分类号: TN711?34; TP393.08 文献标识码: A 文章编号: 1004?373X(2017)12?0059?04
Abstract: Various softwares and equipments in large?scale computer networks have security holes, which lead to the previously?proposed abnormal data mining methods in large?scale computer networks can′t make reasonable mining. Therefore, a new abnormal data mining method in large?scale computer network is put forward. The method can mine the abnormal data in large?scale computer network by data washing, data format conversion and pattern mining operation. The data mining system designed with the proposed method is composed of data mining processor, analysis module and database. The database provides the processing and mining schemes for data mining processor and analysis module. The data mining processor is used to monitor the abnormal situation in large?scale computer network in real time, and carry out data processing. The analysis module is used to analyze the processed data by means of "secondary activation" mode, and dig up the abnormal data. The experimental results show that the proposed method has good convergence, and the system designed with the method has strong scalability.
Keywords: large?scale computer network; abnormal data; data mining technology; reasonable mining
0 引 言
随着电子信息技术的普及和不断发展,大型计算机网络随之产生,越来越多的网民能够更为便捷地享受各种信息资源,现如今,网络已成为人们生活中不可缺少的一部分。大型计算机网络在为人们提供便利的同时,也造成了一定的困扰,网络入侵事件时有发生[1]。若想有效维护大型计算机网络安全,需要将其中的非正常数据准确、高效地挖掘出来,相关组织已开始着手进行大型计算机网络中非正常数据挖掘技术的研究工作[2]。
1 非正常数据挖掘技术
数据挖掘技术是指依据特定任务,将重要的隐含知识从具有一定干扰存在下的随机数据集群中提炼出来[3]。数据挖掘技术是一项交汇科目,经其挖掘出来的数据具有一定的辅助决策作用。将这种技术用于进行大型计算机网络非正常数据的挖掘工作中,能够自动控制大量初始数据,为用户提供更多的便利[4]。
所提大型计算机网络中非正常数据挖掘方法的挖掘流程如图1所示。
由图1可知,所提方法先对大型计算机网络中的初始数据集群进行统一处理,处理过程包括数据洗涤和格式变换。数据洗涤的目的是将初始数据集群中的噪音、重叠参数和缺失重要特征的数据除去,再经由格式变换,使洗涤后的数据集群特征更加明显,提高对非正常数据的挖掘准确性。
当数据处理完毕,所提方法随即开始进行模式挖掘。所谓模式挖掘,是指通过对比分析方式获取大型计算机网络中数据之间共有特征的过程,所获取到的共有特征即为数据挖掘技术中的“知识”[5]。
将模式挖掘定义成向的映射,和均是大型计算机网络中初始数据集群的一部分,并且,。在中随机定义一个数据集群,此时可以将和在中出现的几率设为向映射的知识,用表示,则有:
设置和的取值范围可使所提大型计算机网络中非正常稻萃诰蚍椒具有收敛性。若无特殊规定,可将二者的取值范围均设置在0~100%之间。如果用户需要对某一特定的非正常数据进行精准挖掘,也可随时变更取值范围。
取值范围设定成功后,本文将式(1)和式(2)中的重叠部分输出,用来表示大型计算机网络中非正常数据的挖掘结果。
2 非正常数据挖掘系统设计
2.1 系统总体设计
现使用所提大型计算机网络中非正常数据挖掘方法设计数据挖掘系统,以实现对大型计算机网络安全的有效维护。
所设计的系统由数据挖掘器、分析模块和数据库组成,如图2所示。数据挖掘器被安放在大型计算机网络的特定节点上,用来实时监控网络工作的非正常情况,并进行数据处理。分析模块负责对数据挖掘器处理过的数据进行分析,进而挖掘出大型计算机网络中的非正常数据。数据库为数据挖掘器和分析模块提供数据的处理和挖掘方案。
2.2 系统具体设计
在所设计的大型计算机网络非正常数据挖掘系统中,数据挖掘器可看作是大型计算机网络初始数据集群的接收端,用于获取数据挖掘技术中的“知识”,其工作流程如图3所示。
由图3可知,在数据挖掘器开始工作前,数据库会事先根据大型计算机网络初始数据集群的特征制定数据挖掘器的具体挖掘方案,并对其实施驱动。数据挖掘器根据挖掘方案对数据进行洗涤和格式转换等处理。处理结果将被存储。
值得一提的是,数据挖掘器具有自检功能,如果处理结果不符合用户所设定的置信度,那么该结果将会被保留到数据挖掘器的缓存器中。一旦缓存器中有新鲜数据进入,数据库便会重新驱动数据挖掘器,直至处理结果成功通过自检。随后,所设计大型计算机网络中非正常数据挖掘系统的分析模块将对数据挖掘器的处理结果进行分析。为了增强系统的可扩展性,应充分利用系统计算节点的性能,并缩减节点失效率,为此,给分析模块设计出一种“二次激活”方式[6],以延长系统计算节点的使用寿命,如图4所示。二次激活是指当系统计算节点出现疲劳状态时,分析模块将自动放出替补节点,使疲劳节点拥有足够的时间去休整。休整后的计算节点将替换下替补节点,继续进行数据挖掘工作。
在分析模块中,每个计算节点均有多个替补节点,如果节点即将失效并且未能寻找到下一个合适的计算节点,将采取替补节点与性能相似节点同时工作的分析方式,以保证所设计大型计算机网络中非正常数据挖掘系统的可扩展性,并使挖掘结果更加准确。
3 实验验证
3.1 方法收敛性验证
在大型计算机网络中,只有具有较好收敛性的非正常数据挖掘方法才能有效保证挖掘结果的准确性。为了验证本文所提方法收敛性的优劣,需要进行一次实验。本次实验在某大型计算机网络实验室中进行。用于进行数据挖掘的主机配置为:3 GB内存、四核i7处理器、500 GB硬盘。实验中,于主机写入本文方法,并向大型计算机网络中加入两种类型的大数据集群,两集群中的数据节点[7?8]分别为4万个和80万个。当数据节点中的数据不出现波动时,表示本文方法已进入收敛状态,此时主机便不会再向下一节点传递数据。实验结果如图5所示。
从图5可明确看出,本文方法具有收敛性,并且大数据集群中的数据节点越多,方法的收敛时间就越短。在两种大数据集群中,本文方法的收敛时间分别为1.2 s和4.3 s。据统计,其他方法的收敛时间大多在10.8 s左右,这显示出本文方法具有较好的收敛性。
3.2 系统可扩展性验证
为了验证经本文方法设计出的数据挖掘系统是否能够合理应对大型计算机网络中非正常数据的更新,需要对本文系统的可扩展性进行验证。实验选出的对比系统有基于Hadoop的数据挖掘系统和基于并行图算法的数据挖掘系统。
在第3.1节实验的基础上,只保留大数据集群2,并分别以横向和纵向方式向集群的数据节点中随机写入30 000个非正常数据。使用三种系统对大型计算机网络中的非正常数据进行挖掘,所得实验结果如图6~图8所示。
由图6~图8可知,三个系统在纵向写入下的可扩展性均低于横向写入。与其他两个系统相比,本文系统参与进行非正常数据挖掘的节点数量更多,并且节点失效率最少,证明使用本文方法设计出的数据挖掘系统具有较强的可扩展性。
4 结 论
本文提出一种新型的大型计算机网络中非正常数据挖掘方法,并使用该方法设计数据挖掘系统。数据挖掘技术是指依据特定任务,将重要的隐含知识从具有一定干扰存在下的随机数据集群中挖掘出来。将数据挖掘技术用于进行大型计算机网络非正常数据挖掘工作中,能够对大量数据进行自动控制,为用户提供更多便利。实验结果表明,本文方法具有较好的收敛性,使用本文方法设计出的数据挖掘系统也具有较强的可扩展性,可将大型计算机网络中的非正常数据准确、高效地挖掘出来。
参考文献
[1] 吴嘉瑞,唐仕欢,郭位先,等.基于稻萃诰虻拿老中医经验传承研究述评[J].中国中药杂志,2014,39(4):614?617.
[2] 李善青,赵辉,宋立荣.基于大数据挖掘的科技项目模型研究[J].图书馆论坛,2014,34(2):78?83.
[3] 丁骋骋,邱瑾.性别与信用:非法集资主角的微观个体特征―基于网络数据挖掘的分析[J].财贸经济,2016,37(3):78?94.
[4] 杨丹丹.搜索引擎及网络数据挖掘相关技术研究[J].数字化用户,2014,20(11):126.
[5] 王元卓,贾岩涛,刘大伟,等.基于开放网络知识的信息检索与数据挖掘[J].计算机研究与发展,2015,52(2):456?474.
中图分类号:TP391
文献标识码:A
文章编号:16727800(2017)004018503
0引言
充分利用企I信息系统集成中所产生的生产业务信息数据成为企业的关键技术,数据挖掘技术则是企业系统中使用的技术之一。数据挖掘指对数据库中的海量数据进行过程复杂的数据分析,从而获得其中隐含信息的过程。根据用户需求,选择比较切合的数据挖掘算法,成为挖掘技术成功的关键。通过研究各种数据挖掘算法,笔者在众多算法中选择了K均值算法作为本文数据挖掘的基础算法。
1K均值算法概述
1.1K均值算法概念
聚类问题是将给定的数据集合D划分成一组聚类:{C1,C2,…},Ci∈D,使不同种类中的数据尽可能不相似(或距离较远),同一种类中的数据尽可能相似(或距离较近)。聚类是一种无监督的学习,所谓无监督学习指事先并不知道要找的内容,即没有目标变量,它将相似的对象归到同一个簇中[13]。K均值(Kmeans)算法在聚类算法中使用最为广泛。首先根据分类的个数k,随机地选取k个初始的聚类中心,当然这个k值是难以确定的,并把每个对象分配给离它最近的中心,分别得到起始的聚类点。然后,将当前每个聚类的中心作为新的聚类中心,并把每个对象重新分配到最近的中心。不断地循环迭代,直到目标函数的最小值,即最终的聚类中心点没有移动。其中,目标函数通常采用平方误差准则,即:其中,E表示所有聚类对象的平方误差和,S是聚类对象,Mi是类Ci的各聚类对象的平均值,即:
其中,|Ci|表示类Ci的聚类对象数目。每一次迭代时,每一个点都要计算一遍它和各聚类中心的距离,并取最短距离的类作为该点所属的类。直到E获取最小值,最终表现为最后的聚类中心无法移动。一般k的典型取值为2~10。
1.2K均值算法计算模型
假设在一片小区域中有若干数据点,如图1所示。先假设k=2,即最终这些数据点会聚类成两个类。K均值算法具体解释如下: (1)由于k=2,任意的两个数据点被选作初始类的聚类中心(图中用点F、G表示),如图1(a)所示。 (2)将其余的各个点分配到距离最近的聚类中心点(本例中为F点、G点)所代表的类中,即求图中所有点到各个聚类中心的距离。如果Si距离Ci近, 则Si属于Ci聚类。如图1(b)所示,A、B点与F点的距离相对G点更近,所以属于F点聚类,C、D、E点与G点相对F点距离更近,所以属于G点聚类。 (3)将聚类中心点F点、G点移动到“自己”的聚类中心,如图1(c)、图1(d)所示。 (4)重复步骤(2)、(3),直到每个类中的聚类对象(如图1(e)中的点)不再重新分布为止,第一个点聚合了A、B、C,第二个点聚合了D、E,此时重复循环的迭代过程结束。
2.1系统概述
通过对K均值算法的介绍及其算法处理模型,笔者结合某制造型企业的信息化系统平台用户实际需求建立数据仓库,在数据仓库的基础上使用数据挖掘中的K均值算法对大量数据进行潜在信息的挖掘,并开发出基于K均值算法的挖掘器,辅助决策者进行决策。假如数据库中的数据关于产品信息生成了k个聚类中心,即k个中心点point,将其余的各个点分配到距离最近的聚类中心点所代表的类中,距离为distance,并获取距聚类中心距离最小的距离min2,将该元素归类于距离聚类中心点最近的那个聚类中,核心代码如下:
private void clusterSet() { float[] distance = new float[m]; for (int l = 0; l < length; l++) { for (int e = 0; e < m; e++) { distance[e] = distance(data.get(l), point.get(e)); } int min2 = min1(distance); cluster.get(min2).add(data.get(l)); } } //将聚类中心点移动到自己的聚类中心,求两点误差平方 private float result(float[] point1, float[] point) { float x = point1[0] - point[0]; float y = point1[1] - point[1]; float result1 = x * x + y * y; return result1; } //利用上述“求两点误差平方”的方法,计算误差平方和准则 private void result2() { float a1 = 0; for (int r = 0; r < cluster.size(); r++) { for (int j = 0; j < cluster.get(r).size(); j++) { a1 += result(cluster.get(r).get(j), point.get(r)); } } sum.add(a1); } //设置新的聚类中心 private void setNewPoint() { for (int h = 0; h < m; h++) { int n = cluster.get(h).size(); if (n != 0) { float[] newpoint = { 0, 0 }; for (int k = 0; k < n; k++) { newpoint[0] += cluster.get(h).get(k)[0]; newpoint[1] += cluster.get(h).get(k)[1]; } newpoint[0] = newpoint[0] / n; newpoint[1] = newpoint[1] / n; point.set(h, newpoint); } } } //对第2、3步进行重复迭代,直至得到算法最终结果 private void kmeans() { init(); while (true) { clusterSet(); result2(); if (n != 0) { if (sum.get(n) - sum.get(n - 1) == 0) { break; } } setNewPoint(); n++; cluster.clear(); cluster = cluster1(); } }
2.2零部件市场需求分析
在销售系统“零部件市场需求分析”模块,主要针对销售信息以及产品信息所建立的数据仓库中的信息进行数据挖掘。合同中记载了所销售的产品图号、数量、客户相关信息等,同时根据产品图号可以得到产品BOM信息。 产品BOM信息即该产品的设计信息,包括零件信息、物料进货方式及加工作业方式、工艺信息、图纸信息、层次码、总数量等。其中零件信息主要有:零件图号、零件名称、材料、牌号、外形尺寸等;物料进货方式及加工作业方式主要包括:物料类别(如:配套件、紧固件)、物料进场状态(如:成品、半成品、毛胚)、加工方式(如:自加工、外加工)、加工内容(如:金工、电工);工艺信息即零部件加工的工艺信息;图纸信息包括图纸幅面等;层次码主要用来标注该零部件在产品中的所处位置;总数量即表明该零部件在产品中该层次码下的个数。 相同产品可能会有处于不同层次的相同零部件,不同产品可能会有相同零部件。因此,在所建立的数据仓库基础上,使用数据挖掘技术挖掘出查询条件,从销售的产品中具体细化到销售需求较多的零部件,从而在企业决策时察觉出该情况。通过针对性地制定预投生产计划、增加库存,能够帮助企业提高生产效率,对于市场快速反应,以提高市场占有率。 对于该部分功能,首先可以进行条件查询。查询属性有:产品图号、产品型号、代号、名称、规格尺寸、长度宽度、材料、牌号、年份和客户编号。 从查询属性看,这是多种搜索条件的组合;从数据挖掘角度看,这是在K-均值聚类算法设计的数据仓库基础上开发出来的一个数据挖掘工具。此项功能设计时是从月份出发,将每年的销量按照月份呈现,因此“年份”是必选项,其余条件用户可以自由组合。例如:选择“2012年”,查询结果如图2所示。
该图表示在2012年的销售产品里对零部件数量进行汇总的结果。通过该数据挖掘器,提出了销量最领先的4个零部件。曲线代表其在各月的销售总数及市场需求总数,单位以“百”计。每条曲线代表的零部件图号在图右侧进行了说明。该表示方法直观、清晰,可以给决策者提供明确的零部件市场需求变化曲线图。通过聚类结果可知,“零件图号”为“8UE.016.0211”的零件,从八月开始销量减少,并且其它3种零件在六月开始需求量变大,从而可使决策者在来年制定更合理的方案,以提高企业竞争力。
2.3废料统计情况分析
废料统计情况分析主要是针对生产中由于工人误操作、材料劣质、机器故障等各种原因造成所领物料报废,需要重新领料进行加工的情况进行统计分析。 物料是一个统称,它包括可以直接领的成品、需要再加工的半成品,以及需要加工的原材料。因此,对于物料有一个物料编码,专门对所有可领的成品、半成品、原材料进行唯一标示。物料编码根据零件图号、零件名称、材料、牌号、外形尺寸、物料进场状态、物料类别、加工方式8个字段进行唯一性区分。根据编码方式,产生唯一的物料码,例如“A00B021”。该企业的物料有“定额”和“非定额”两种情况。“定额”即可以用个数来统计的零部件物料;“非定额”指无法用个数来统计的物料,如:5米长的铜线等。具体而言,本文主要研究针对某个工作令从生产开始到生产结束,所有定额物料的生产料废情况。在工作令系统和领料单系统的基础数据库上建立数据仓库。工作令系统的数据库中存有工作令号、起始生产日期、结束生产日期及其它工作令的基本信息。领料单系统数据库中的废料表中存有料废的物料编码、材料、数量等信息。查询属性有:工作令号、合同号、起始时间和终止时间。 填入工作令号“2B7-1D044205”,点击“查询”按钮,会通过数据挖掘方法统计该工作令下的所有零件材料料废情况,如表1所示。
表1清晰表明了该工作令号“2B7-1D044205”中各个物料损失的比重。从表中可以看出,以废料“A03B004”、
“D03E334”和“E17B231”为聚类中心的废料占多数,从而可以使企业决策者从这些材料损失中发现问题,分析物料损耗原因,如:采购质量问题、工人操作失误,还是其它可避免的各类原因。因此,该基于数据仓库的数掘挖掘器,有利于辅助企业决策者从实际生产中找出各类潜在问题,从而制定合理的政策,降低生产损失,提高企业竞争力。
3结语
本文采用数据挖掘技术对数据库中积累的大量数据进行了分析处理,系统虽然实现了将基于K均值算法的数据挖掘技术应用于信息化系统集成平台中,但也只是实现了部分辅助决策功能。根据企业的具体使用情况,决策者肯定不会满足于系统中已经提供的决策支持功能,如何更近一步地发挥系统集成能力,开发更多决策支持功能,提高数据仓库查询速度,以满足企业决策者更多需求,是下一阶段研究的主要方向。
参考文献:
[1]王欣,徐腾飞,唐连章,等.SQL Server2005数据挖掘实例分析[M].北京:中国水利水电出版社,2008:15.
[2]李锐,,曲亚东,等.机器学习实践[M].北京:人民邮电出社,2013:184199.
[3]彭木根.数据仓库技术与实现[M].北京:电子工业出版社,2002:321.
[4]陈文伟.数据仓库与数据挖掘教程[M].第2版.北京:清华大学出版社,2011:190.
[5]孙水华,赵钊林,刘建华.数据仓库与数据挖掘技术[M].北京:清华大学出版社,2012:122.