时间:2023-05-17 16:51:33
导言:作为写作爱好者,不可错过为您精心挑选的10篇数据分析分析技术,它们将为您的写作提供全新的视角,我们衷心期待您的阅读,并希望这些内容能为您提供灵感和参考。
中图分类号:TP3文献标识码:A文章编号:1671-7597(2009)1110077-01
一、引言
联机分析处理(Online Analytical Processing,OLAP)的概念最早是由关系数据库之父E.F.Codd于1993年提出的,OLAP是针对特定问题的联机数据访问和分析。通过对信息(维数据)的多种可能的观察形式进行快速、稳定一致和交互性的存取,允许管理决策人员对数据进行深入地观察。OLAP的目标是满足决策支持或多维环境特定的查询和报表需求,它的技术核心是“维”这个概念,因此OLAP也可以说是多维数据分析工具的集合。
二、OLAP的多维数据结构
数据在多维空间中的分布总是稀疏的、不均匀的。在事件发生的位置,数据聚合在一起,其密度很大。因此,OLAP系统的开发者要设法解决多维数据空间的数据稀疏和数据聚合问题。事实上,有许多方法可以构造多维数据。
(一)超立方结构。超立方结构指用三维或更多的维数来描述一个对象,每个维彼此垂直。数据的测量值发生在维的交叉点上,数据空间的各个部分都有相同的维属性。
这种结构可应用在多维数据库和面向关系数据库的OLAP系统中,其主要特点是简化终端用户的操作。超立方结构有一种变形,即收缩超立方结构。这种结构的数据密度更大,数据的维数更少,并可加入额外的分析维。
(二)多立方结构。在多立方结构中,将大的数据结构分成多个多维结构。这些多维结构是大数据维数的子集,面向某一特定应用对维进行分割,即将超立方结构变为子立方结构。它具有很强的灵活性,提高了数据的分析效率。
一般来说,多立方结构灵活性较大,但超立方结构更易于理解。超立方结构可以提供高水平的报告和多维视图。多立方结构具有良好的视图翻转性和灵活性。多立方结构是存储稀疏矩阵的一个更有效方法,并能减少计算量。因此,复杂的系统及预先建立的通用应用倾向于使用多立方结构,以使数据结构能更好地得到调整,满足常用的应用需求。
许多产品结合了上述两种结构,它们的数据物理结构是多立方结构,但却利用超立方结构来进行计算,结合了超立方结构的简化性和多立方结构的旋转存储特性。
三、OLAP的多维数据分析
多维数据分析是指对以多维形式组织起来的数据采取切片、切块、旋转和钻取等各种分析动作,以求剖析数据,使最终用户能从多个角度、多侧面地观察数据仓库中的数据,从而深入地了解包含在数据中的信息、内涵。多维分析方式迎合了人们的思维模式,因:
(一)切片。定义1:在多维数组的某一维上选定一维成员的动作成为切片,即在多维数组(维1、维2、....维n,变量)中选一维:维i,并取其一维成员(设为“维成员vi”),所得的多维数组的子集(维1,...维成员vi,...,维n,变量)称为在维i上的一个切片。
按照定义1,一次切片一定是原来的维数减1。所以,所得的切片并不一定是二维的“平面”,其维数取决于原来的多维数据的维数,这样的切片定义不通俗易懂。下面给出另一个比较直观的定义。
定义2:选定多维数组的一个二维子集的动作叫做切片,既选定多维数组(维1、维2、....维n,变量)中的两个维:维i和维j,在这两个维上取某一区间或者任意维成员,而将其余的维都取定一个维成员,则得到的就是多维数组在维i和维j上的一个二维子集,称这个二维子集为多维数组在维i和维j上的一个切片,表示为(维i和维j,变量)。
按照定义2,不管原来的维数有多少,数据切片的结果一定是一个二维的“平面”。从另一个角度来讲,切片就是在某个或某些维上选定一个维成员,而在某两个维上取一定区间的维成员或全部维成员。从定义2可知:
1.一个多维数组的切片最终是由该数组中除切片所在平面的两个维之外的其它维的成员值确定的。
2.维是观察数据的角度,那么切片的作用或结果就是舍弃一些观察角度,使人们能在两个维上来集中观察数据,因为人的空间想象力有限,所以,对于维数较多的多维数据空间,进行数据切片是十分有意义的。比照定义1,我们可以将切片的这两个定义联系起来,对于一个n维数组,按定义1进行的n-2切片的结果,就必定对应于按定义2进行的某一次切片的结果。
(二)切块。定义1:在多维数组的某一维上选定某一区间的维成员的动作称为切块,即限制多维数组在某一维的取值区间。显然,当这一区间只取一个维成员时,即得到一个切片。
定义2:选定多维数组的一个三维子集的动作称为切块,即选定多维数组(维1、维2、....维n,变量)中的三个维:维i、维j、维r,在这三个维上取某一区间或任意的维成员,而将其余的维都取定一个维成员,则得到的就是多维数组在维i、维j、维r上的三维子集,我们称这个三维子集为多维数组在维i、维j、维r上的一个切块,表示为(维i、维j、维r,变量)。切块与切片的作用与目的是相似的。
(三)旋转。旋转既是改变一个报告或者页面的维方向。例如:旋转可能包含了交换行与列;或是把某一个行维移到列维,或是把页面显示中的一个维和页面外的维进行交换(令其成为新的行或者列的一个)。
(四)钻取。
钻取处理是使用户在数据仓库的多层数据中,能够通过导航信息而获得更多的细节性数据,钻取一般是指向下钻取。大多数的OLAP工具可以让用户钻取至一个数据集中有更好细节描述的数据层,而更完整的工具可让用户随处钻取,即除一般往下钻取外,随处钻取还包括向上钻取和交叉钻取。
(五)多视图模式。人们发现,获取相同的信息,图形显示所带来的直观性有时是简单的数据表所无法提供的。一个OLAP系统,应当采取多种不同的格式显示数据,使用户能够获得最佳的观察数据的视角。
四、结语
随着数据仓库的发展,OLAP也得到了迅猛的发展。数据仓库侧重于存储和管理面向决策主题的数据,而OLAP则侧重于数据仓库中的数据分析,并将其转换成辅助决策信息。OLAP的一个重要特点是多维数据分析,这与数据仓库的多维数据组织正好形成相互结合、相互补充的关系。将有助于我们解决数据处理中的复杂问题。
参考文献:
中图分类号:TP311 文献标识码:A 文章编号:1009-3044(2016)03-0006-03
为了提升大学物理公共课程的教学水平,更好地了解学生的学习情况,需要引用联机数据技术,通过科学建立模型对教学数据进行处理和分析。维度模型的建立是为了能够全方位地剖析数据。
1 建立数据模型
建立模型是为了更加直观地表达数据和事实。对于同一批数据,人们总是会以不同的角度对其进行观察,这就是维度。维度模型从不同的角度分析数据,最终得出一张事实表。
如图1所示,维度模型包括了教材维度表,学期维度表,教师维度表,学生维度表和教学事实表。为了更好地分析教学效果,维度模型从四个不同的角度进行分析,每一张维度表上都注明了详细的数据内容。最后,在总结四张维度表的基础上,概括了最终的教学事实表。
2 OLAP技术
2.1 数据的采集
原有的Visual和SQL数据库上储存了学生的信息,教师的信息以及教学的数据等等。如图二所示,教务数据库中包含了课程信息表,学生信息表以及选课成绩表。DTS工具能够从不同的数据库中自动抽取需要进行分析的数据,并且将其全部集中在一个新的数据库中。新的SQL数据库既可以储存信息,还能够对信息进行管理。联机分析处理技术从不同的角度分析数据,有助于全面了解学生的学习情况和教师的教学质量。
2.2 数据分析的结构
从图2中可以看出,数据分析的结构包括了四层,其中最底层的是各种信息数据库和文本文件,在此基础上建立数据ETL,然后建立相应的维度模型,最后利用联机分析技术对数据进行分析。采集数据和转换数据是使用联机分析技术的基础,也是必不可少的一步。多维度分析是该结构中的最后一步,最终的结果将会把数据转换成图表的形式呈现出来。
2.3 转换数据
由于不同数据的语法可能存在差异,因此,把不同的数据转换成相同的结构显得尤为必要。在联机分析技术应用的过程中,转换数据是关键的一步,能否成功转换数据,决定了维度模型的建立是否具有科学性与全面性。转换数据是为了解决语法,语义结构不同引起的问题。
和数据语义不同相比,处理不同语法的数据显得更为简单。如果数据本身和目标数据之间存在语法结构不同的问题,那么只需要通过函数对其进行转换即可。一般来说,数据本身的内容并不会影响转换过程,只要建立原数据和目标数据之间的对应关系,就能解决数据名称存在冲突的问题。例如,学生数据库本身的信息包括了学生的ID和班级,这就相当于最终目标数据中学生对应的名称和班别。如果数据类型不同,可以运用相应的函数对其进行转换,例如trim()函数就能完成数据的转换。下面是利用函数对原数据中学生的ID,专业以及院名进行转换的过程,其转换代码如下:
Function Main()
DTSDestination(“ID”)=trim(DTSSourse(“名称”))
DTSDestination(“专业”)=cstr(DTSSourse(“专业”))
DTSDestination(“院名”)=trim(DTSSourse(“学院”))
Main=DTSTransformStat_OK
End Function
转换不同语义结构的数据是一个复杂的过程,它需要重视数据本身的信息和内容。因此,仅仅通过一步完成数据转换的过程是几乎不可能的,它需要将原数据进行一次次转换,才能得到最终的目标数据。例如每一个教师都有以及开展项目,在原数据中只能看到项目的名称和论文的名称,如果需要将其转换成教师的论文数量和项目数量,则需要经过两步的数据转换。
2.4 数据结果分析
原数据从SQL中提取出来,然后通过函数对其进行转换,最后利用联机分析技术进行数据管理和分析,从不同的角度研究数据,从而全面分析学生的学习情况和教师的教学情况。数据分析的方法有很多种,其目的都是为了全方位地剖析数据。
2.4.1 高校教师教学质量的对比分析
在教师维度表中,我们已经按照教师的从业年龄,学历以及职称对其进行划分,不同职称的教师,其教学质量有着明显的区别。教师的学历不同,教龄有所差异,这都和教学效果息息相关。
2.4.2 不同时期对教学质量的影响分析
联机分析处理技术能够从多角度分析数据,教学质量不可能是一成不变的,它与多个因素密不可分,时间也是其中一个因素。在不同的时期,由于政策的变动和外界因素的影响,教师的教学质量也会随之而受到不同程度的影响。
2.4.3 教学质量和其他因素息息相关
除了时间和教师的水平会对教学质量造成一定的影响,还有其他因素同样会影响教学效果,例如:学生的学习能力,学校选用的课本等。综合考虑各个因素对教学效果的影响,有利于教育部门更好地作出相应的政策调整。
3 计算机分析处理技术中的数据处理方法分析
无可置疑,计算机技术的出现颠覆了人们传统的思想和工作模式。如今,计算机技术已经全面渗透到我们生活中和工作中的各个方面。不管是在工业生产还是科研数据处理中,计算机技术都发挥着不可替代的作用。如今我们需要处理的数据正与日俱增,这就意味着传统的数据处理方法已经无法满足人们的需求了。仪表生产和系统控制要求数据具有高度精确性,这些数字在显示之前,都必须经过一系列的转换,计算以及处理。首先,数据会以一种形式经过转换器,然后变成另一种新的形式,只有这样计算机才能对数据进行处理和分析。处理数据是一个复杂多变的过程,它的方法并不是单一的,根据数据处理的目标不同,需要选择不同的数据处理方法。例如,有的数据需要进行标度转换,但有些数据只需要进行简单计算即可,计算机技术的不断进步是为了更好地应对人们对数据处理新的需要。
计算机数据处理技术的应用离不开系统,它比传统的系统更加具有优越性:
1)自动更正功能,计算机系统在处理数据时,对于计算结果出现的误差能够及时修正,确保结果的准确度。
2)传统模拟系统只能进行数据的简单计算,而计算机系统则能够处理复杂多变的数据,其适用范围和领域更加广。
3)计算机系统不需要过多的硬件,只需要编写相应的程序就能够完成数据的处理,在节省空间的同时也降低了数据处理的成本。
4)计算机系统特有的监控系统,能够随时监测系统的安全性,从而确保数据的准确度。
对于不同的数据,往往需要采用不同的处理方式,处理数据的简单方法包括查表,计算等。除此之外,标度转换,数字滤波同样是应用十分广的处理技术。
3.1 数据计算
在各种数据处理方法中,计算法是最为简单的一种,利用现有的数据设置程序,然后直接通过计算得出最终的目标数据。一般来说,利用这种方法处理数据需要遵循一个过程:首先,求表达式,这是计算法最基本的一步;其次,设计电路,在此之前必须将转换器的位数确定下来;最后,利用第一步已经求出的表达式运算数据。
3.2 数据查表
3.2.1 按顺序查表格
当需要搜索表格中的数据时,往往需要按照一定的顺序和步骤。首先,明确表格的地址和长度,然后再设置关键词,最后按照顺序进行搜索。
3.2.2 通过计算查表格
这是一种较为简单的方法,适用范围并不广。只有当数据之间表现出明显的规律或者数据之间存在某种关系时,才能够使用这种方法查表格。
3.2.3 利用程序查表格
相比于上述的两种方法,利用程序查表格是一种相对复杂的方法,但是这种方法的优点在于查找效率高,并且准确度高。
3.3 数据滤波处理
采集数据并不难,但是确保每一个数据的真实性却十分困难,尤其是在工业系统中,数据的测量难以确保绝对准确,因为在测量的过程中,外界环境对数据的影响往往是难以预估的。为了提高数据处理的精确度和准确率,需要借助检测系统对采集的数据进行深加工。尽可能地让处理的数据接近真实的数据,并且在数据采集的过程中最大限度地减少外界因素对其的影响,从而提高计算结果的准确度。
滤波处理技术的应用首先要确定数据的偏差,一般来说,每两个测量数据之间都会存在一定的误差,首先需要计算数据与数据之间可能出现的最大误差。一旦超出这一数值,可以认定数据无效,只有符合偏差范围内的数据,才能进行下一步的处理。
为了减少由于外界影响导致数据失真的情况,利用程序过滤数据是很有必要的。滤波技术有几种,根据不同的需要可以选择相应的数据处理技术,每一种数据滤波技术都有其适用范围和优点。数据滤波技术包括算术平均值滤波,加权平均值滤波,中值滤波,限幅滤波,限速滤波以及其他类型的滤波技术。
3.4 转换量程和标度
在测量数据的过程中,每一种参数都有相应的单位,为了方便数据处理,需要使用转换器把数据转换为统一的信号。标度转换是必不可少的,为了加强系统的管理和监测,需要不同单位的数字量。转换方法包括非线性参数标度变换,参数标度变换,量程转换,这几种转换方法在数据处理的过程中较为常见。当计算过程遇到困难,可以结合其他的标度转换方法进行数据处理。
3.5 非线性补偿计算法
3.5.1 线性插值计算方法
信号的输入和输出往往会存在一定的关系。曲线的斜率和误差之间存在正相关关系,斜率越大,误差越大。由此可见,这一计算方法仅仅适用于处理变化不大的数据。当曲线绘制选用的数据越多,曲线的准确程度越高,偏差越小。
3.5.2 抛物线计算方法
抛物线计算方法是一种常用的数据处理方法,只需要采集三组数据,就可以连成一条抛物线。相比于直线,抛物线更加接近真实的曲线,从而提高数据的准确度。抛物线计算法的过程,只需要求出最后两步计算中的M值,就能够直接输入数据得出结果。
3.6 数据长度的处理
当输入数据和输出数据的长度不一,需要对其进行转换,使数据长度达到一致。由于采集数据所使用的转换器和转换数据所选择的转换器不同,因此,当输入位数大于输出位数,可以通过移位的方法使位数变成相同。相反,当输入位数少于输出位数时,可以使用填充的方法将其转换成相同的位数。
4 结语
本文对联机分析技术进行了详细的论述,该技术的应用对于评价教学效果有着重要的意义。在物理公共课程中,教学数据数量巨大,如果利用传统的方法对其进行分析,将会耗费大量的人力物力,而采用OLAP技术则能更加快速准确地分析处理数据。数据分析是评估教学质量必经的过程,而使用QLAP技术是为了能够多层次,全方位地分析各个因素对教学质量的影响,从而更好地改进高校教育中存在的不足。除了分析物理课程数据,联机分析技术同样适用于其他课程的数据处理和分析。
参考文献:
1.1信息安全分析引入大数据的必要性
大数据具有“4V”的特点:Volume、Variety、Velocity和Value,可实现大容量、低成本、高效率的信息安全分析能力,能够满足安全数据的处理和分析要求,将大数据应用于信息安全领域能够有效的识别各种攻击行为或安全事件,具有重大的研究意义和实用价值。随着企业规模的增大和安全设备的增加,信息安全分析的数据量呈指数级增长。数据源丰富、数据种类多、数据分析维度广;同时,数据生成的速度更快,对信息安全分析应答能力要求也相应增长。传统信息安全分析主要基于流量和日志两大类数据,并与资产、业务行为、外部情报等进行关联分析。基于流量的安全分析应用主要包括恶意代码检测、僵木蠕检测、异常流量、Web安全分析等;基于日志的安全分析应用主要包括安全审计、主机入侵检测等。将大数据分析技术引入到信息安全分析中,就是将分散的安全数据整合起来,通过高效的采集、存储、检索和分析,利用多阶段、多层面的关联分析以及异常行为分类预测模型,有效的发现APT攻击、数据泄露、DDoS攻击、骚扰诈骗、垃圾信息等,提升安全防御的主动性。而且,大数据分析涉及的数据更加全面,主要包括应用场景自身产生的数据、通过某种活动或内容“创建”出来的数据、相关背景数据及上下文关联数据等。如何高效合理的处理和分析这些数据是安全大数据技术应当研究的问题。
1.2安全大数据分析方法
安全大数据分析的核心思想是基于网络异常行为分析,通过对海量数据处理及学习建模,从海量数据中找出异常行为和相关特征;针对不同安全场景设计针对性的关联分析方法,发挥大数据存储和分析的优势,从丰富的数据源中进行深度挖掘,进而挖掘出安全问题。安全大数据分析主要包括安全数据采集、存储、检索和安全数据的智能分析。(1)安全数据采集、存储和检索:基于大数据采集、存储、检索等技术,可以从根本上提升安全数据分析的效率。采集多种类型的数据,如业务数据、流量数据、安全设备日志数据及舆情数据等。针对不同的数据采用特定的采集方式,提升采集效率。针对日志信息可采用Chukwa、Flume、Scribe等工具;针对流量数据可采用流量景象方法,并使用Storm和Spark技术对数据进行存储和分析;针对格式固定的业务数据,可使用HBase、GBase等列式存储机制,通过MapReduce和Hive等分析方法,可以实时的对数据进行检索,大大提升数据处理效率。(2)安全数据的智能分析:并行存储和NoSQL数据库提升了数据分析和查询的效率,从海量数据中精确地挖掘安全问题还需要智能化的分析工具,主要包括ETL(如预处理)、统计建模工具(如回归分析、时间序列预测、多元统计分析理论)、机器学习工具(如贝叶斯网络、逻辑回归、决策树、随机森利)、社交网络工具(如关联分析、隐马尔可夫模型、条件随机场)等。常用的大数据分析思路有先验分析方法、分类预测分析方法、概率图模型、关联分析方法等。可使用Mahout和MLlib等分析工具对数据进行挖掘分析。综上,一个完备的安全大数据分析平台应自下而上分为数据采集层、大数据存储层、数据挖掘分析层、可视化展示层。主要通过数据流、日志、业务数据、情报信息等多源异构数据进行分布式融合分析,针对不同场景搭建分析模型,最终实现信息安全的可管可控,展现整体安全态势。
2安全大数据分析的典型应用
2.1基于用户行为的不良信息治理
中国移动开展了基于大数据的不良信息治理工作,主要针对垃圾短信和骚扰诈骗电话开展基于异常行为的大数据分析。通过开源工具Hadoop、HDFS、Pig、Hive、Mahout、MLlib搭建大数据分析平台,采集用户的行为数据,构建用户行为分析模型;分别提出了异常行为分类预测模型、统计预测分析模型、社交网络分析模型等,将用户的行为数据输入到模型中,可以精准地挖掘出违规电话号码,并且发现违规号码与正常号码之间存在大量相异的行为特征。通过用户的行为,构建多维度的用户画像数据库,支撑全方位的大数据不良信息治理服务,支撑大数据不良内容的智能识别等。实践表明,大数据分析技术能够挖掘出更多潜在的违规号码,是对现有系统的有效补充。除此之外,中国移动还将大数据技术应用在安全态势感知、手机恶意软件检测和钓鱼网站的分析中,提升了现有系统的分析能力。
2.2基于网络流量的大数据分析
在互联网出口进行旁路流量监控,使用Hadoop存储及Storm、Spark流分析技术,通过大数据分析技术梳理业务数据,深度分析所面临的安全风险。主要分析思路是采集Netflow原始数据、路由器配置数据、僵木蠕检测事件、恶意URL事件等信息,采用多维度分析、行为模式分析、指纹分析、孤立点分析及协议还原等方法,进行Web漏洞挖掘、CC攻击检测、可疑扫描、异常Bot行为、APT攻击、DDoS攻击挖掘等分析。
2.3基于安全日志的大数据分析
基于安全日志的大数据分析思路主要是融合多种安全日志,进行数据融合关联分析,构建异常行为模型,来挖掘违规安全事件。主要的安全日志包含Web日志、IDS设备日志、Web攻击日志、IDC日志、主机服务器日志、数据库日志、网管日志、DNS日志及防火墙日志等,通过规则关联分析、攻击行为挖掘、情景关联分析、历史溯源等方法,来分析Web攻击行为、Sql注入、敏感信息泄露、数据分组下载传输、跨站漏洞、尝试口令破解攻击等应用场景。基于安全日志的大数据分析已经在国际上有广泛的应用。如IBMQRadar应用整合分散在网络各处的数千个设备端点和应用中的日志源事件数据,并将原始安全数据进行标准化,以区别威胁和错误判断;IBMQRadar还可以与IBMThreatIntelligence一起使用,提供潜在恶意IP地址列表,包括恶意主机、垃圾邮件和其它威胁等;IBMQradar还可以将系统漏洞与事件和网络数据相关联,划分安全性事件的优先级等。ZettaSet海量事件数据仓库来分析网络中的安全漏洞和恶意攻击;Zettaset主要包括Orchestrator和SDW(SecurityDataWarehouse,安全数据仓库)。Orchestrator是端到端的Hadoop管理产品,支持多个Hadoop分布;SDW是构建在Hadoop的基础上,并且基于Hive分布式存储。SDW于2011年BlackHat网络安全会议面世,SDW可从网络防火墙、安全设备、网站流量、业务流程以及其它事务中挖掘安全信息,确定并阻止安全性威胁。处理的数据质量和分析的事件数量比传统SIEM多;对于一个月的数据负载,传统SIEM搜索需要20~60min,Hive运行查询只需1min左右。
2.4基于DNS的安全大数据分析
基于DNS的安全大数据分析通过对DNS系统的实时流量、日志进行大数据分析,对DNS流量的静态及动态特征进行建模,提取DNS报文特征:DNS分组长、DNS响应时间、发送频率、域名归属地离散度、解析IP离散度、递归路径、域名生存周期等;基于DNS报文特征,构建异常行为模型,来检测针对DNS系统的各类流量攻击(如DNS劫持、DNS拒绝服务攻击、DNS分组异常、DNS放大攻击等)及恶意域名、钓鱼网站域名等。
2.5APT攻击大数据分析
高级可持续性威胁(APT)攻击通过周密的策划与实施,针对特定对象进行长期的、有计划的攻击,具有高度隐蔽性、潜伏期长、攻击路径和渠道不确定等特征。现已成为信息安全保障领域的巨大威胁。“震网”潜伏3年,造成伊朗纳坦兹核电站上千台铀浓缩离心机故障。收集业务系统流量、Web访问日志、数据日志、资产库及Web渗透知识库等,提取系统指纹、攻击种类、攻击时间、黑客关注度、攻击手段类型、行为历史等事件特征,再基于大数据机器学习方法,发现Web渗透行为、追溯攻击源、分析系统脆弱性,加强事中环节的威胁感知能力,同时支撑调查取证。
中图分类号TP392 文献标识码A 文章编号 1674-6708(2013)86-0119-02
在科学技术飞速进步的当今世界,石油一直是世界上最主要的供能能源,随着石油化工产业的不断进步与发展,石油化工检测也迅速成长起来。在化工领域里,石油化工原料也被广泛的应用于各个部门,它是决定各个部门发展进度的至关重要的因素。因此,石油化工检测的发展与成长也是必然的结果。
1 石油化工检测
石油化工检测是一门复合技术,其将电子、自动化、信息处理、控制工程、计算机等多门学科有机的融为一体,并将其广泛的应用于生产自动化过程以及石油化工领域自动化装备中。在石油化工原料的生产过程中,有毒或者易燃易爆气体随时都存在泄露的危险,有些严重的泄露事件甚至会威胁工人的生命财产安全,所以石油化工产业亦是一个高危产业。面对这些不容忽视的安全问题,严密的检测程序在石油化工生产的过程中是必不可少的一个重要环节。随着科学信息技术的飞速发展,检测手段也在不断的进行推陈出新,在其有机的结合了化学、物理、电机学、计算机和现代光学技术后,检测技术也有了质的飞跃。
如今在石油化工检测的过程当中,出现了许多如无损失检测等的新设备,这些现代化科技设备的广泛投入与应用,无一不说明了石油化工产业的重要性。在如今的石油化工产业中,一个新兴的概念正在逐步被人们所接受,它就是安全检测体系以及安全评价。其中安全评价是经由安全系统工程原理以及工程技术方法,对系统中有可能存在的危险性或固有危险性进行全面分析,也称风险评价和危险性评价,其包含危险性确认以及危险性评价两个方面。我们也应当全面深入的找寻其可能存在的危险源,并对其进行认真的校对与考核。与此同时,我们还应该对可能产生的后果进行分析与预测,并与当今社会上工人的安全指标进行认真比对,其值若在安全值范围以内,便可认为其安全;若在安全值以外,则认为其不安全,我们应当对其采取适当的措施,从而减少或者避免危险发生的可能性。
2数据检测方法
2.1安全检查表法数据分析
石油化工产品系数一般在一个安全的系数范围之内,根据实验发现,这些所测的数据互相独立,互不影响,所以这些数据呈现正态分布,所以检测的数据应该在该分布范围之内。所谓安全检查表法,就是通过抽样数据,通过SPSS软件计算出各数据之间的平均值以及标准方差,通过比较所测数据是否在平均值所在的标准方差范围之内。通过检验数据核对来衡量该数据值是否在安全检测范围之内。在分析的过程中,可以将其与标准平均值的偏差与安全检测标准方差的比值对其进行赋分,如果大于1说明偏差太大,产品不在安全范围之内,如果为0,则产品在安全范围之内。
2.2预先危险性数据分析
在数据统计过程中,有一种分析方法为数据拟合,可对数据回归分析,利用回归分析函数,预见系统的危险性。常用的数据回归分析方法为二元Logistic回归分析与曲线拟合分析。比如通过统计分析先前发生的事故的传统安全数据系数,对安全系数数据进行二元回归拟合,得到输入函数,通过输入函数来预见产品的危险性,以此来对产品做出相关的概括性评价统计,对于有害成分,触发条件进行评价。预先危险性数据分析可以应用到石油原油品质分析中去。
2.3故障影响因素数据分析
在石油化工作业中,经常会出现一些故障,这些故障发生的概率随着工艺过程,各不相同,对于发生某次故障,或者发生变质产品,肯定会有主要因素,但是如何才能得到主要因素,可以利用方差分析,利用方差分析是以两个样本作为比对对象,通过比对对象,来得到在一定置信区间内的主要影响因素,分析的数据统计量需要满足,各统计量之间符合正态分布,显然影响因素之间是相对独立,符合方差分析要求。通过统计数据,进行方差分析,可以得到影响故障的主要因素,继而对其进行评价。方差分析可以利用到石油管道故障,自动化仪表故障的主要因素分析中去。
2.频率分析
石油化工检测过程中,往往会发生不同类事故,多次发生,我们可以统计这些数据的频率,通过频率分析,进行参数估计,归纳其分布状态,可以看出其是否在置问之内。常用的方法为频率分析法。频率分析,可以检测发生事件的集中趋势,离散程度以及分布偏度与峰度,通过模拟分布图,可以有效判断事件发生的合法性概率。事件频率分析应用较广,可应用到成品油质量分析以及主要设备故障分析中。
3 结论
数据分析应用较广,如今的市场上存在着许多工作原理大同小异的有关于石油化工检测的设备,这些设备最终的目的均是为了保障石油化工的安全生产,但其实这只是石油化工检测的冰山一隅。怎样使正在上升的石油化工产业进行相对安全的生产,使其事故率降到最低,是石油化工产业在未来发展中,至关重要的核心问题。为了能更好的适应我国石油化工检测的发展,我们可以针对我国石油化工产业发展的特点进行软件开发。在其开发以及研究发展的过程中,国家应当出台一些相应的倾斜优惠政策,这样便会是这个新兴的、充满活力的产业迅速茁壮成长起来。
参考文献
[1]李建,余昌斌.浅论石油化工检验概况[J].科学之友,2010(4).
[2]魏天飞. 展望先进的产品检测技术——访梅特勒-托利多产品检测部门销售经理John Coleman[J].中国包装工业,2011(9).
随着时间的推移,用电信息采集系统中存储的数据总量会线性递增,庞大的信息储备在反映信息愈加全面的同时增加了信息分类和处理的难度,所以其分析和处理技术需要随着时代的发展不断深化。
1 用电信息采集系统数据分析
由于用电信息采集系统内的信息会随着时间的推移而不断增多,所以需要通过分类处理的形式对庞大的信息量进行逐层处理,这样才可以提升系统对数据库的处理效率,目前用电信息采集系统以时间为划分标准,将信息分为以下三类:1类数据实时数据不具有时间序列属性,通常只针对其更新而很少查询,由于数据量庞大,其通常只具有15分钟的实效,总加数据、测量点数据、终端数据是其主要形式,在存储的过程中应根据其不同的物理对象选择与其相应的存储表;2类数据其主要显示用电户在过去一段时间内的用电信息,为预付费管理、用电情况统计等工作提供数据支持,其与1类数据不同具有时间序列属性,而且更新少而查询多,15分钟至1小时,1日、一个月等都可根据实际需要作为周期,其在存储的过程中也可以根据不同的物理对象,选择不同的存储表;3类数据包括参数丢失或变更、回路异常、电能表显示出现偏差等情况,由于其不同时间的发生频率、使用方式等都存在差异,所以在存储的过程中应单独分表,将用电信息按照属性进行划分极大地提升了采集系统的工作效率。
2 用电信息采集系统数据处理技术
用电信息采集系统其要同时对多种通信通道和终端进行管理,从而实现对用电户用电信息管理、负荷及预付费控制,所以其并非单一计算机节点可独立完成,需要以下技术辅助其实现如图1所示。
2.1 集群技术
主要应用于系统中的核心部位,例如数据库、数据采集等,其主要是将多个独立但都处于高速网络中的计算机连接成一个整体,并通过单一系统对整体进行管理控制,利用集群技术可以实现大运量计算,目前主要应用的集群技术主要有主/主和主/从两种状态,其主要区别是当一个节点处于正常工作状态时是否需要有另一个节点处于备用状态,利用集群技术大幅度的提升了系统对数据的计算能力,从而提升了系统的数据处理效率及准确性。网络负载均衡技术,在实际操作中系统要处理大量的数据,用户等待系统反应的时间通常较长,而网络负载均衡技术的出现实现了对大量并发访问、数据流量合理均等的分配至多台节点设备,从而实现多台设备同时进行数据处理,使原本复杂的数据处理任务被合理分化,不仅缩短了处理时间,而且有效的降低了系统在处理过程中出现信道堵塞的概率,提升了系统数据处理的性能,在响应请求方面得到优化。
2.2 内存数据库技术
是优化系统数据处理能力的重要途径,内存数据库技术实现了采集的信息直接在内存中存储,从而利用内存随机访问的特点,在信息读写速度方面进行优化,使数据信息的访问性能得到提升,此项技术在数据缓存、数据算法等方面进行了针对性的设计,使系统的信息处理速度提升十倍以上,为实时查询提供了可能,极大地促进了后付费和预付费的融合,使系统数据处理性能得到完善。批量数据处理技术,由于在实际工作中由于系统需要对大量的数据进行分类处理,逐个信息处理的可行性非常低,需要对大批量数据进行集中处理,但在应用批量数据处理技术的同时要对数据库的表结构、SQL语句进行优化处理并对数据库中的数据表合理管理,例如将个体数据表的数据量限制在2GB以内,确保其访问性能不受影响;将数据按照分类存储于不同的磁盘,保证查询质量;在优化SQL语句时尽量保证带有参数等,只有数据库性能良好,批量数据处理技术才可以应用,不然会适得其反。
2.3 SAN存储技术
随着系统采集数据量的增加,以服务器为中心的处理模式会严重影响网络性能,从而影响系统对数据的处理效率,所以将备份和传输不占用局域网资源的SAN技术引入到系统处理中非常具有现实意义,其以光纤通道为途径,使信息存储不再受距离和容量的限制,系统的信息采集性能得到有效提升。ODI技术,在实际工作中有时需要对某一类信息进行集中处理,而系统中的数据复杂散落不易处理,所以需要将同类信息按模块分类存储,ODI存储技术恰好是以模块或储存库为核心而展开的应用技术,它将系统的数据库分为一个主存储库和多个有关联的工作存储库,数据处理人员利用ODI存储技术可以根据实际情况制定存储模块或对存储模块内部信息进行更改,从而实现批量数据处理脚本的集中管理,使批量处理的效率大幅度提升。
3 结论
目前电力用户用电信息采集系统不仅要实现准确、全面、及时的采集数据,而且要高效、准确的对采集的信息进行计算处理,以供相关部门的查询和应用,所以在优化系统存储空间的同时,要加大系统对数据处理的能力。
参考文献
[1]朱彬若,杜卫华,李蕊.电力用户用电信息采集系统数据分析与处理技术[J].华东电力,2011,12(10):162-166.
[2]董俐君,张芊.数据处理与智能分析技术在用电信息采集系统中的应用[J].华东电力,2013,12(27):255-256.
所谓大数据,一方面是指在一定时间内无法被常规信息技术和传统数据库管理软硬件工具感知、获取和处理的巨量数据集合;另一方面,是指形成、管理、挖掘大数据, 快速搜集、处理、分析大数据的技术和能力。
大数据的主要特点是海量、非结构化和半结构化、实时处理。大数据技术,或大数据分析技术,就是对这些数量巨大的海量数据进行搜索、整理、分析、加工,以便获得有价值的产品和服务,以及提炼出具有深刻见解和潜在价值信息的技术和手段。
1 大数据分析在公共交通中的应用
交通拥堵日益严重,交通事故频繁发生,这些都是各大城市亟待解决的问题,科学分析交通管理体系成为改善城市交通的关键所在。因此,高效、准确地获取交通数据是构建合理城市交通管理体系的前提,而这一难题可以通过大数据管理得到解决。
大数据分析技术改变了传统公共交通的路径:大数据可以跨越行政区域的限制;大数据可以高效地整合交通信息;大数据可以较好地配置公共交通资源;大数据可以促进公共交通均衡性发展。在大数据中,随着数据库摄入更多数据,所消耗的计算工作量反而递减,配置成本也随之减小,但所做的计算则更加精准。大数据在公共交通中的应用表现在:一旦某个路段发生问题,能立刻从大数据中调出有用信息,确保交通的连贯性和持续性;另一方面,大数据具有较高预测能力,可降低误报和漏报的概率, 可随时针对公共交通的动态性给予实时监控。因此,在驾驶者无法预知交通拥堵的可能性时,大数据可帮助用户预先了解。
2 大数据分析在医药领域中的应用
在医学领域,我们正处在一医学信息爆炸的时代。基因序列、各种医学图像、电子病历记录和多中心临床药物试验等,使生物医学领域跨入网络化的大数据时代。如何从医疗大数据中提取出有用的信息是目前亟待解决的问题,构建医疗大数据系统需要将各家医院通过互联网连接,实现各家医院之间的数据共享。将医疗数据存于专门的数据库中,在信息协作平台上将各种医疗信息分类整合,建立成一个相互共享的网络,从而实现医疗数据信息的共享。
大数据技术的核心就是预测,使用大数据分析技术可以提高诊断疾病的准确率,对有效地治疗疾病具有重要价值。其中最好地体现在传染病预测上,因为传染病的发生、发展、分布与地理地貌、生态景观、人文环境有密切关系,特别在全球气候变化和经济全球化背景下,自然环境及人类社会活动对传染病的影响越来越重要。因此,时间和空间信息对传染病的预测、预警具有重要意义。利用大数据可对传染病疫情的时间、空间信息进行多维搜索,检索、处理和分析这些疫情信息可实现对传染病的流行趋势及影响范围进行预测、预警,对提高传染病防控的针对性、预见性和主动性,抑制流行病的蔓延,以及制定卫生决策都具有十分重要的意义。
3 大数据分析在移动通信网络优化中的应用
当前的大数据技术面临着数据过大和安全隐患越多这两个问题。在移动通信网络发展的过程中,网上用户在不断增加,通信网络的范围在不断扩大, 而移动通信网络所产生的数据量也在不断上升。大数据技术和移动通信网络的安全问题密切相关,一旦技术出现漏洞,移动通信网络的数据就会出现安全隐患。大数据技术中存储功能的是云储存技术,它将大量的网络数据放在统一的平台之上,加大了数据丢失的风险,影响移动通信网络的安全。
优化移动通信网络,需要运用大数据技术的储存功能。移动通信网络的用户在不断变化,每天都要更新大量的数据,而且这些数据都需要进行妥善管理和保存。在这一过程中,可以应用大数据技术的存储功能, 将存储虚拟化作为解决存储问题的有效策略。
优化移动通信网络,需要获取相关的数据信息。移动通信网络的用户非常多,而且其所跨越的时间、空间维度都很大,这些用户在移动通信网络留下的海量的数据信息,使数据获取工作难以继续。在进行数据的获取和收集工作时,移动通信网络可以应用大数据技术,减少人力和物力的投入,同时增加数据的准确度。
4 结语
本文是大数据技术在实际生活领域的应用,分别阐述了大数据分析技术在公共交通、医药领域、移动通信网络优化中的具体运用。借助大数据技术的即时性、准确性和预测性,将其应用到人们的日常生活领域,提高了人们的生活质量。
参考文献
[1]陈美.大数据在公共交通中的应用[J]. 图书与情报,2012(06):22-28.
[2]张春丽,成.大数据分析技术及其在医药领域中的应用[J].标记免疫分析与临床,2016(03):327-333.
[3]汪敏,廖名扬.大数据分析在移动通信网络优化中的应用研究[J].通讯世界,2017(02):123.
[4]祝兴平.大数据分析技术及其在数字出版中的应用[J].出版发行研究,2014(04):13-16.
[5]程学旗,靳小龙,王元卓,郭嘉丰,张铁赢,李国杰.大数据系统和分析技术综述[J]. 软件学报,2014(09):1889-1908.
作者简介
中图分类号:TM76 文献标识码:A 文章编号:1007-9416(2017)02-0117-01
1 云计算在大数据分析技术探究
1.1 SQL语句
云计算系统的使用中,主要应用SQL语句对电力系统中的信息资源进行存储,例如:电力供应系统中检测电力输送系统中,电流应用总量,电流输送区域的大小[1],电力时速送管理人员为了达到电力供应的合理性分配,应用云计算进行电流输送的系统化分配,云计算系统结合计算机应用系统的相关数据,实现电力系统的资源供应与电力资源区域性分配快速处理,从而到达电力供应系统的资源供应的数据信息处理结构科学性的划分。此外,SQL语句执行电力系统的大数据信息时系统主要采用相对完善的SQL系统化程序,避免系统数据的应用信息安全,避免应用信息在使用受到外界病毒的直接入,实现了电力系统信息资源处理的安全性、系统性、科学性发展。
1.2 分层次处理技术
云计算系统的应用,采用分层次处理技术对计算机处理系统进行系统处理,实现电力系统中建立的电力信息收集、电力信息存储、电力数据应用的结构化管理,依据电力供应中大数据管理系统进行系统分支化管理,从而达到电力系统资源在电力供应各个系统之间相互联系,又相互对立,云计算强大的SQL系统可以实现电力系统的大数据同一时间内的分析计算。大大提高了电力供应系统的数据处理速率,同时也保障我国电力系统数据处理的层次化管理[2]。
1.3 数据处理检测技术
云计算在电力系统大数据处理技术中的应用,采用算机数据处理检测技术,云计算系统中计算机应用处理技术采用计算机自动化处理系统,系统内部能够依据电力系统的处理信息,形成SQL系统语句检测系统,完善计算机自动化处理空间,使电力供应系统的数据处理结构可以得到应用系统的数据应用保障,实现我国电力管理系统的进一步智能化发展。
2 从云计算的优势分析应用
2.1 处理速率快
云计算是现代计算机系统逐步开发的重要体现。云计算系统的运行以计算机内部数据处理系统为基础,同时结合虚拟数据挖掘,进行计算机系统的进一步完善,虚拟空间的综合性应用,实现了云计算在电力大数据信息处理中,云计算的系统计算处理速率快,云计算的实现避免了传统计算机大数据的整体性计算,而是采用计算机系统中SQL语句[3],保障计算机系统运行中,将整体化大数据分割成不同层次数据,从而实现系统数据的综合性运行,大大提高了计算机系统运行的计算缩率。
2.2 兼容性强
云计算在电力供应中的应用,实现了电力系统供应中大数据处理技术的兼容性提高,云计算的计算方式主要应用分布式处理系统对大数据信息进行控制,从而可以实现多种电力处理系统的信息管理资源在整体应用中的综合性探索[4],例如:当电力大数据分析系统中的输送电力系统的信息资源在初期存储中受到严重的损坏,无法对后期的电力系统信息处理提供完善的信息资源,云计算能够通过语句处理,实现对电力供应系统的大数据分析系统进行调节与控制,系统中也可以将电力系统中,多种电力输送系统的资源形式在同一种电力大数据处理系统中进行调节控制,完善不同的信息资源处理。由此可见,云计算在电力大数据处理系统中的应用,为提高电力系统的信息应用范围额进一步完善提供新的技术支持。
2.3 数据存储空间性大
云计算技术电力系统大数据处理中的应用,拥有数据存储空间性大的特点。电力资源作为社会发展的主要动力之一,在社会中的应用范围得到进一步提高,较大的电力资源容量为电力系统建设的进一步完善带来问题。云计算采用虚拟空间存储技术,数据计算的存储空间也主要应用虚拟空间,为电力系统的大数据处理系统的综合性应用提供了较大的存储空间,能够保障逐步扩大的电力系统中大数据处理的完整性[5]。
3 结语
云计算系统是现代计算机系统的主要分支,云计算中应用SQL系统,分层次处理系统以及数据智能化检测系统实现了系统资源的综合性应用,对云计算在电力大数据分析技术的探究,实现了电力系统的信息管理结构逐步完善,为我国电力管理系统的进一步发展提供技术支持。
参考文献
[1]彭小圣,邓迪元,程时杰,文劲宇,李朝晖,牛林.面向智能电网应用的电力大数据关键技术[J/OL].中国电机工程学报,2015(03).
[2]吴凯峰,刘万涛,李彦虎,苏伊鹏,肖政,裴旭斌,虎嵩林.基于云计算的电力大数据分析技术与应用[J].中国电力,2015,02:111-116+127.
中图分类号:TP393 文献标识码:A
1 引言
在信息时代,信息技术的快速发展对社会各个领域都产生了一定的影响,在电子商务中反映尤为突出。对于学校教务系统的应用相对较晚,但教务数据对学校而言,是最基本的数据,这些数据的保留是学校运作的根本。对教务数据的分析也是对学校教学效果的评定,能够从庞大的教务数据中挖掘出更潜在的信息,既是对学校运行状况的更深入了解,又有利于学校对未来发展方向的决策。
2 教务管理状况分析
教务管理不仅是处理学校的日常事务,它更重要的作用体现在可以反映学校的教学效果和分析学校培养方向的正确性,并以此帮助学校向更好的方向发展。教务数据分析的处理到目前为止经历了人工和计算机处理的两大阶段。
2.1 人工处理阶段
为了反映较大范围教务情况的整体特征,教务部门通常要付出庞大的人力和物力收集和分析大量数据。这个数据的收集通常要经历一个较长的时间,间隔一段时间还必须重复执行。比如开课计划、学生成绩、教室使用情况等。然而,分析收集来的海量数据更是教务部门头疼的一件事。
还没有出现计算机前,光靠人工来处理数据有时还会面临这样的窘境:上一期的数据结果还没分析出来,下一期的数据收集又要开始了,因此整个数据收集和分析工作变得没有任何意义。另外,有些数据需要间隔一段时间重新收集,然后进行短期和长期的分析数据。比如成绩分析,若按照4年制本科为一个分析周期。首先,每学期教务部门要进行一次短期成绩分析。其次每学年教务部门就需对即将毕业的本科前4年的所有成绩做一次中长期成绩分析。然而,如果学校还需了解长期以来各级学生的学习情况,则还必须知道近10年、20年、50年甚至更长时间的成绩发展趋势,那么光靠人工去翻阅以前的数据就是件很困难的工作了。所以人工处理数据阶段,有许多教务数据分析工作受到很大限制。
2.2 计算机处理阶段
自计算机出现后,许多领域的工作发生了翻天覆地的变化,教务管理同样也不会忽略如此有效的技术手段。20世纪80年代以来,我国一直关注信息化在各领域的应用,教务管理信息化的发展大致经历了以下三个阶段:面向数据处理的第一代教务管理、面向信息处理的第二代教务管理、面向知识处理的第三代教务管理。在前两个阶段中,许多教务工作确实提高了效率,但是教务海量数据中隐含的价值仍不能被有效发掘与利用。正如在一大座金山中,获取更有价值的黄金还需更细致更有效的清理和挖掘。
虽然在前些年,学校各级部门具备了一定的信息化基础设施,为构建信息化教务系统奠定了基础。但是,由于缺乏统一的规划,学校各子系统或多或少存在“信息孤岛”的问题,也没有有效的方法从海量数据资源中快速挖掘更有价值的知识信息。因此,耗费成本收集的数据没有利用就被弃置了,教务数据分析仅停留在表面。
由于信息技术的发展,信息化时代逐渐进入第三展中,即有效应用数据仓库和数据挖掘技术挖掘知识。
3 DW和DM技术
数据仓库(DataWare,即DW)是指一个面向主题的、集成的、非易失的且随时间变化的数据集合,用来支持管理人员的决策[1]。当大量的数据被整合在一起后,从用户分析角度来看,使用这些数据的手段是多方面和多层次的。面向知识处理的教务系统应能够自动剔除掉不需要的数据,按照用户的要求整合杂乱的数据资源,获取某些可用的属性。而且,学校的决策通常是经过观察长期发展的状况而制定的。其间,需要分析5年、10年,甚至几十年的大量相关数据资源。因此,教务数据需要被长期且稳定的存储。在日常收集数据和整理数据时,利用数据仓库的思想来进行,有利于我们充分发挥数据挖掘技术进行知识的挖掘。
数据挖掘(Data Mining,即DM)是指从大量的数据中,抽取出潜在的、有价值的知识(模型或规则)的过程。数据挖掘就是从大量数据中提取或“挖掘”知识。
首先,我们要确定数据挖掘的对象有哪些。数据资源可以从多方面获得,如系统分析设计人员向不同范围的业务对象调研获得,或反之业务对象主动向系统设分析设计人员提出;在互联网时代,从网络中获得数据资源更快更多了。
其次,要有效地应用数据挖掘技术,就要遵循科学的应用流程。一般的挖掘流程是:(1)确定挖掘对象;(2)数据准备;(3)数据挖掘,即模式提取;(4)结果分析,即模式评估。[2]
数据挖掘功能用于指定数据挖掘任务中要找的模式类型。数据挖掘任务一般可以分为两类:描述和预测。描述性挖掘任务刻画数据库中数据的一般特性。预测性挖掘任务在当前数据上进行推断,以进行预测。数据挖掘系统要能够挖掘多种类型的模式,以适应不同的用户需求或不同的应用。数据挖掘功能以及它们可以发现的模式类型包括:class/concept description、Association analysis、Classification and prediction、Clustering、Outlier analysis等。
4 建立面向知识处理的教务数据分析系统
按照上述数据挖掘的基本流程,以教务系统中成绩分析为例介绍如何让教务系统实现面向知识的处理。
4.1 构建教务系统的数据仓库
这部分主要分为四个任务:确定教务系统中的数据源;Web数据的预处理;多维Web数据模式的建立;应用OLAP技术。
4.1.1确定教务系统中的数据源
教务系统的数据主要从两个方面获得:
(1)各学院开课计划、学校学计划;
(2)教师提交的各门课程的成绩。
第一方面的数据主要由学校、各学院按照培养计划每学期提交,包括各专业班级的课程安排、授课教师、课时、学分等。这部分数据主要以Excel表格形式提交,教务部门对这部分的数据收集与存储大部分停留在文档形式。
第二方面的数据主要在学期末由授课教师分专业班级和课程提交。目前,这部分的数据收集有的以纸质文档形式收集,有的以Excel文档形式收集,也有的实现了数据库收集存储。
在进行数据挖掘之前,首先要将这两方面的数据完全实现数据库收集与存储。随着教务数据与日俱增,还需使用数据仓库来管理这些数据。
目前,有许多学校实现了在线登录成绩的信息化。那么如何对庞大的Web数据建立数据仓库呢?
4.1.2 Web数据的预处理
通过Web收集的数据称之为原始数据,管理员可根据需要用某些字段记录相关数据。如:专业班级名称,教师登录名,课程名称,成绩比例,分数,提交时间等。对Web数据的预处理包括两步。第一步:清除噪音,即去掉对知识挖掘无关的数据。第二步:转化数据,即将原始数据按照挖掘需求,通过重新组织或简单计算转换成规范模式。
4.1.3多维Web数据模式的建立
分为三步进行。第一步,选取维。多维数据便于我们从多个角度、多个侧面对数据库中的数据进行观察、分析,以深入了解包含在数据中的信息和内涵。N维数据矩阵用C(A1, A2, . .., Am ,count)模式表示,其中Ai代表第i维,i=1,2,...,n, count是变量,反映数据的实际意义。
数据单元用r[A1:a1,...,An:an,count]模式表示,即为维Ai选定一个维成员ai,i=l,…,n,这些维成员的组合唯一确定了变量count的一个值。通常,需要了解成绩的分布情况,可以选取专业班级维、时间维、课程维构建数据矩阵,以形成多维视图。
第二步,构造多维视图。先选取Date维(按学期组织)、Class维(按专业班级组织)用二维形式表示每个专业班级各学期的成绩状况。然后加入第三维Course维(按课程组织),进一步构建成绩分布的三维视图。视图显示的事实是Course_Class_Analyse(课程专业学习情况)。
第三步,创建多维数据模式。最流行的数据仓库数据模型是多维数据模型。最常见的模型范例是星型模式。
4.1.4应用OLAP技术
OLAP,即在线联机处理。应用OLAP技术可以很方便地从Web数据矩阵中作出一些简单的结论性分析,如回答一些问题:(1)哪些专业班级学习情况较好,哪些较差?(2)哪些专业课程成绩较高,哪些较低?我们可以充分利用多维数据模型上的OLAP操作,如下钻(drill-down)、上卷(roll-up)、切片分析(slice)和切块分析(dice)等技术对问题进行求解。
4.2 挖掘模式的有效应用
应用数据挖掘技术可以自动发现学生学习倾向和专业发展趋势。
4.2.1数据挖掘技术应用的范围
虽然现在已有很多学校都建立了自己的教务管理网站,但教职工与学生仅仅只在Web上进行成绩的登录和查询。这样的教务网站只是提供了收集数据的快捷途径,并没有从根本上体现本身应有的应用价值。教务系统希望能够从其门户网站中收集大量原始数据,并依此发掘更深入的服务信息。同时,学校高层也希望能从教务系统中发现学生的学习情况,课程计划的实施效果等。这些都需要从海量的教务数据中应用特定的挖掘模型反映出来。基于此,对于下一次培养计划的修订才有现实的数据支撑。
4.2.2应用挖掘模式提取和分析知识
根据不同的应用要求,在数据挖掘模式中选择合适的方法进行计算,提取有效数据,得出知识。对于教务系统而言,可以应用聚类方法确定特定不同成效的学生与课程的分布,从而识别出一些问题:
(1) 对于某个专业班级,哪些课程学习效果较好;
(2) 对于学习效果较好的课程,是因为教学效果好,还是开课计划恰当;
(3) 对比同一门课的不同专业班级,以辅助各学院分析培养计划的适应性。
5 结束语
关于DW and DW 技术对教务数据分析的应用,还有许多值得继续深入研究。但是,不论从哪个方向进行研究,都必须要以提高教务处理能力为宗旨,让教务资源发挥最大的辅助决策价值。
参考文献:
[1] Colin White. Data Warehousing: Cleaning and Transforming Data [M], InfoDB, 2002.
本文讨论了一些站点分析的相关技术信息和几种网站分析浏览者行为的理论与算法,及数据仓库的相关理论知识。并对站点日志数据进行了实例分析,并指出了站点分析技术发展的方向。
一、绪论
互联网技术不断革新与发展,给全球经济带来新的革命,从而也影响着人们的生活。互联网为企业提供了一种真正属于自己并面对广大网民的信息载体,企业通过这一载体,可以自由地将企业的产品、服务等其他相关信息在线。
电子商务就是网上实行各种商务活动的总包装,种种所谓电子商务解决方案,实际上就是实现各种网上商务活动的硬件与软件系统。它将影响到每一个人、每一个企业。电子商务的主体是我们每一个人、每一个企业,电子商务发展的过程就是对人们的生活、企业的运行的一种模式的一个巨大改变的过程。对于进入虚拟世界的商家而言,仅仅吸引注意力还不行,对它们而言,站点的访问率绝对不仅仅是一个数字,它还是一种信息,如果网站能够从网络中获得网民的信息并从中分析其行为诱因,那么就容易掌握网民的需求,从而利用互联网去创造更多商机。
电子商务站点用户行为的分析这一问题也因此成为现如今的热门话题,被人们普遍关心起来,尤其是被众商家所重视。Web站点的日志数据正以每天数十兆的速度增长。如何分析这些数据,如何从这些大量数据中发现有用的、重要的知识(包括模式、规则、可视化结构等)也成为现在人们最关注的信息。
在此情况下,站点用户行为分析就可为网站或商家提供出大量有价值的信息,包括站点的受欢迎度的对比、商业广告点击情况总括、产品的反馈信息、站点各种信息的点击情况等等。另外,还可根据不同的页面内容来分类浏览者,以便做出更合理的页面分类,促使网站逐步向个性化、最优化状态发展。这一技术对互联网的发展壮大有着不可忽视的巨大作用,它的发展对信息技术亦将产生深远的影响。
在电子商务早期阶段时,Web站点数据流分析通常是在主页上安装计数器以及在一个外部日志文件上运行简单的统计程序记录点击率。但是,简单的点击计数既不准确也远未达到营销目的所需的详细程度。因此,各公司开始寻找更先进的分析工具,这类工具可以提供谁在访问公司Web站点以及访问者一旦进入站点后将做些什么的全面信息。站点开始分析的地方是Web服务器的访问日志。每当用户在站点上请求一个网页时,这个请求就被记录在访问日志中。如:目前有多少用户正在访问站点、他们正在看哪些网页以及他们在站点中呆了多长时间。显然,日志分析和行为概况的正确组合可以对Web站点的成功产生直接影响。此外,从日志分析中得到的信息是很难从真实世界中捕获到的,但这些信息却可以较容易地在线收集到。Web数据流分析工具的这些最新进展可以使网站获得有关上网客户和他们习惯的详细报告。
二、站点信息统计方法
Web页面数据主要是半结构化数据,计算机网络技术和信息技术的飞速发展,使得半结构化数据呈现日益繁荣的趋势。半结构化数据,是一种介于模式固定的结构化数据,和完全没有模式的无序数据之间,在查询前无法预先确定其具体的类型和格式;同时它们相应的数据结构是不固定、不完全或不规则的,即这些数据有的本身就没有结构,有的只有十分松散的结构,有的数据的结构是隐含的,需要从数据中进行抽取。而有时,尽管数据本身是有精确结构的,但为了一定的目的,而故意忽视它的结构。半结构化数据具有以下五方面的
主要特点:
1.结构是不规则的。包含异构数据、相同的数据信息用不同类型或不同的结构表示。
2.结构是隐含的。如电子文档SGML格式。
3.结构是部分的,有时部分数据根本无结构,而部分数据只有粗略的结构。
4.指示性结构与约束性结构。传统的数据库使用严格的分类策略来保护数据。而指示性数据结构是对结构的一种非精确的描述。它可接受所有新数据,代价是要频繁修改结构。
5.半结构化数据通常在数据存在之后才能通过当前数据归纳出其结构,称之为事后模式引导。模式有时可被忽略,同时数据与数据模式间的区别逐渐消除。
三、数据分析的方法
Web页面的数据通常是利用统计模型和数学模型来分析的。使用的模型有线性分析和非线性分析;连续回归分析和逻辑回归分析;单变量和多变量分析以及时间序列分析等。这些统计分析工具能提供可视化功能和分析功能来寻找数据间关系、构造模型来分析、解释数据。并通过交互式过程和迭代过程用来求精模型,最终开发出最具适应性的模型来将数据转化为有价值的信息。
知识发现是从数据仓库的大量数据中筛取信息,寻找经常出现的模式,检查趋势并发掘实施。它是分析Web页面数据的重要方法。知识发现与模式识别的算法有以下几种:
1.依赖性分析
依赖性分析算法搜索数据仓库的条目和对象,从中寻找重复出现概率很高的模式。它展示了数据间未知的依赖关系。利用依赖性分析算法可以从某一数据对象的信息来推断另一数据对象的信息。例如:在杂货店中,一堆椒盐饼干放在陈列饮料的走道上,这是因为经过依赖性分析,商店认为:很大一部分买饮料的顾客如果在取饮料的路上看到椒盐饼干的话就会购买,因而此种分析影响了商店布局。
2.聚类和分类
在某些情况下,无法界定要分析的数据类,用聚类算法发现一些不知道的数据类或怀疑的数据类。聚类的过程是以某一特定时间为依据,找出一个共享一些公共类别的群体,它称为无监督学习。分类过程,这是发现一些规定某些商品或时间是否属于某一特定数据子集的规则。这些数据类很少在关系数据库中进行定义,因而规范的数据模型中没有它们的位置。最典型的例子是信用卡核准过程,可确定能否按商品价格和其它标准把某一购买者归入可接受的那一类中。分类又称为有监督学习。
3.神经网络
神经网络通过学习待分析数据中的模式来构造模型。它对隐式类型进行分类。图像分析是神经网络最成功的应用之一。神经网络用于模型化非线性的、复杂的或噪声高的数据。一般神经模型由三个层次组成:数据仓库数据输入、中间层(各种神经元)和输出。它通常用恰当的数据库示例来训练和学习、校正预测的模型,提高预测结果的准确性。
4.数据挖掘中的关联规则
关联规则是数据挖掘的一个重要内容,通常关联规则反映的是数据间的定性关联关系。如一个商品交易数据库,一条记录表示用户一次购买的商品种类,每个属性(A、B……)代表一种商品,每个属性都是布尔类型的。一条关联规则的例子是:{A、B}{D}[2%][60%],规则的含义是“如果用户购买商品A和B,那么也可能购买商品D,因为同时购买商品A、B和D的交易记录占总交易数的2%而购买A和B的交易中,有60%的交易也包含D”。规则中60%是规则的信任度,2%是规则的支持度。数据挖掘就是要发现所有满足用户定义的最小信任度和支持度阀值限制的关联规则。数据只是定性地描述一个交易是否包含某商品,而对交易量没有定量描述,这种布尔类型数据间的关联规则被称为定性关联规则。但数据记录的属性往往是数值型或字符型的,这些数据间也存在对决策有帮助的关联规则,相对于定性关联规则,这些规则被称为定量关联规则。
另外,数据挖掘目前仍面临着数据质量的问题。由于数据仓库中的数据来自多个数据源,而在合并中存在很多障碍,如:没有建立合并视图所需的公共关键字;数据值相互抵触;元数据的说明不完备或丢失;数据值的不洁净等等。数据挖掘是在标准化的数据基础上进行的,因而这些都会严重破坏数据的准确性,导致最终决策的失误。所有这些问题都在等待着人们去发掘更好的解决方法。
参考资料
1.周斌,吴泉源,高洪奎:“用户访问模式数据挖掘的模型与算法研究”,《计算机研究与发展》,1999 vol.36 No.7 P.870-875;
2.Srikant R,Vu W,Agrawal R.Mining association rules with itemconstrains.IBM Almaden Research Center,Tech Rep:97.056,1997;
3.Park J S,Chen M,Yu P S.Aneffective hash based algorithm for miningassociation ru1es.In:ACM InternationalConference on Management of Data,Caliform,1995;
中图分类号:TP274文献标识码:A 文章编号:1009-3044(2009)36-10604-02
The Implement of Financial Data Analysis Module Base on SSAS Technology
HE Ying-gang, CHEN Jian-xiong
(Chengyi College, Jimei University, Xiamen 361021, China)
Abstract: Introduces a sample of design method to develop financial data analysis module by using the Data Mining technology. This sample use Microsoft SQL Server Analysis Services technology for analysis and forecasting. In practice, the operation of this module can improve the work efficiency offinancial analysts.
Key words: data mining; financial data analysis; analysis services
目前许多金融交易系统都为用户提供了技术指标的编写工具。在编写指标计算公式时,往往有各种参数需要用户进行选择和设置,合理的参数组合所得出的结果可以使得用户作出正确判断,但是这类金融系统中并未提供最佳参数搜索功能,这使得用户需要耗费许多时间对分析验证参数。随着数据挖掘技术的成熟和发展,为这类问题的解决提供了解决方法和途径。
由于许多金融公司都有使用Microsoft SQL Server系列数据库系统作为内部系统的数据库平台,而微软公司提供的Microsoft SQL Server 2005 Analysis Services (SSAS) 通过服务器和客户端技术的组合为客户提供联机分析处理 (OLAP) 和数据挖掘功能。这使得我们可以在不改变现有数据库系统的前提下,在原有的公司业务系统的基础上开发数据挖掘分析模块。基于SSAS本文提出了一种实现金融数据分析模块的解决方案。
1 金融数据分析模块的数据挖掘功能的设计
1.1 功能设计
金融数据分析模块主要应用于对指标参数的搜索,寻找最合适的指标参数值。所以系统应具有的功能有:1)根据用户的需要,提供指标公式设计和参数设置;2)提供灵活直观的图形显示;3)用户能够指定数据挖掘算法的参数值,并查看数据挖掘生成的规则。
1.2 结构设计
数据分析模块的设计采用了三层体系结构,分别为:1)数据访问层,实现对金融日志数据的采集、清理和转换;2)数据挖掘业务层;3)分析结果表示层,表示层把各种参数组合所对应的数据挖掘分析结果以图形化或表格化的方式展现出来,方便用户能够对比各种参数组合的优劣。为了避免对数据库系统性能造成影响,模块使用独立的数据仓库系统。开发框架如图1所示。
2 金融数据分析模块的数据挖掘功能模块的实现和关键技术
指标公式参数的求解是一类系统优化问题。遗传算法是一种求最优解或近似最优解的全局优化搜索算法。使用遗传算法比传统的枚举算法和启发式算法具有诸多优点,例如:搜索使用评价函数启发,过程简单;搜索从群体出发,具有并行性;与问题领域无关的快速随机搜索能力等等。由于SSAS所提供的数据挖掘算法中没有包含遗传算法,所以为了实现最优参数搜索,必须在数据挖掘模块中加入遗传算法。本文将指标计算公式的参数作为染色体基因,一种参数组合作为一个个体。然后根据个体基因数据生成指标值,并对指标值进行数据挖掘和预测,对预测结果的准确性进行评分,预测效果最好的参数组合将作为最佳选择提供给用户。遗传算法实现可以参考有关文献。本文所设计的主要处理流程如图2所示。
在图2流程中使用SSAS对每一种参数组合计算生成的指标数据进行数据挖掘分析和预测。SSAS是基于数据挖掘模型进行处理的,数据挖掘模型是一个数据结构,包含了数据关系、多维数据的分组和预测分析、数据挖掘算法等。用SSAS进行数据挖掘过程分为三个步骤:创建挖掘模型、训练挖掘模型和利用挖掘模型生成的规则进行预测。
2.1 创建数据挖掘模型
开发人员可以利用Visual Studio 2005内置Analysis Services项目模板快速创建数据挖掘模型,也可以利用DMX数据挖掘查询语言创建和处理数据挖掘模型。下面是一个利用关联规则算法建立的外汇利润预测分析的挖掘模型的例子。选择交易时间做为主键,该字段用来唯一表示某时间段内外汇交易价格。
CREATE MINING MODEL DM (
Ftime Date KEY,
KvalueDoublediscrete,
DvalueDoublediscrete,
…….
ProfitLeveldiscrete PREDICT)
USING Microsoft_Association_Rules (Minimum_Probability = 0.3, MINIMUM_SUPPORT = 0.05)
2.2 训练挖掘模型
SSAS将挖掘模型保存在数据库服务器端,然后训练挖掘模型生成数据挖掘规则。AMO(Analysis Management Object)是微软提供给开发人员使用的管理SSAS的主要接口,开发人员可以使用AMO创建、管理和处理挖掘模型,立方体,分区等Analysis Services对象。以下是在户端程序中使用AMO与Analysis Services进行数据交互,训练挖掘模型的简单例子。
Svr=new Server();
Svr.Connect(@”Provider=SQLNCLI.1;Data Source=SSASDM\Store;……”);
Db=svr.Databases.GetByName(“DM”); //获取数据挖掘模型对象
Db.Process(ProcessType.ProcessFull); //调用训练和处理挖掘模型
Svr.Disconnect();
2.3 预测
挖掘模型训练完后,SSAS生成挖掘规则并可以用来进行预测。本文算法流程中将指标数据预留一部分用于预测,然后使用SSAS提供的SQL扩展语言,实现预测任务。以下是一个客端程序的预测连接例子:
AdomdConnectionConn=new AdomdConnection(……);
AdomdClient.AdomdConnand Comm=Conn.CreateCommand();
AdomdDataReader reader;
mandText=String.Format(@”Select Predict( [profit Level] ) , PredictProbability( [Profit Level] ) From IndexData NATURAL PREDICTON JOIN (Select {0} as [Kvalue],{1} as [Dvalue],… as t”,R1,R2,…);
//构建数据挖掘预测语句
Reader=Comm.ExecuteReader();
上述第四行程序语句涉及数据挖掘模型和数据测试表,使用一个实例集进行预测,返回预测结果数据表格。
3 总结
该文分析了一种金融数据分析模块的设计方法和实现,该模块可以被重复开发和利用。若用户自定义新的指标计算公式,只需要修改数据挖掘模型和预测连接语句即可运行。在实际应用中,该系统模块的原型证明能够帮助金融分析员提高工作效率。
参考文献:
[1] Zhao Huitang.Data Mining with SQL server 2005[M].Wiley Publishing,Inc.2007.