时间:2024-01-10 14:58:46
导言:作为写作爱好者,不可错过为您精心挑选的10篇数据分析方法,它们将为您的写作提供全新的视角,我们衷心期待您的阅读,并希望这些内容能为您提供灵感和参考。
(1)现状分析:告诉你过去发生了什么;
(2)原因分析:告诉你为什么发生了;
(3)预测分析:告诉你将来发生什么。
明确数据分析这三大作用后,那么大家是否思考过这三大作用都要通过什么方法来实现呢?现在我们就来看看数据分析三大作用都需要用哪些数据分析方法来实现。这三大作用基本可分别对应对比、细分、预测三大基本方法,每个基本方法都有相应具体的数据分析方法,如对比基本方法下有对比分析、分组分析、结构分析、交叉分析、矩阵分析、综合评价分析等,这些方法核心关键词都是对比。下面我们就来学习这几个常用的分析方法。
对比分析法
第一个数据分析方法就是对比分析法。它可是数据分析的基本方法之一。对比分析法,是指将两个或两个以上的数据进行比较,分析它们的差异,从而揭示这些数据所代表的事物发展变化情况和规律性。对比分析的特点是:可以非常直观地看出事物某方面的变化或差距,并且可以准确、量化地表示出这种变化或差距是多少。
对比分析法可分为静态比较和动态比较两类。
(1)静态比较是在同一时间条件下对不同总体指标的比较,如不同部门、不同地区、不同国家的比较,也叫横向比较,简称横比。
(2)动态比较是在同一总体条件下对不同时期指标数值的比较,也叫纵向比较,简称纵比。
这两种方法既可单独使用,也可结合使用。进行对比分析时,可以单独使用总量指标、相对指标或平均指标,也可将它们结合起来进行对比。比较的结果可用相对数表示,如百分数、倍数等指标。
目前对比分析常用的有以下几个维度:
(1)与目标对比。实际完成值与目标进行对比,属于横比。例如每个公司每年都有自己的业绩目标或计划,所以首先可将目前的业绩与全年的业绩目标进行对比,看是否完成目标。
(2)不同时期对比。选择不同时期的指标数值作为对比标准,属于纵比。与去年同期对比简称同比,与上个月完成情况对比简称环比。通过对比自身在不同时间点上的完成情况,就可知道自身是进步还是退步。
(3)同级部门、单位、地区对比。与同级部门、单位、地区进行对比,属于横比。这样可了解自身某一方面或各方面的发展水平在公司、集团内部或各地区处于什么样的位置,明确哪些指标是领先的,哪些指标是落后的,进而找出下一步发展的方向和目标。
(4)行业内对比。与行业中的标杆企业、竞争对手或行业的平均水平进行对比,属于横比。同样我们也可了解自身某一方面或各方面的发展水平在行业内处于什么样的位置,明确哪些指标是领先的,哪些指标是落后的,进而找出未来发展的方向和目标。
(5)活动效果对比。对某项营销活动开展前后进行对比,属于纵比。做这样的比较可以分析营销活动开展得是否有效果,效果是否明显;还可对企业投放广告的前后业务状况进行对比分析,了解投放的广告是否有效果,如品牌知名度是否提升、产品销量是否有大幅增长等。
对比分析的维度不限于以上5点,这里只是列出常用的5种维度,当然还有其他维度,可根据自己的实际情况采用不同的维度进行对比分析。
进行对比分析时还要考虑以下几点因素:
(1)指标的口径范围、计算方法、计量单位必须一致,即要用同一种单位或标准去衡量。如果各指标的口径范围不一致,必须进行调整之后才能进行对比。没有统一的标准,就无法比较。例如600美元与3000元人民币就无法直接比较,需要根据当期的汇率进行换算后才可进行比较,否则不具有可比性。
(2)对比的对象要有可比性。例如不能拿广州市与华西村、美国与亚洲进行对比。总之对比对象之间相似之处越多,可比性就越强。因此,我们在选择和确定对比对象时,一定要分析它们是否具有对比的意义。
(3)对比的指标类型必须一致。无论绝对数指标、相对数指标,还是其他不同类型的指标,在进行对比时,双方必须统一。例如2012年广州的GDP值与2012年深圳GDP增长率,是无法进行对比的。
分组分析法
数据分析不仅要对总体的数量特征和数量关系进行分析,还要深入总体内部进行分组分析。分组分析法是一种重要的数据分析方法,这种方法是根据数据分析对象的特征,按照一定的标志(指标),把数据分析对象划分为不同的部分和类型来进行研究,以揭示其内在的联系和规律性。
分组的目的就是为了进行组间对比,是把总体中具有不同性质的对象区分开,把性质相同的对象合并在一起,保持各组内对象属性的一致性、组与组之间属性的差异性,以便进一步运用各种数据分析方法来解构内在的数量关系,因此分组分析法必须与对比分析法结合运用。
分组分析法的关键在于确定组数与组距。在数据分组中,各组之间的取值界限称为组限,一个组的最小值称为下限,最大值称为上限;上限与下限的差值称为组距;上限值与下限值的平均数称为组中值,它是一组变量值的代表值。
结构分析法
结构分析法是指研究总体内各部分与总体之间关系的分析方法,即总体内各部分占总体的比例。一般某部分的比例越大,说明其重要程度越高,对总体的影响也就越大。例如通过对国民经济的构成分析,可以得到国民经济在生产、流通、分配各环节占国民经济的比重,或是各部门贡献比重,揭示各部分之间的相互联系及其变化规律。
结构分析法的优点是简单实用,在实际的企业运营分析中,市场占有率就是一个非常经典的应用。
交叉分析法
交叉分析法通常用于分析两个或两个以上分组变量(字段)之间的关系,以交叉表形式进行变量间关系的对比分析,所以也叫交叉表分析法。交叉表当然也有二维以上的,维度越多,交叉表就越复杂,所以在选择几个维度的时候需要根据分析的目的决定。
交叉分析的原理就是从数据的不同维度综合进行分组细分,以进一步了解数据的构成、分布特征。
矩阵分析法
矩阵分析法是指根据事物(如产品、服务等)的两个重要属性(指标)作为分析的依据,进行分类关联分析,进而找出解决问题的一种分析方法,也称为矩阵关联分析法,简称矩阵分析法。
矩阵以属性A为横轴,属性B为纵轴,组成一个坐标系,在两坐标轴上分别按某一标准(可取平均值、经验值、行业水平等)进行刻度划分,构成4个象限,将要分析的每个事物对应投射至这4个象限内,进行交叉分类分析,直观地将两个属性的关联性表现出来,进而分析每一个事物在这两个属性上的表现,因此它也称为象限图分析法。
综合评价分析法
综合评价分析法是针对事物不同方面的数量特征,运用数学、统计等方法,得出综合数量水平的一种分析方法。综合评价分析法的基本思想是将多个指标转化为一个能够反映综合情况的指标来进行分析评价。如不同国家的经济实力,不同地区的社会发展水平,各企业经济效益评价、企业内各员工绩效评价等,都可以运用这种方法。进行综合评价分析,主要有5个步骤:
步骤1:确定综合评价指标体系,即包含哪些指标;
步骤2:收集数据并进行不同计量单位的数据标准化处理;
步骤3:确定指标体系中各指标的权重;
步骤4:对经过处理后的指标进行汇总计算综合得分;
中图分类号:N37 文献标识码:B 文章编号:1009-9166(2009)02(c)-0063-02
现代企业的决策往往是在整合大量信息资料的基础上制定出来的,对数据的理解和应用将是企业决策的基石。与传统的操作型应用相比,数据利用的应用建设难度更大,它是随着管理水平而发展,同时又取决于业务人员的主观意识,这就决定了以数据利用为核心的应用建设不可能一蹴而就,而是一个长期迭展的建设过程。从2003年起工厂开始全面推进数据分析应用工作,经历过曲折,同时也有收获。经过多年的努力,工厂的数据分析应用工作开始进入良性发展阶段,笔者认为有必要对工厂目前数据分析应用工作作一总结和思考。
一、工厂数据分析应用工作开展现状
工厂数据分析应用工作推进至今已有四五年的时间,从最初全面调研工厂数据量和数据分析应用状况,将数据分析应用率指标作为方针目标定量指标来考核,到后来将数据分析应用工作的推进重心从量向质转移,采用以项目为载体进行管理,着重体现数据分析应用的实效性,再到目前以分析应用的需求为导向,以分析应用点为载体,分层次进行策划。经过上述三个阶段,工厂数据分析应用工作推进机制得到了逐步的完善,形成了广度深度协同发展的信息资源利用管理框架。截止到目前,工厂数据分析应用率达到96%,四个层次的分析应用点共计100多个,数据分析应用工作在生产、质量、成本、物耗、能源等条线得到广泛开展,有效推动了工厂管理数字化和精细化。2007年,工厂开始探索细化四个应用层次的推进脉络,进一步丰富工厂信息资源利用框架,形成层次清晰、脉络鲜明、职责分明的信息资源利用立体化的推进思路。
1、第一层次现场监控层。第一层次现场监控层,应用主体是一线工人和三班管理干部,应用对象是生产过程实时数据,应用目标是通过加强生产过程控制,辅助一线及时发现生产过程中的异常情况,提高生产稳定性。例如制丝车间掺配工段的生产报警,通过对生产过程中叶丝配比、膨丝配比、梗丝配比、薄片配比、加香配比等信息进行判异操作,对异常情况通过语音报警方式提醒挡车工进行异常处理;例如卷包车间通过在机台电脑上对各生产机组的工艺、设备参数、实时产量、质量、损耗数据的监控,提高对产品质量的过程控制能力。第一层次应用以上位机和机台电脑上固化的监控模型为主,制丝车间每个工序、卷包车间每种机型的应用点都有所不同,为此我们建立了制丝车间以工序为脉络,卷包车间以机种为脉络的应用点列表,围绕脉络对第一层次应用点进行梳理,形成第一层次应用的规范化模板。制丝车间第一层次应用点模板包括工序名称、应用点名称、应用模型描述、应用对象、应用平台、异常处置路径等基本要素。卷包车间应用点模板横向根据机种分,纵向按上班及交接班、上班生产过程中、下班及交接班三个时间段分,通过调研分别列出挡车工针对每个机种在三个时间段分别要查看的数据和进行的操作。随着模板的扩充和完善,一线职工的知识、经验不断充实其中,第一层次应用点模板将成为一线工人和三班管理干部日常应用监控的标准,同时可以规避人员退休或调动带来的经验、知识流失的风险。2、第二层次日常管理分析层。第二层次日常管理分析层,应用主体是一般管理干部,应用对象是产质损、设备、动能等指标,应用目标是通过加强对各类考核指标的监控和分析,提高工厂整体的关键绩效指标水平。例如制丝车间的劣质成本数据汇总和分析,通过对车间内各类废物料、劣质成本的数据进行汇总、对比和分析,寻找其中规律及薄弱环节,并寻根溯源,采取措施,降低劣质成本。例如卷包车间的产量分析,通过对产量数据、工作日安排、计划产量进行统计和汇总,结合车间定额计划、作业计划和实际产量进行分析,寻找实际生产情况与计划间的差异,并分析原因。第二层次应用以管理人员个性化的分析为主,呈现出分析方法多样化、应用工具多样化的特点。但是万变不离其中的是每个管理岗位的管理目标以及围绕管理目标开展的分析应用是相对固定的,至少在短期内不会有太大的变化。为此我们建立了一份以重点岗位为脉络的应用点列表,围绕脉络对第二层次应用点进行梳理,形成第二层次应用的规范化模板。模板包括岗位名称、管理目标、应用点名称、应用描述、涉及主要考核指标、应用平台、应用频次、分析去向等基本要素。通过构建第二层次应用点模板,明确了每个管理岗位应用信息资源支撑管理目标的内容和职责。随着新的管理目标的不断提出以及应用的逐步深入,模板每年都会有更新和扩充。3、第三层次针对性分析应用层。第三层次针对性分析应用层,应用主体是项目实施者,应用对象是各类项目的实施过程,例如QC项目、六西格玛项目、质量改进项目,或针对生产中的特定事件进行的分析和研究。应用目标是通过应用数据资源和统计方法开展现状调查、因果分析、效果验证等工作,提高各类项目实施的严密性和科学性。第三层次的应用工具在使用初级统计方法的基础上会大量应用包括方差分析、回归分析、正交试验、假设检验、流程图等在内的中级统计方法。以QC活动为例,我们可以看出其实施过程无一不与数据应用之间有密切的联系[1]。近年来,在质量改进项目和QC项目的评审工作中已逐步将“应用数据说话、运用用正确合理的统计方法,提高解决问题的科学性”作为项目质量考核标准之一。而六西格玛项目实施的核心思想更是强调“以数据和事实驱动管理”,其五个阶段[2]D(定义)、M(测量)、A(分析)、I(改善)、C(控制),每个阶段都要求结合如FMEA(失效模式后果分析),SPC(统计流程控制),MSA(测量系统分析),ANOVE(方差分析),DOE(实验设计)等统计方法和统计工具的应用。4、第四层次主题性应用层。第四层次主题性应用层,应用主体是中层管理者,应用对象是专业性或综合性的分析主题,应用目标是通过专业科室设计的专题性分析模型或综合性分析模型,为中层管理层提供决策依据。工厂在实施了业务流程“自动化”之后,产生了大量的数据和报表。如何将工厂的业务信息及时、精炼、明确地陈述给中层管理层,以此来正确地判断工厂的生产经营状况,是摆在我们眼前的一个突出问题。大家都有开车的经验,司机在驾驶车辆的时候,他所掌握的车况基本上是来自汽车的仪表盘,在车辆行使的过程中,仪表盘指针的变化,告知汽车的车速、油料、水温等的状况,驾驶员只要有效地控制这些指标在安全范围之内,车子就能正常地运行。我们不妨将仪表盘的理念移植于工厂,建立工厂关键指标及运行管理仪表盘,将工厂的关键信息直观地列在上面,及时提醒各级管理人员工厂生产运营是否正常。
⑴关键绩效指标监控系统。对分布在各处的当前及历史数据进行统一展示,以工厂关键绩效指标为中心,支持统计分析和挖掘,可为中层管理者提供工厂关键绩效指标一门式的查询服务,使各业务部门寻找、阐释问题产生的原因,以有效监控各类关键绩效指标,及时采取改进措施,提高生产经营目标完成质量。⑵系统运行状态监控系统。通过数据采集、手工录入等各种渠道收集各类系统的运行状态,及时掌握故障情况,采取措施加以闭环,将因系统故障造成对用户的影响减至最小,确保各类系统的稳定运行和有效应用。通过建立系统运行状态监控系统,中层管理人员上班一打开电脑进入系统,就能了解到当天及上一天各类系统的运转情况,发生了什么异常,哪些故障已经得到解决,哪些故障还未解决。⑶第四层次主题性分析应用。在展示关键绩效指标和系统运行状态的基础上,由各专业科室思考专业条线上的分析主题,采用先进科学的理念和方法对数据进行分析和挖掘。近两年来,工厂充分发挥专业科室的优势和力量,相继设计和开发了工艺质量条线的六西格玛测评系统,设备条线的设备效能分析系统,还有质量成本核算与分析系统。通过这些分析主题的支持,工厂管理人员可以更方便快捷地了解质量、设备、成本等条线上的关键信息,及时采取相应措施,从而提升管理效率。
二、数据分析应用工作存在的不足及思考
工厂数据分析应用工作的推进方法从最初的采用数据分析应用率单个指标进行推进发展到目前按上文所述的四个层次进行推进,每个层次的推进脉络已经逐步清晰和明朗,但事物发展到一定的阶段总会达到一个瓶颈口,目前工厂数据分析应用工作存在的问题及措施思考如下:
1、从推进手段上要突破信息条线,充分发挥专业条线的力量。信息条线作为推进工厂数据分析应用的主管条线,其作用往往局限在技术层面上的支撑。虽然信息条线每年都会规划形成工厂数据分析应用整体的工作思路和具体的实施计划,但是无论从工厂层面还是从车间层面来讲,单纯依靠信息条线从侧面加以引导和推进,使得数据分析应用工作始终在业务条线的边缘徘徊,与产量、质量、设备、消耗、成本、动能等各个条线本身工作的结合度有一定的距离。所以工厂要进一步推进数据分析应用工作,调动起业务人员的积极性和主动性,突破现有的瓶颈,应该考虑如何调动起专业条线的力量。一是可以在年初策划应用点的时候要加强专业条线对车间业务自上而下的指导,引导管理人员加强对缺少数据分析支撑的工序、岗位/管理目标的思考;二是建立平台加强各车间同性质岗位之间的沟通与交流,均衡各个车间的数据分析应用水平和能力;三是对车间提交的分析报告给出专业性的指导意见。2、要加强对数据中心的应用。数据中心的建立可以使业务系统从报表制作、数据导出等功能中解放出来,专注于事务处理,将数据应用方面的功能完全交给数据中心来解决。目前,数据中心已建立了涉及产量、质量、消耗等各个条线的Universe模型,并对全厂管理干部进行了普及性的培训。但是从目前应用情况来看,还比较局限于个别管理人员,追寻原因如下:一是业务系统开发根据用户需求定制开发报表,业务人员通常习惯于从现成的报表中获取信息。如果要求业务人员使用数据中心工具自行制作报表模板,甚至可能需要将其导出再作二次处理,那么业务人员一定更倾向于选择第一种方式。二是近几年来人员更替较多,新进管理人员不熟悉数据中心应用,导致数据中心应用面受到限制。随着今后MES的建设,业务系统中的数据、报表、台帐和分析功能将有可能由业务用户自行通过集成在MES中的数据中心前端开发工具来访问和灵活定制。因此,要尽快培养工厂业务人员数据中心的应用能力,包括数据获取以及报表定制方面的技能。笔者认为应对方法如下:一是对于岗位人员变更做好新老人员之间一传一的交接和培训;二是适时针对新进管理人员开展集中培训;三是通过采用一定的考核方法。3、提高新增应用点的质量。工厂每年都会组织各部门审视第一、第二层次应用点列表,围绕重点工序和重点管理岗位调研有哪些应用上的空白点是需要重点思考的,以新增分析应用点的方式进行申报和实施。同时针对第三层次针对性分析应用,工厂也会要求部门以新增分析应用点的方式将需要数据支撑的项目进行申报。作为一项常规性工作,工厂每年都会组织部门进行应用点的申报,并按项目管理的思想和方法实施,事先确立各个应用点的应用层次、数据获取方式、实现平台,并对其实施计划进行事先的思考和分解,确定每一个阶段的活动目标、时间节点以及负责人员,每个季度对实施情况予以总结,并动态更新下一阶段的实施计划。该项工作从2005年起已经连续开展了三年,部门可供挖掘的应用点越来越少,如何调动部门的积极性,保持并提高应用点的实效性,我们有必要对新增分析应用点的质量和实施情况进行考评,考评标准为:一是新增分析应用点是否能体现数据应用开展的进取性、开拓性和创新性;二是新增分析应用点是否能切实提高管理的精细化和科学化水平;三是新增分析应用点是否能采用项目管理的思想和方法实施,按时间节点完成各项预定计划。
三、结束语。随着近几年来技术平台的相继成熟以及管理手段的逐步推进,工厂业务人员用数据说话的意识已经越来越强,但是要真正使工厂管理达到“三分技术、七分管理、十二分数据”的水平,还有很长的路要走,这既需要我们的业务人员从自身出发提高应用数据的水平和能力,同时也需要工厂从管理手段和管理方法上不断拓宽思路、创新手段,真正实现数据分析应用成为工厂管理的重要支撑手段。
作者单位:上海卷烟厂
中图分类号:TP393 文献标识码:A 文章编号:1672-3791(2017)06(c)-0053-03
随着云计算、大数据、物联网和移动互联网等新一代信息技术的发展,传统企业级IT架构正在朝基于互联网的分布式新架构转型。大数据作为新一代信息技术的核心,正在使各个领域变得越来越可感知,并走向智能化。大数据将会发挥自身独特的优势,带给我们更多的方便和便捷。大数据分析的方法理论有哪些、在行业、企业的活动中有哪些应用。
1 大数据分析的五个基本要素
1.1 大数据预测性分析
大数据技术的主要应用是预测性分析,如在线教学资源网站通过数据分析用户会对推荐的教学模是否感兴趣,保险公司通过数据预测被保险人是否会违规,地震监测部门通过对大数据的分析,预测某地点发生地震的大致时间,气象部门利用数据预测天气变化等。预测是人类本能的一部分,通过大数据预测人类才可以获得有意义的、智能的信息。许许多多的行业应用都会涉及到大数据,大数据的丰富特征表述了快速增长的存储数据的复杂性。大数据预测分析打破了数据预测一直是象牙塔里数据科学家和统计学家的工作,伴随着大数据的出现,并融合到现有的MIS、MRPII、DSS 、CIMS和其他核心业务系统,大数据预测分析将起到越来越重要的作用。
1.2 数据管理和数据质量
大数据分析跟数据质量和数据管理紧密相关,而质量高的数据和有效的数据管理可以使分析结果有价值、真实并得到有力的保证。
1.3 可视化分析
普通用户和大数据分析专家是大数据分析的直接使用者,因此他们对大数据分析的基本要求就是要可视化,因为他们想通过可视化分析获得可观的大数据特征,让用户直观看到结果。
提高解释信息的能力可以通过数据的可视化展示来实现,而可视化展示主要由图形和图表来呈现。要从大量的数据和信息中找寻相关性非常的不容易,而图形或图表能够在短时间内展示数据之间的相关信息,并为用户提供所需的信息。
1.4 语义引擎
语义引擎是把现有的数据标注语义,其实可以把它理解为结构化或者非结构化的数据集上的一个语义叠迭层。它是数据分析及语义技术最直接的应用,好的语义引擎能够使大数据分析用户快而准地获得比较全面的数据。
数据分析的新挑战及困难主要表现在非结构化数据与异构数据等的多样性,必须配合大量的工具去分析、解析、提取数据。语义引擎的设计可以达到能够从文档中自动提取有用信息,使语义引擎能挖掘出大数据的特征,在此基础上科学建模和输入新的数据,来预测未来的可用数据。
1.5 数据挖掘算法
大数据分析的理论核心就是数据挖掘。各种数据的算法基于不同的数据类型和格式,能更加科学地呈现出数据本身的特点,能更快速地处理大数据。如果采用一个算法需要花好几年才能得出结论,那大数据价值也就无从f起了。可视化是给人看的,数据挖掘是给机器看的。集群、分割、孤立点分析还有其他的算法可以使我们深入挖掘数据内部的价值,并且这些算法能够处理大数据的数据量,也可以满足处理大数据的效率要求。
2 大数据处理方法
大数据处理技术在社会的发展中占有重要的地位,现在有很多的研究者对大数据处理技术进行研究,将大数据处理技术与交互设计结合,让交叉科学得到发展,计算机技术的进步,让交叉技术被广泛应用,并引起了很多人的重视,例如:计算机技术可以在艺术中被应用,进行色彩搭配,还可以将计算机技术应用到垃圾分类里,这些都是研究人员对计算机和交叉设计的结合。这种结合让设计学与计算机技术紧急的结合在一起,将传统的调研方式和测试方式应用到交叉科学领域,这种方法的研究可以为用户调研和测试方法提供依据,能够减少人工的成本。大数据处理方法其实有很多,笔者根据长时间的实践,总结了几种基本的大数据处理方法,如非结构数据处理法、自然语言处理法等,该文主要介绍非结构数据处理流程涉及到的主要方法和技术。非结构化数据处理流程主要以网页处理为例来阐述,包括3个阶段,分别是信息采集、网页预处理和网页分类。
2.1 信息采集
信息采集主要是根据相关主题由固定的专业人士来完成,其采集的数据只能用于所针对的主题和相关的模块,出于对效率和成本的考虑完全不必对整个互联网进行遍历,因此,模块信息采集时往往需要研究以哪种方式预测链接指向的页面与主题的关联性,并测算其是否值得访问;然后研究以哪种相关策略访问Web,以在采集到主题相关页面的同时,尽可能地减少采集到主题无关的页面。
预先设定好种子链接是信息采集的基本方法,充分使用HTTP协议下载被访问的页面,运用分析算法对页面与主题的相关性进行分析,然后确定待访问的相关链接,预测可能指向主题相关页面的链接,最后循环迭代地运用不同的相关策略访问网页。
2.2 网页预处理
网页预处理最主要涉及到网页去重处理,网页去重可以归为两类:一类是基于URL的对比去重,它适用哈希算法;另一类是基于内容的对比去重,它适用基于信息指纹的文本相似度算法。
网页去重是先抽取文档对象的特征,再对文档内容进行分解,将文档的特征集合表示出来,然后有目的针对特征集合的压缩编码,通过将哈希编码等文本转为数字串映射方式,为后续的特征存储以及特征比较提供方便,这样可以起到减少存储空间,提高比较速度的作用,最后就是计算文档的相似度,此步需要根据文档特征重复比例来确定文档内容是否重复。一般是提取网页的某一个信息特征,通常是一组关键词,或者是关键词加权重的组合,调用相应的算法,转换为一组关键代码,也被称为指纹,若两个页面有大数量的相似指纹,那么可以预测这两个页面内容具有很高的重复性。
2.3 网页分类
网络时代,人类所面临的一个非常重要且具有普遍意义的问题就是网页分类。将网络信息正确分类,方便人们更好地使用网络资源,使杂乱无章的网络环境变得有条理。而网页分类一般是先对网页中的文本素材进行分类,通常采用文本分类来完成。文本分类主要应用于电子邮件分类、信息过滤、文献翻译、数据检索等任务,文本分类的一个关键问题是特征词的选择问题及其权重分配。
在搜索引擎中,文本分类主要有以下用途:相关性排序会根据不同的网页类型做相应的排序规则;根据网页是索引页面还是信息页面,下载调度时会做不同的调度策略;在做页面信息抽取的时候,会根据页面分类的结果做不同的抽取策略;在做检索意图识别的时候,会根据用户所点击的URL所属的类别来推断检索串的类别等。
网页分类方法有SVM分方法和朴素贝叶斯方法,其中比较推荐的是支持向量机分类方法(SVM),该算法主要基于统计学理论及线性分类器准则之上,从线性可分入手,再扩展到线性不可分的情况。甚至有时会扩展到使用非线性函数中去,这种分类器统称为支持向量机。近年来,支持向量机分类方法越来越多的受到网页分类技术人员的青睐。
3 大数据分析在行业活动中的应用
非结构数据处理和数据挖掘的应用范围较广,它可能应用于运营商、银行、传统企业和电商,挑选几个具有代表性的案例与大家分享。
3.1 电信行业
某城市电信运营商的上网日志分析系统,该系统通过收集用户上网日志历史记录数据,分析出每个用户的偏好。首先该系统通过并行统计出每个人有效历史上网日志URL;然后从日志URL中抓取网页内容,提取正文,并通过文本分类算法计算分类;最后通过统计出每个用户上网关注类别总数,分析出每个用户的偏好。
3.2 地产行业
某房地产企业的社会化品牌实时营销系统,该系统通过社交媒体数据,进行网络口碑监测,负面情绪被及时地发现并制止;通过与客户进行互动,争取客户忠诚度;通过监控同行及竞争对手的各方面资讯,量化评估竞争态势;快速提升品牌知晓度和美誉度,将媒体影响力转换为客户量,缩短人气聚集周期。
3.3 证券行业
某证券商战略信息监测通过历史回顾与信息摘要,提供题目、摘要、原文URL,今日舆情焦点,今日舆论,展示抓取的所有期货产品相关信息的缩略,并提供全文链接。通过热点事件列表可以看到历史相似事件对趋势的影响,通过天气指数与趋势对应曲线可以看到历史相似天气与历史趋势的对照。
3.4 金融行业
某大型股份制商业银行供应商风险评估系统,该系统通过抓取供应商内部数据,如企业年报、公司变动、领导情况、财务状况等数据,分析公司运营指数;通过计算各供应商社交数据,对其社会影响力做评估;通过同行之间的数据分析对比,对供应商进行实力评估,这些数据指数可以有效协助商业银行进行供应商风险评估。
4 结语
大数据处理数据的基本理念是用全体代替抽样,用效率代替绝对精确,用相关代替因果。证券、微商、地产等行业每天都会产生巨大的数据量,大数据分析与处理已成为大数据技术的最重要的应用,通过大数据技术从海量数据中提取、挖掘对业务发展有价值的、潜在的信息,找出产品或服务未来发展趋势,为决策者提供有力依据,有益于推动企业内部的科学化、信息化管理。
参考文献
[1] 孟小峰,慈祥.大数据管理:概念、技术与挑战[J].计算机研究与发展,2013,50(1):146-149.
[2] 国际电子商情2013年大数据应用与趋势调查[Z].
[3] 大数据时代来临:国内IT企业布局已然落后[EB/OL].新浪网,2012-06-01.
[4] 大数据时代降临[EB/OL].半月谈网,2012-09-22.
最简单的拆分方法就是不看平均值,看数据分布。因为凡 是“总和”或者“平均”类的统计数据都会丢失掉很多重要的信息。例如李嘉诚来我们公司参观,这一时间我们公司办公室里的“平均资产”就会因为李嘉诚一个人 被抬高到人均几亿身家。如果有人根据这个“平均资产”数据来判定说我们办公室的人都是豪华游艇的潜在顾客,这自然是荒谬的。
可实际上,我们每天都在做着类似的判断,比如当我们听到说顾客“平均在线时间”是3分34秒,就可能根据这个时间来进行业务决策,例如设置“停留时间超过3分34秒为高价值流量”,或者设置系统,在用户停留了3分34秒还没有下单的话就弹出在线客服服务窗口。我们设置这些时间点的根据是“平均停留时间”,在我们的想象里,我们的每个顾客都有着“平均的”表现,停留时间大致都是3分34秒,可实际上真正的顾客访问时间有长有短,差别巨大:
在一些数据中我们可以看得出来,访客平均停留在页面的时间非常的短暂,具体的也就是说,问需要在淘宝数据分析上面下工夫的,那么,究竟该怎么弄才能比较好的呢?这个就看个人是怎么想的了,这里也就不多说了。
再举一个例子,比如我们看到上个月平均订单金额500元/单,这个月也是500元/单,可能会觉得数字没有变化。可是实际上有可能上个月5万单都是400~600元,而这个月5万单则是2万单300元,2万单400元,5千单500元,5000单超过2500元 ——客户购买习惯已经发生了巨大变化,一方面可能是客户订单在变小(可能是因为产品单价下降,采购数量减少,或者客户选择了比较便宜的替代品),另一方面 出现了一些相对较大的订单(可能是中小企业采购,或者是网站扩充产品线见效了)。——看数据分布可以让我们更容易发现这些潜在的变化,及时的做出应对。
二、拆因子
很多时候我们很难直接从数据变化中分析出具体的原因,这时可以考虑拆分因子,将问题一步步细化找寻原因。
例如网站转化率下降,我们要找原因。因为“转化率”=“订单”/“流 量”,所以“转化率”下降的原因很可能是“订单量下降”,“流量上升”,或者两者皆是。按照这个思路我们可能发现主要的原因是“流量上升”和“订单量升幅 不明显”,那么
下面我们就可以来拆解“流量”的构成,例如拆成“直接访问流量”、“广告访问流量”和“搜索引擎访问流量”再看具体是哪部分的流量发生了变 化,接下来再找原因。这时我们可能看到说是搜索引擎访问流量上升,那就可以再进一步分析是付费关键词部分上升,还是自然搜索流量上升,如果是自然流量,是 品牌(或者网站名相关)关键词流量上升,还是其他词带来的流
量上升——假如最后发现是非品牌类关键词带来的流量上升,那么继续寻找原因——市场变化(淡季旺季之类),竞争对手行动,还是自身改变。假如刚好在最近把产品页面改版过,就可以查一下是不是因为改版让搜索引擎收录变多,权重变高。接下来再分析自己到底哪里做对了帮助网站SEO了(比如把页面导航栏从图片换成了文字),把经验记下来为以后改版提供参考;另
一方面还要分析哪里没做好(因为新增流量但是并没有相应增加太多销售),研究怎样让“产品页面”更具吸引力——因为对很多搜索引擎流量来说,他们对网站的第一印象是产品页面,而不是首页。
三、拆步骤
还有些时候,我们通过拆分步骤来获取更多信息。
举两个例子:
第一个例子:两个营销活动,带来一样多的流量,一样多的销售,是不是说明两个营销活动效率差不多?
如果我们把每个营销活动的流量拆细去看每一步,就会发现不一样的地方。营销活动B虽然和营销活动A带来了等量的流量,可是这部分流量对产品更感兴趣,看完着陆页之后更多的人去看了产品页面。可惜的是虽然看产品的人很多,最后转化率不高,订单数和营销活动 A一样。
这里面还可以再深入分析(结合之前提到的分析方法,和下一章要说的细分方法),但是光凭直觉,也可以简单的得出一些猜测来,例如两个营销活动的顾客习惯不太一样,营销活动 B的着陆页设计更好,营销活动 B的顾客更符合我们的目标客户描述、更懂产品——但是我们的价格没有优势等等这些猜想是我们深入进行分析,得出行动方案的起点。至少,它可以帮助我们
更快的累计经验,下次设计营销活动的时候会更有的放矢,而不是仅仅写一个简单report说这两个营销活动效果一样就结案了。(注:这是个简化的例子,实际上还可以分更多层)
第二个例子可能更常见一些,比如网站转化率下降,我们可以拆成这样的漏斗:
这样拆好之后,更能清楚地看到到底是哪一步的转化率发生了变化。有可能是访客质量下降,都在着陆页流失了,也可能是“购物车–>登录”流失了(如果你把运费放到购物车中计算,很可能就看到这一步流失率飙升),这样拆细之后更方便我们分析。
曾经有一个例子就是转化率下降,市场部查流量质量发现没问题,产品经理查价格竞争力也没问题——最后发现是技术部为了防止恶意注册,在登录页面加了验证码(而且那个验证码极度复杂),降低了“登录页面–>填写订单信息“这一步的转化率。
四、细分用户族群
中图分类号:TP18 文献标识码:A文章编号:1009-3044(2007)06-11651-01
1 引言
粗糙集(Rough Set)理论[1]是波兰数学家Z.Pawlak于1982年提出的,它建立在完善的数学基础之上,是一种新的处理含糊性和不确定性问题的数学工具。其主要思想是在保持分类能力不变的前提下,通过知识约简,导出问题的决策或分类规则[2]。由于粗糙集理论不需要任何预备或额外的有关数据信息,使得粗糙集理论成为研究热点之一,被广泛应用与知识发现、机器学习、决策分析、模式识别、专家系统和数据挖掘等领域。
属性约简是粗糙集理论中核心研究内容之一[3]。在众多的属性约简算法中,大致可以分为两类:一类是基于信息熵的启发式算法[4],这类算法往往不能得到系统的所有约简.另一类是基于区分矩阵和区分函数构造的算法[5],这种算法直观,易于理解,能够计算出所有约简。但在区分矩阵中会出现大量的重复元素,造成时间和空间的浪费,从而降低了属性约简算法的效率。
本文基于数据分析方法[6]的属性简约算法是在保持分类能力不变的前提下,逐个约去冗余的属性,直到不再有冗余的属性,此时得到的属性集是最小属性集,即为约简。该算法简单,能够求出所有约简,不会出现区分矩阵中大
量的重复元素,从而提高了属性约简的效率。
2 粗糙集概念
定义2.1设U为所讨论对象的非空有限集合,称为论域;R为建立在U上的一个等价关系族,称二元有序组S=(U,R)为近似空间。
定义2.2令R为等价关系族,设P?哿R,且P≠?I,则P中所有等价关系的交集称为P上的不可分辨关系,记作IND(P),即有:[x] IND(P)= ∩ [x]R,显然IND(P)也是等价关系。
定义2.3称4元有序组K=(U,A,V,f)为信息系统,其中U为所考虑对象的非空有限集合,称为论域;A为属性的非空有限集合;V=∪Va,Va为属性a的值域;f:U×AV是一个信息函数,?坌x∈U,a∈A,f(x,a)∈Va。对于给定对象x,f(x,a)赋予对象x在属性a下的属性值。信息系统也可简记为K=(U,A)。若A=C∪D且C∩D=?I,则S称,为决策表,其中C为条件属性集,D为决策属性集。
显然,信息系统中的属性与近似空间中的等价关系相对应。
定义2.4设K=(U,A,V,f)为信息系统,P?哿A且P≠?I,定义由属性子集P导出的二元关系如下:
IND(P)={(x,y)|(x,y)∈U×U且?坌a∈P有f(x,a)=f(y,a)}
则IND(P)也是等价关系,称其为由属性集P导出的不可分辨关系。
定义2.5称决策表是一致的当且仅当D依赖于C,即IND(C)?哿IND(D),否则决策表是不一致的。一致决策表说明:在不同个体的条件属性值相同时,他们的决策属性值也相同。
定义2.6设K=(U,A)为一个信息系统。若P?哿A是满足IND(P)=IND(A)的极小属性子集,则称P为A的一个约简,或称为信息系统的一个约简。
定义2.7设K=(U,CUD)为一个决策表,其中C为条件属性集,D为决策属性,若P?哿C为满足POSC(D)=POSP(D)的极小属性子集,则称P为决策表K的一个约简。其中POSC(D)表示决策D关于属性集C的正域。
定义2.8数据分析方法对于信息系统K=(U,A),逐个移去A中的属性,每移去一个属性即刻检查新得到的属性子集的不可分辨关系,如果等于IND(A),则该属性可被约去,否则该属性不可被约去;对于决策表K=(U,CUD),逐个移去C中的属性,每移去一个属性即刻检其决策表,如果不出现新的不一致,则该属性可被约去,否则该属性不可被约去。
3 基于数据分析方法的属性简约算法
3.1 算法思路
利用函数的递归调用,逐个判定信息系K=(U,A)中属性a(a∈A),若IND(A)=ND(A-{a}),则a可以约去,A‘=A-{a},否则a不可以约去,继续检查A‘中的每个属性是否能被约去,此过程一直进行下去,直到出现某一属性子集中的每个属性都不可约去为止,此时该属性子集即为所求的属性简约。对于决策表,每次检查是否增加了不一致的决策规则,作为是否约去属性的依据。
算法如下:
输入:信息系统K=(U,A)。
输出:K的属性约简。
Match(A') // A’=A-{a}//
begin
for i=1to|U|-1 //|U|表示U的基数//
for j=i+1to|U|
begin
r=|R|//|R|表示属性个数//
if((f(ui,a1)= f(uj,a1))∧(f(ui,a2)= f(uj,a2))∧….∧(f(ui,ar)= f(uj,ar)))
then a不可被约去,return0
end
a可以被约去return1
end
Reduce (A)
begin
flag=1
for i=1 to |R|//|R|表示属性个数//
begin
a=ai
A'=A-{ai}
if match(A')thenflag =0 , reduce (A’)
if (flag且A未被输出)then
输出A中所有元素//flag≠0,说明A中所有元素不可移去,且不会被重复输出//
End
end
以上给出的函数是求解信息系统的属性约简算法;对于决策表,只要将Match(A’)函数中的if语句的条件换成(f(ui,a1)= f(uj,a1))∧(f(ui,a2)= f(uj,a2))∧….∧(f(ui,ar)= f(uj,ar))∧(f(ui,ag)≠f(uj,ag)),r=|C|是条件属性个数,ag是决策属性。Reduce (A)函数中|R|换成|C|即可。该算法适用于一致决策表,对非一致决策表,算法类似,也就是逐个移去属性并检查决策表是否出现新的不一致,作为约去此属性的依据。
4 举例
文献[7]中决策表1,a,b,c,d,e是条件属性,g是决策属性,求出的约简是{a,b,d}
应用本算法,求得的属性约简为{a,e}和{a,b,d},得到决策简化表2和表3。
表1 决策表表2简化表表3简化表
如果将决策表表1看作一信息系统,运用本算法,求得的属性约简有{c,d,e,g}, {b,e,g}, {a,c,d,g}, {a,c,d,e}, {a,b,g}, {a,b,e}h和{a,b,d}
5 结束语
本文通过数据分析方法讨论了属性约简问题。该算法是基于不可分辨关系的,具有直观、易于理解和完备性的特点。当属性和对象都较少时,效率较高,但当属性和对象较多时,计算的复杂度较高。实例表明,该算法是有效的。
参考文献:
[1]PAWLAK z.Rough set[J].International jom:ua ofcomputer and information science,1982,(11):341―356.
[2]张文修,吴伟志,梁吉业等.粗糙集理论与方法[M].北京:科学出版社,2001.
[3]Pawlak Z.Slowinski R.Rough set approach to muhiattribute decision analysis.Ivited Review[J].European Journal of Operational Research.1994,72:443-459
[4]王国胤,于洪,杨大春.基于条件信息熵的决策表约简[J].计算机学报,2002(7):760―765.
[5]Skowron A,Rauszer C.The Discernibility Matrices and Functions in Information Systems[A].I Slowinsk R.ntelligent Decision Support― Handbook of Applications and Advances of the Rough Sets Theory[c].1991,331-362.
1.测试方案的制定
数字电视测试方案制定时,第一步是确定选择多少个地点进行测试,以及它们的特定位置。被选定的地点在数学统计上必须是相关的,通常应超过100个(最好超过200个)。在给定方向上最远的测试地点距离通常由F(50,90)曲线确定,FCC过去使用的确定NTSC频率规划的方法也被用于DTV的频道分配。发射机的ERP和HAAT首先影响最远距离的测试地点的确定。另外, 如果在数字电视发射机附近有模拟NTSC发射机且频率接近,则测试计划还应包括测量模拟信号,比较模拟电视的数值和数字电视的数值。
2.数字电视场强测试数据分析方法
标准的归一化的数据采集方法对于结果的分析来说是非常重要的。尽管对一个广播公司而言,特定的地理环境可能会有一些唯一的与其它地方不同的测试结果,但是,测试中的一些关键参数,是非常重要同时又是必须测试的。
例如,有不同的服务区域预测技术要考虑。旧的基于统计测量的方法所得到的F(50,50)和F(50,10)曲线,从50年代起在约50年的时间内,被用作预测场强数值(dBmV/m),这两条预测曲线,在FCC规则的73.699节中出现(参考资料5),给出了预测的50%的地点在50%或10%的时间概率下的最小场强电平,通常使用的F(50,90)曲线是从F(50,50)和F(50,10)采用下式计算得到:
F(50,90) = F(50,50)-[F(50,10)- F(50,50)]
就是说,F(50,90)场强电平值高于F(50,50)值,F(50,10)场强值低于F(50,50)值。这些FCC的标准曲线是基于发射机的ERP和HAAT、接收装置的天线高度、发射机与测试地点之间距离而确定。通过在每一个测试地点应用这些曲线,场强电平可以被预计并且与测量的场强电平相比较。同样,可以计算出超过最小场强电平的被测地点的百分比,按照统计规律,这些地点能基于F(50,90) 曲线成功地接收数字电视信号。可以直接比较在最小场强电平以上的测量地点数量和成功地接收数字电视信号的地点数量。
另一种场强电平预测技术是Longley-Rice算法,在FCC的工程技术部门(OET)公告69号(参考资料7)中有详细的描述,不仅用到发射机的ERP,HAAT和接收装置天线高度,而且涉及到在发射机和接收装置之间的地面的类型。应用这种算法可以预计每个测试地点的场强电平,这些预测值也应与测量的数值进行比较。对于F(50,90)曲线,基于Longley-Rice算法,可以计算出最小场强电平以上的地点的百分比,以给出能成功地收到数字电视信号的地点的百分数。这能直接与成功地接收数字电视的地点的测量数字进行比较。
两种场强电平预测方法不仅能评估数字电视的场强分布曲线和效果,也能评估成功地进行数字电视服务的区域和效果。随着更多的数字电视发射机投入使用,进行覆盖状况的试验和分析,将会有更好的统计曲线来预测数字电视的覆盖曲线。实际上,原有的F(50,50)曲线与实际的对于数字电视覆盖的要求是不同的,数字电视要保证可靠接收,要求是F(90,90)。
还有几个其它的参数被用于数字电视场强测试评估:服务有效性、系统性能指标、造成误码的极限电平、场强电平、C/N门限值、接收机灵敏度、地形轮廓及高度变化的统计等。并且每个参数在数字电视的系统构成上提供宝贵的信息,并且被分别描述。
服务有效性是指所有的可成功地接收数字电视信号的测试地点的百分比,包括那些场强电平较小但又可以成功解码的所有的地点,对广播公司来说是重要的,在测试的期间给定发射机ERP和HAAT,它是表示覆盖区域的大小和服务有效性的主要参数。
另一方面,作为数字电视场强的测试手段,系统性能指标是其效果如何的一种表示方法。即,接收S/N在15dB(误差极限)以上的站点的百分比。这种统计分析所确定的距离,对于那些低于接收门限的数字电视信号测试点(如严重的地形遮挡或天线增益过小)无效。在场强测试期间,在非白噪声干扰情况下(如多径反射、脉冲干扰或模拟电视与数字电视同频干扰),系统性能指标可从本质上得到很好的反映。
对于数字电视的接收而言,接收机的灵敏度同样影响到接收的效果,实际上是覆盖范围的大小。接收机的最小接收门限值越低,越容易收到数字电视节目。反过来,在许多高于接收门限电平的地点并非一定能很好地接收,还受到载噪比门限的限制,只有载噪比门限超过所要求的数值,才能可靠地对数字电视信号进行解码。可靠接收取决于两个条件,一是接收的场强大于接收机的最小输入门限电平,二是接收信号的载噪比大于可靠解码所要求的数值。
3、方法三:分组对比法。分组之后,我们就可以对数据进行汇总计算了。常见的方法是通过求和、平均值、百分比、技术等方式,把相同类别的数据,汇总成一个数据,减少数据量。
A Method of Automobile Driving Behavior and Data Analysis
ZHANG Zhi-de
(Guangzhou Automobile Group Co.,Ltd.,Automobile Engineering Institute,Guangzhou Guangdong 510640,China)
【Abstract】A car bus data collection and analysis methods of environment,expatiates the bus signal correlation between performance and corresponding working principle of the electronic control module,each over a period of time the data to carry on the comprehensive analysis,put forward several kinds of conditions associated with economic driving model,and through the working condition of model reflects in a period of time correlation between vehicle fuel consumption and driving behavior,for the analysis of driving behavior to provide the reference basis.
【Key words】Driving behavior;Oil consumption;Big Data;Eco-driving
0 引言
随着近几年汽车销售和保有量的急剧增加,降低能源消耗与汽车排放的要求越来越严格。节能减排政策成为对应汽车领域能源问题和治理环境污染的主要措施之一。橄煊节能减排,各个汽车制造商都在积极研究新技术以对应能源与环境需求。其中车辆动力技术、道路条件以及汽车驾驶运用是目前影响汽车燃油消耗的三大主要因素。汽车的驾驶运用水平直接反应在汽车驾驶人员对于汽车燃油经济性掌控的关键环节。驾驶人员以较少的汽车燃油消耗实现车辆空间位置安全转移的驾驶行为就是目前我们所倡导的汽车节能驾驶。通过研究驾驶行为数据并进行分析提示,辅助提高驾驶技术、研究节能驾驶辅助系统有巨大的节能潜力。
狭义上的驾驶行为数据分析一般是以考虑经济性驾驶为基础研究对象和主要前提。通过对驾驶员控制油门、挡位和制动等相关操作,在不改变车辆动力结构前提下,计算一段时间的控制数据和车辆理想驾驶模型数据进行对比,提醒驾驶人员日常驾驶行动的统计结果,包括对操作车辆油门、挡位、制动的方式。并以此为依托进行驾驶习惯改进、驾驶操作辅助、“人―车―路”多环境协调,合理匹配车辆运动与道路条件、交通状态、车辆性能之间的关系,以满足节能减排的目的。
1 驾驶行为分析模型
车辆运行过程中主要存在四种行驶状态:怠速、加速(含启动)、减速、巡航。
图1是城市工况的不同行驶状态所占能耗比。由图1可知,加速(含启动)过程占比最大,达到38% ;其次是巡航过程,约为35%。这说明城市工况中,采用经济性的加速和巡航策略对降低能耗具有积极意义。经济性加速主要指以适宜的加速度、档位、油门开度等完成加速过程,尽量避免急加速工况的出现;经济的巡航策略主要指尽量把车速维持在经济车速区间。
根据一般驾驶工况,按照与能耗关联的行为可以得出以下几种行为模式:
1)急加速
在紧急加速过程中,燃烧室中燃油多、空气少,燃烧室内呈现缺氧状态,燃油不能够充分燃烧,导致油耗增加。
2)急减速
减速过程属于动能转换为热能的过程,合理的预判行车减速过程进行适宜的制动强度有利于充分利用车辆惯性,减少油耗;频繁的急减速会消耗较多的车辆动力装置产生的动能。
3)脱档滑行
汽车带档滑行,不踩油门,发动机管理系统EMS会切断供油利用惯性来维持运转;脱档滑行则需要一个怠速油耗。因此长距离滑行时采用脱档滑行会增加油耗。
4)打开车窗高速行驶
汽车以较高车速行驶时,打开车窗会增加整车的空气阻力系数,增加空气阻力,进而导致油耗提高。
5)换挡时的转速(高转换挡)
合理的控制档位,能保证发动机在不同的车速区间里均能维持在经济转速区域,有利于减少发动机的油耗。
6)长时间怠速
长时间的怠速状态会导致发动机做过多的无用功,导致油耗上升。
7)频繁变道和曲线行车
频繁变道超车使汽车经常加速、减速、制动,发动机工作不稳定,同时使汽车处于曲线行驶状态。汽车曲线行驶时,如汽车转弯,地面对轮胎将产生侧向反作用力、滚动阻力大幅增加,导致油耗上升。
1.1 急加速模式
当车辆加速度n_vehicleActSpeed>X1*,油门踏板开度n_emsGasPedalActPst>X2*(排除下坡导致的无油门输入加速),记录为一次急加速,急加速计数器Drastic_Acc_Counter++。
X1*为设定的加速度限值,考虑到不同车速区间内车辆提供的加速能力不一致,为获得更优的评价方法,在不同速度区间能选用不同的限值。加速度限值是车速的函数,车速越低限值越大。X2*为油门踏板开度限值可以设置为定值20%。
加速度限值函数 X1:
y=a■x+b■,x?缀(0,40]a■x+b■,x?缀(40,80]a■x+b■,x?缀(80,max)
1.2 急转弯模式
对于急转弯驾驶行为,为滤去低速工况下掉头等实际状况的影响,首先判断车速,车速当车速n_vehicleSpeed>20km/h时,再进行急转弯判断,判断方法如下:
1)当某时间区间内(如1s)车辆角速度均值n_averageSteeringAngleSpeed大于预设角速度X*时,记录为一次急转弯,急转弯计数器n_turnCounter++;
2)当车辆行车速度大于50km/h且一秒内方向盘转动角度大于 Y*时,记录为一次急转弯急转弯计数器n_turnCounter++;
3)当车辆转弯角度大于31°,且车辆行驶速度大于S时,记录为一次急转弯,例如:S取值范围为51km/h至60km/h,急转弯计数器n_turnCounter++;
注:X*为动态限制量,是一个和车速有关的函数,车速越大转角速度极限值X*越小。
Y*为动态限制量,是一个和车速有关的函数,车速越大转角极限值Y*越小。
如下:
X*=k■x+l■,x?缀(0,40]k■x+l■,x?缀(40,80]k■x+l■,x?缀(80,max),Y■=r■x+t■,x?缀(0,40]r■x+t■,x?缀(40,80]r■x+t■,x?缀(80,max)
其中:k1,k2,k3,l1,l2,l3,r1,r2,r3,t1,t2,t3为常数。
2 非经济驾驶行为数据统计
根据第一章节中的描述,对行程中不利于油耗降低的驾驶行为(急驾驶、急减速、急转弯、怠速过长等)进行记录,并将每次行程的结果保存在存储区中作为历史数据。统计界面的默认界面为本次行程的驾驶行为统计(如图2左图);通过操作驾驶者可以进入历史统计界面,该界面内驾驶者可以观察本次驾驶行程中各驾驶行为发生次数与历史行程的对比(如图2右图)。
3 不同平均车速下的历史综合油耗统计
实际驾驶过程中不同路况下的油耗差异性很大,例如:高速公路驾驶中高速行驶发动机运行在经济区域占比较大,油耗较低;而城市道路驾驶过程中,车流量较大、交通灯数量多,车辆处于中低速区域比例较大,油耗较高。仅仅从平均油耗进行对比,有时不能正确反映驾驶者驾驶习惯。平均车速能较为有效的反应出道路工况,因此可以以行程的平均车速进行区间划分,历史油耗对比时仅对比同一区间内的油耗,可将平均车速划分为低速行驶区域(0~40km/h)、中速行驶区域(40~80km/h)、高速行驶区域(V≥80km/h),加入行程平均车速的考虑因素再做燃油消耗的统计。
4 方法总结
通^统计与经济驾驶关联的几种模式进行算法设计,可以将驾驶行为转化为可以具体量化的数据结果。基于数据有限分析和样本量,数据累计历史等前提下,可以通过模型进行一些可视化的输出结果。并以此作为驾驶人员辅助驾驶和行为提醒的基本数据。当然如果该模型能基于大数据后台平台,通过建立复杂的算法模型和自学习模型。可以更多的分析驾驶人员、同类车型、相似工况环境等。并以此为基础逐步影响驾驶人员的驾驶习惯,建立起良好的驾驶行为。
概念的内涵就是反映在概念中的事物的本质属性,这是概念的内容。概念的外延就是具有概念所反映的本质属性的对象,这是概念的适用范围。学生对于概念的掌握程度可以通过各种判断题、选择题的综合检测得到体现,概念的正确掌握能从根本上解决计算题、实验题及综合题等。只有学好的基本概念,深刻理解概念的内涵和外延,把握概念的本质属性,才能扎实地掌握相关的知识内容,正确而有效地学好化学知识。
一、运用数据分析,把握化学概念的内涵
高中化学选修四《化学反应原理》一书中的一些化学基本概念比较抽象,教师应在教学中依据教材提供的数据材料或通过实验所得数据及推理演算,引导学生在探索中得出相关概念,并进一步理解概念的本质。通过数据分析的教学,让学生自己收集数据,应用数据分析,从而感受数据分析的实际价值,深刻理解概念的内涵。
例如,弱电解质电离平衡常数用Ki表示。弱电解质通常为弱酸或弱碱,所以在化学上,可以用Ka、Kb分别表示弱酸和弱碱的电离平衡常数。用HA表示弱酸,则其电离方程式为HA H++A-,则电离常数Ka=[H]*[A]/[HA],电离平衡常数描述了一定温度下弱电解质的电离能力。在相同温度和浓度时,电离度的大小也可以表示弱电解质的相对强弱。用电离度比较几种电解质的相对强弱时,应当注意所给条件,即浓度和温度,如不注明温度通常指25℃。
在教学过程中,我们发现这些概念抽象难以用启发式教学法让学生去学习,因为学生对于课本上弱酸的电离平衡常数的理解总是基于表面,没能真正理解化学概念的内涵。
教师在教学中应充分利用课本中的数据,分析Ka与电离度α的关系,比较Ka与电离度α的相同点与不同点。电离常数K与电离度α的关系可近似地表示为K=cα2,其中c为弱电解质溶液的浓度。教师通过设计一组具体数据,让学生从电离常数可以算出不同浓度、不同温度时弱电解质的电离度,比较电离常数与电离度的区别,可看出Ka是常数而α不是常数。Ka随温度而变化,α随Ka而变化,因此α也随温度而变化,Ka不因浓度改变而变化,但α却随浓度而变化,Ka不因溶液中其他电解质的存在而变化,但α却因溶液中其他电解质离子的存在而变化。
例如,在醋酸溶液中加入醋酸钠(CH3COONa),则因同离子效应而使平衡向左移动,α将减小。在室内温度下,醋酸的电离常数是1.8×10-5,学生对这一数据并没有什么印象,但通过计算可以得出它的电离度α=1.3%,学生得出每1000个醋酸分子室温条件下只有13个醋酸分子发生电离,987个醋酸分子的形式存在溶液中。通过数据的分析转换,学生容易理解弱电解质的电离程度的大小,有利于把握化学概念的内涵。
二、运用数据分析,准确化学概念的外延
化学课本中有许多数据,教学中并不要求具体记忆这些数值,但对这些数据的统计分析,既能帮助学生理解概念本质,形成学科观念,又有利于培养学生严谨的科学态度,全面提升科学素养。对这些数据的统计分析,有利于学生建立准确的数据观念,可以发展学生的数据意识,学生从中提取相关信息,从而充分体现化学基本概念对元素化合物性质学习的指导作用。例如,关于Ka概念外延的教学,我们应该清楚该概念的适用范围。
(1)根据Ka判断弱酸的酸性强弱。通过Ka的学习达到指导元素化合物性质的学习。相同条件下,Ka越大,酸性越强。通过比较Ka,我们可以得出常见弱酸的酸性:CH3COOH>H2CO3>
H2SiO3;H2CO3>HClO;H2CO3>Al(OH)3。这样,学生就很容易理解醋酸溶液与碳酸钙的反应,还有漂白粉放置在空气中失效、水玻璃溶液中通入二氧化碳气体、偏铝酸钠溶液中通入二氧化碳气体等一系列反应,这些反应都是高一化学课本中的重要反应,都符合“酸性强的制取酸性弱”的基本原理。
(2)以Ka来判断盐类物质的水解相对大小。根据盐类水解规律“越弱越水解”,我们可以判断出相同条件下醋酸铵溶液、氯化铵溶液、次氯酸铵溶液水解的相对大小,从而判断出溶液的酸碱性。分析利用醋酸Ka和氨水Kb数据的特殊性可知:醋酸铵溶液接近中性,进而可以探究Mg(OH)2沉淀溶于浓铵盐的反应原理。
(3)根据Ka1、Ka2判断酸式盐溶液的酸碱性。在25℃时,碳酸的电离平衡常数分别为:碳酸Ka1=4.30×10-7,Ka2=5.61×10-11;亚硫酸的电离平衡常数Ka1=1.54×10-2 ,Ka2=1.02×10-7。对于酸式盐NaHA的水溶液, NaHA 中 HA-既可电离:HA- H++A2-,也可水解:HA-+ H2O H2A + OH-。酸式盐溶液由于NaHCO3溶液的Ka1Kh1而显酸性。
(4)根据Ka1、Ka2的相对大小判断物|的性质、理解离子反应的实质。碳酸Ka1=4.30×10-7 ,Ka2=5.61×10-11 ;苯酚C6H5OH ,Ka=1.0×10-10; 氢氧化铝的酸式电离Ka= 6.3×10-13 。通过对这些数据的分析,我们容易得出酸性:H2CO3>HCO3->Al(OH)3-;H2CO3>
C6H5OH>HCO3-。这样就容易理解以下四个反应:
A.往苯酚钠水溶液中通入少量或足量CO2 : C6H5O-+H2O+CO2 C6H5OH+
HCO3-
B.往偏铝酸钠水溶液中通入少量CO2 :AlO2-+H2O+CO2Al(OH)3+CO32-
C.往偏铝酸钠水溶液中通入足量CO2:AlO2-+H2O+CO2Al(OH)3+
HCO3-
D. 偏铝酸钠水溶液与碳酸氢钠水溶液混合: AlO2-+HCO3-+H2O
Al(OH)3+CO32-
三、运用数据分析,拓展提高学生综合应用概念的水平
化学计算是中学化学教学的重要内容,也是中学生必须掌握的一个基本技能,学会数据分析是提高计算能力的关键。化学计算题中,往往题目数据多、综合性强,但学生们因综合分析能力差,不善于对知识准确迁移,因而觉得十分棘手。分析化学过程、融会贯通理解化学概念的内涵是正确解决化学计算题的基础。
在学习《溶液中的离子反应》专题后,许多教师会引导学生对化学平衡常数K、酸碱电离平衡常数Ka、Kb、水的离子积Kw、难溶电解质的溶度积Ksp等一些概念进行比较归纳,分析他们的异同,但是若能进一步拓展到酸电离平衡常数Ka与盐的水解常数Kh、与难溶电解质的溶度积Ksp、配合物的稳定系数Kw之间的联系,就能进一步提高学生的综合能力。
例如,在25℃下,于0.010mol・L-1
FeSO4溶液中通入H2S(g), 使其成为饱和溶液 (C(H2S)= 0.10mol・L-1) 。
中图分类号:TP274文献标识码:A文章编号:1009-3044(2008)15-20ppp-
The Research Content And Data Analysis Methods On the Gene Regulatory Networks
GUO Zhi-long1,2,JI Zhao-hua1,3,TU Hua-wei1,LIANG Yan-chun1
(1.College of Computer Science and Technology,Jilin University,Changchun 130012,China;2.Dalian Huaxin Software Corporation,DaLian 116000,China; 3.Inner Mongolia Xing'an Vocational and Technical College,Wulanhaote 137400,China)
Abstract:Gene regulatory networks,which reveals the complex phenomena of life from the view of the complex interactions of genes,is very important to understand the functional genomics for researchers.The article focuses on the research content and data analysis methods about gene regulatory networks.
Key words:gene regulatory networks;Self-organizing Map;machine learning
基因调控网络是计算机科学、数学、信息学向分子生物学渗透形成的交叉点,是运用生物信息学的方法和技术通过数据采集、分析、建模、模拟和推断等手段研究复杂的基因网络关系。作为一种系统的、定量的研究方法建立在包括分子生物学,非线性数学和程序算法设计等知识等基础上,运用生物信息学的方法和技术通过数据采集、分析、建模、模拟和推断等手段,整合已有的实验数据和知识,构建生物基因调控网络,从整体的层次,了解细胞的功能;从整体的角度,阐述基因参与的生物调控过程,在全基因组水平上以系统的、全局的观点研究生命现象及其本质,是后基因组时代研究的重要内容。
1 基因调控网络概念
基因调控网络本质上是一个连续而复杂的动态系统,即复杂的动力系统网络。
1.1 基因调控网络的定义
生物体任何细胞的遗传信息、基因都是同样的,但同一个基因在不同组织、不同细胞中的表现并不一样。一个基因的表达既影响其它的基因,又受其它基因的影响,基因之间相互促进、相互抑制,在特定的细胞内和时间下综合环境等因素这样的大环境中呈现活化状态,构成一个复杂的基因调控网络。
1.2 基因调控网络的特性:
基因调控网络是连续的多层次动力系统模型,具有稳定姓、层次性、复杂性、动态性等。
1.2.1 复杂性
生物具有大量的基因,诸多基因组成各个模块,不同的基因网络模块可以在不同层次上发生相互作用,同一个基因可能参与各种不同的分子机理,使得基因网络有着高度的复杂性。
1.2.2 层次性
基因调控网络具有一定层次结构,按照调控元件、motif、模块和整个网络的四层结构,将各个节点有规律的来接在一起。调控元件分为顺式(cis-)和反式(trans-)两种类型, 分别表示受调控基因的结合位点DNA 序列和结合在该序列上对基因起激活或者抑制作用的转录因子。Motif 和模块都是由基因集合构成的调控模式, 是分析网络局部特征和网络构成以及研究调控机理的重要结构。
1.2.3 动态性
生物过程是动态的,用来理解生物过程意义的基因调控网络自然就动态存在。基因调控网络是随着生物过程的动态发生而具有动态的特性,不同条件、不同时间的基因调控网络是不同的。
1.2.4 稳定性
基因调控网络的稳定性体现在生物体缓解突变的影响方面,功能上无关基因之间的相互作用可以抵抗系统突变;一个基因在突变中丧失的功能,有另外一个或更多具有相似功能的基因所补偿,以减弱该突变对表型造成的影响,保持生物进化中的稳定性。
1.2.5 功能模块性
基因调控相关的生物功能主要是通过网络模块来实现的,有适当尺度下的动力学特征和生物学功能解释的模块是由多个motif 构成的,实现相同功能的基因或蛋白质存在拓扑结构上是相关的。
1.3 基因调控网络研究的目的
通过对基因调控网络的研究,识别和推断基因网络的结构、特性和调控关系,认识复杂的分子调控过程,理解支配基因表达和功能的基本规则,揭示基因表达过程中的信息传输规律,清楚整体的框架下研究基因的功能。
2 基因调控网络研究内容
基因调控网络的研究是假设两个基因列谱相似,则这两个基因协作调控,并可能功能相近,有同样表达模式的基因可能有同样的表达过程。基因调控网络主要在三个水平上进行:DNA水平、转录水平、翻译水平。DNA水平主要是研究基因在空间上的关系影响基因的表达;转录水平主要研究代谢或者是信号转导过程决定转录因子浓度的调控过程;翻译水平主要研究蛋白质翻译后修饰,从而影响基因产物的活性和种类的过程。基因转录调控信息隐藏在基因组序列中,基因表达数据代表基因转录调控的结果,是转录调控信息的实际体现。
基因调控网络试图从DNA微阵列等海量数据中推断基因之间的调控关系,对某一物种或组织中全部基因的表达关系进行整体性研究。采用带有反馈回路的基因网络,首先是按照同步或反同步表达,以及表达强度的变化,系统地识别各基因的特点,再用聚类的方法将各基因归类,在此基础上构建基因调控网络,分析相关控制参数.利用其本身或调节位点或拓扑结构进行不同的研究。