时间:2023-01-12 18:57:22
导言:作为写作爱好者,不可错过为您精心挑选的10篇数据挖掘课程,它们将为您的写作提供全新的视角,我们衷心期待您的阅读,并希望这些内容能为您提供灵感和参考。
2、基于模块化方法的课程内容分析
模块化教学模式是按照程序模块化的构想和原则来设计教学内容的一整套教学体系,它是在既定的培养目标指导下,将全部教学内容按照一定标准或规则进行分解,使其成为多个相对独立的教学模块,且各教学模块之间可以按照一定的规则有选择性的重新组合。该方法在20世纪70年代,由国际劳工组织引入教学之中,开发出以现场教学为主,以技能培训为核心的模块化教学模式,在很多国家得到广泛应用。由于该教学法具有针对性、灵活性、现实性等特点,越来越受到教育界的关注。模块化教学本质上是以知识点与实践的细化为出发点研究,本课程的知识点细化分为两个层次:一是从宏观角度,参考ACM的SIGKDD的数据挖掘课程建设建议,设计课程的基础内容模块和高级主题模块;二是从微观角度,针对较为复杂的算法进行的知识点划分。课程内容的一至五章属于基础内容模块,介绍本课程的基础理论和入门的数据挖掘技术;六至第八章介于基础内容与高级主题之间,介绍数据挖掘的核心算法,可以根据学生情况进行灵活处理,可强调应用,也可深化算法介绍;第九、十章为高级主题模块,可以作为扩展材料介绍应用,或为感兴趣同学提供算法介绍;课程实践模块包含数据仓库建设与数据挖掘算法的应用,难度居中,可以在引导学生思考的前提下给出实验步骤,并引导学生使用类似的方法处理不同的数据。
3、基于模块化方法进行重要知识点的模块化分析
重要知识点内涵较为丰富,一般体现在经典数据挖掘算法上,通常一大类算法下还分有多个算法,不同算法的在难度上有渐进层次,同一种算法也有很大改进研究空间,讲授弹性比较大。因此,适合使用模块化方法进行处理,并且需要在课程设计中明确一定课时量所要达到的内容和难度。基础部分为必选内容,介绍基本概念和基本原理;决策树作为数据挖掘分类算法的最基础算法也是必选内容,决策树算法有多种分类,需要进行按照难易程度进行选择;最后要根据难度选择其他分类算法进行介绍。
【关键词】 网络课程;数据挖掘;挖掘模式
【中图分类号】 G40-034 【文献标识码】 A 【文章编号】 1009―458x(2014)09―0068―04
一、引言
随着互联网以及移动设备的迅速普及,人们使用网络的时长在不断增加,通过网络进行学习的需求及能力也在迅速提高。据美国Ambient Insight研究报告指出,2009年美国中学以后的教育机构中,有44%的学生通过网络进行课程学习,预计到2018年,美国通过网络学习的学生人数将超过面授学生的总人数。在韩国,78%的高校都提供网络教学(Allen et al. 2008)。在中国,教育部于2011年10月启动了国家开放课程建设工作,教育部《教育信息化十年发展规划》(2011-2020年)中也明确提出了“推动信息技术与高等教育融合,创新人才培养模式”的要求,融合的关键就是要选择有效的网络教学模式,因此,对网络教学的质量和有效性研究正被人们所关注。
本文以Moodle网络课程平台为基础,分析并提出有针对性的数据挖掘方法构架,以达到对课程建设情况和学生学习应用情况的跟踪分析,为教师改进教学策略、提高网络课程教学质量提供有力支持。
二、选择Moodle网络课程平台的理由
之所以选择Moodle课程管理系统建设网络课程平台,是由于Moodle课程管理系统是一个开源免费软件,更主要的是其模块化的设计非常易于课程的创建,能使课程教师摆脱课程网站建设的技术屏障,还可以使教师从课程内容的设计者转变为教学资源与活动的组织者。[1]
在国外Moodle系统的应用得到了迅速推广。有数据显示,使用Moodle的国家和地区有200多个,注册使用机构有67,000多所,注册用户数量达5,800万,运行课程有600多万门。注册用户最多的前五位国家分别是美国、西班牙、巴西、英国和德国。[2]
三、教师所关注问题调查
根据教育部颁布的《CELTS-31教育资源建设技术规范》,将教育资源建设分为素材、课程、评价和资源管理系统开发四个层次。其中素材与课程是网络教育资源建设的基础,评价和资源管理系统则分别是确保质量与实现资源建设的工具与手段。[3]对于建设网络课程的教师需要了解它的使用情况,从而分析课程结构是否合理,调整课程内容的分布情况,优化网络课程的设计,提高教学效果。
为了解教师使用网络课程的期待值和目的性,我们采取目的抽样和随机抽样相结合的方式,样本来自笔者所在的三个教师专用QQ群人员。调查问卷设计从了解教师对网络课程的需求、认识、应用三个主要层面展开,具体的问卷内容为四个部份:了解参与问卷教师的基本情况;了解教师对网络技术应用的需求情况;了解教师对网络课程的认识及使用困难所在;了解教师希望网络课程能帮助解决教学中的哪些问题。问卷在公共专业问卷调查网站(问卷星)上,一周后回收有效问卷159份。数据分析基本报告可见链接:http:///report/3234099.aspx。
笔者所在院校为云南普通高校,与问卷的地图分布情况相吻合,应该更能代表云南普通高校的普遍情况(见图1)。
图1 问卷来源地理分布比率图
问卷中有96.61%的教师认为应该在教学中整合网络技术,有38.98%的教师因为技术应用能力的不足,不够明确如何使用网络技术(见图2),这说明我们建设网络课程应该选择如同Moodle这样简单易用的课程管理系统。
对于建设网络课程,教师关注度较高的前4个方面是:学生学习过程参与的情况、网络资源的使用情况、学生在线学习时间以及学生参与讨论的频度情况(见图3)。
图2 教师对网络技术与教学融合的意见
图3 教师关注信息统计
四、网络课程数据挖掘模式构架
数据挖掘技术是获取相关信息的有效技术手段。对于教师所关心的几个方面内容,这里提供几种可借鉴的方法:
1. 学生学习过程分析
美国教育评价专家斯克里文(G F. Scriven)在1967年所著的《评价方法论》中,提出形成性评价是为正在进行的教育活动提供反馈信息,以提高正在进行的教育活动质量的评价,是一种对学习进程的动态评价。教师和学生可以依据获取的反馈信息了解学习状态,及时调整教学或学习。[4]
在Moodle平台中具备学生学习进展跟踪功能。
方法一:通过设置“课程进度跟踪”,了解学生各项学习活动的完成情况。
如图4所示,进入课程,在“课程管理”/“课程进度跟踪”进行跟踪条件设置,然后再选择“课程管理”/“报表”/“课程进度”,就会显示选修该门课程的所有学生的各项学习活动的完成情况。
图4 课程进度跟踪设置
方法二:分析学生各项学习活动的参与度。
通过选择“课程管理”/“报表”/“课程成员”,可以详细地显示各项课程活动学生的参与情况,以及参与的次数,更清楚地分析学生的学习努力程度。如图5所示,列出了数据库原理及应用这门课程的“第一部分测验”活动、每个学生参与的次数。
方法三:采用数据挖掘手段,了解学生的学习风格。
此方法要求具备一定的数据挖掘知识及应用能力。通过Mysql系统提取Moodle后台数据库(\server\mysql\data\mysql)进行关联规则分析。
关联规则数据挖掘,可以发现学生学习行为之间的关系,通过对学生的某两类网络学习行为之间取值关系进行分析就可以得出它们之间的关联性,进而预测学生将要进行的下一个行为,从而挖掘网络学生学习行为之间的关系,使得学生学习风格显性化。[5]
2. 课程资源利用情况分析
课程资源建设是影响网络教学应用质量的重要因素。甘振韬等通过SQL Server的Analysis Services 工具,对网络课程的资源配置情况,包括资源配置指数和访问量进行分析。[6]
Moodle平台能很直观地呈现课程各项资源的访问情况。
方法:选择“课程管理”/“报表”/“课程活动”,课程设计的各项活动被访问量被详细统计出,如图6所示,教师可以清楚了解课程资源的利用率情况,分析学生的学习喜好,适当调整各活动资源的配比。
图6 课程资源访问情况
3. 学生在线学习时间分析
对于某门课程,通过分析学生的日志,可以掌握学生的在线学习时间,以及学习时段的分布情况。
方法:点击“课程管理”/“报表”/“日志”,其中可以设定查看所有成员或是某一个成员、所有活动或是某一项活动,以及所有日期或是某一天,学生的在线学习情况。如图7所示。
图7 学生日志
4. 学生参与讨论的频度分析
学生参与课程讨论的频度,可以反映学生的学习主动性,教师通过观察可以即时进行有针对性的教学干预。
方法:选择“课程管理”/“报表”/“课程成员”,如图8所示,学生参与“课程聊吧”活动的情况。
图8 学生参与讨论活动的频度
5. 学习成绩分析
学生的最终学习情况需要一个成绩评定,Moodle平台的设计理念中非常强调过程性评价,它能够记录学生学习过程中的各项活动成绩,包括师生、生生相互评价的成绩,汇总成学生的最终成绩。
方法一:查看教学活动的单项成绩情况。
直接使用Moodle平台所提供的课程管理功能,点击“课程管理”/“成绩”选项,打开成绩管理菜单,再选择“类别和项”下的“简略视图”(如图9),可以查看教学活动过程各项汇总成绩。并可以设置学习过程中各部分占总成绩的比率。
方法二:对测验试题结构分析。
在Moodle中若选择测验,则出现“测验管理”,再选择“测验管理”/“统计”,可以得到本次测验的统计分析报告。包括此测验的标准偏差、测验的分数分布偏度、分数的分布峰度等。还有此测验试题的结构分析结果,包括容易度指数、试题的标准偏差等(如图10),能让教师科学地调整测验的结构组成,试题的难易程度和分数的布局等。
图10 测验试题结构
方法三:在成绩管理菜单下选择“导出”为Excel、OpenDocument电子表格或其它文档,再进行统计分析。
6. 群组分析(分组)
学生分组开展学习,可以促进学生的集体意识及合作能力的培养,但如何分组?各分组成员真的能很好地协作吗?这需要教师特别注意,需要考虑如何分组才能更好地激发学生的学习积极性。
方法一:选择“课程管理”/“用户”/“小组”,可以自主创建小组,也可以用“自动创建小组”方式创建,如图11所示,就是以自动方式创建的小组,其中还可以指定小组数量或是每个小组成员数。这种方式设置的小组较为随机,如果希望分组能考虑成员的凝聚性可以选择方法二进行。
方法二:应用社会网络分析软件,如UCINET等,可以开展学习社群的关系距离及中心性分析,以及小团体分析等分析。通过收集学生在讨论区或是聊天室中的问答的关系情况获得分析数据。对于社会网络结构的特征分析可以辅助判断师生交互网络发展的成熟程度。
五、小结
本文基于Moodle网络课程管理系统,介绍了教师关心的几个方面的数据分析方法,为想要分析自己网络课程使用情况的教师提供方法借鉴,从而教师能够更好地调整网络课程的内容组成、结构布局,以及教学方法策略的调整。同时,本研究也适当突破Moodle网络课程平台,提供了在其它网络课程平台中进行数据挖掘分析的方法和思路。通过几个方面数据分析方法的整合,目的是提供一种进行网络课程数据挖掘模式架构的研究。今后,研究还应深入底层数据的分析,提供更具通用性的网络课程数据挖掘模式方法。
[参考文献]
[1] 黎加厚. 信息化课程设计――Moodle 信息化学习环境创设[M]. 上海:华东师范大学出版社,2007.
[2] 张伟远,段承贵. 网络教学平台发展的全球合作和共建共享[J]. 中国远程教育,2012,(10):32-36.
[3] 邓康桥. workflow技术在网络课程开发管理系统中的应用研究[J].中国远程教育,2013,(4):63-68.
[4] 刘纳. 基于数据挖掘技术的网络学习形成性评价研究[D]. 上海:华东师范大学,2012.
[5] 李素珍. 基于网络学习行为分析的网络学习风格与学习偏好挖掘模型研究[D]. 武汉:华中师范大学,2009.
中图分类号:TP311 文献标志码:A 文章编号:1006-8228(2014)04-59-03
Abstract: With the advent of the era of big data, data mining has become an essential technology which has important social value in the field of business, healthcare, manufacture and administrative management, etc. In many universities, the course of data mining is an important course which is integrated with other disciplinary knowledge and plays an important role in talent cultivation. According to the characters of big data, the knowledge hierarchy data mining is presented, and case teaching and new teaching evaluation method in graduate students' data mining course are discussed. The result shows that the effect is good and it is welcomed by graduate students.
Key words: data mining; knowledge hierarchy; case teaching; teaching evaluation
0 引言
近年来,传统科学研究(如天文物理学、生物医学等)、电子商务、网络搜索引擎(如GOOGLE和百度等)和物联网等产生的数据已经以PB或ZB(10的21次方)来计算。以分布式数据仓库、流计算的实时数据仓库技术为代表的最新数据存储技术,让全世界的数据存储量越来越大,由人、机、物三元素高度融合构成的信息化的社会引发了数据规模的爆炸式增长和数据处理模式的高度复杂化,大数据(Big Data)时代已经到来[1]。因此,数据具有越来越强的可视性、可操作性和可用性,能够越来越细致、精准、全面和及时地反映人的思维、行为和情感,以及事物的特性和发展规律,要想让这些大数据以更加有效的方式为提升人类各方面的生产力和生活质量服务,离不开以非平凡的方法发现蕴藏在大量数据集中的有用知识为根本目的数据挖掘技术的支撑。
市场上对于有大数据背景知识又懂数据挖掘技术的专业人才的需求也将越来越大,作为一名高校计算机专业教师,根据自己三年来研究生数据挖掘课程的授课经历,结合当前大数据的时代背景,对数据挖掘课程教学进行了新的思考和探索。
1 明确大数据背景下学习数据挖掘知识的重要性
1.1 大数据的定义
“大数据”是最近几年才出现的新名词,尚无统一的概念,维基百科上的解释是:大数据是由数量巨大、结构复杂、类型众多数据构成的数据集合,是基于云计算的数据处理与应用模式,通过数据的整合共享,交叉复用形成的智力资源和知识服务能力。
1.2 大数据的特征
大数据的特征可以总结为四方面,即4V。
⑴ 数据量浩大(Volume)――数据集合的规模不断扩大,已从GB到TB再到PB级,甚至开始以EB和ZB来计数。例如:1立方毫米电子显微镜重建出的大脑突触网络的图像数据就超过1PB。
⑵ 模态繁多、异构(Variety)――大数据面向的是一切计算机可以存储的数据格式,类型包括结构化数据、半结构化数据和非结构化数据,包括互联网上的各种网页、图片、音频、视频、文档、报表,以及搜索引擎中输入的关键词、社交网络中的留言、喜好和各种传感器自动收集的监控结果等等。
⑶ 生成快速(Velocity)――大数据往往以数据流的形式动态、快速地产生,具有很强的时效性,同时,数据自身的状态与价值也往往随时空变化而发生演变,数据的涌现特征明显。
⑷ 价值巨大(Value)――数据显性或隐性的网络化存在使得数据之间的复杂关联无所不在,将对信息科学、社会科学、网络科学、系统科学、心理学、经济学等诸多领域的研究和应用起到革命性的作用,价值巨大[2]。
Gartner、IBM和牛津大学2012年联合的关于大数据的研究报告指出:交易数据、记录数据、事件和电子邮件是四大主要数据;数据挖掘,数据可视化,预测,建模与数据优化是五大数据能力[3]。大数据的潜在价值只有通过数据挖掘才能显现,因此,国外的Google、IBM、Amazon、Oracle、Microsoft、EMC;国内的腾讯、百度、新浪、淘宝等知名企业已经开始着眼大数据,从不同角度进行数据挖掘,以便改善自身服务,创造更大的商业价值。所以,作为高校教师,首先要让学生了解大数据的基本特点,明确数据挖掘知识和技术对当今社会的重要意义。
2 利用概念图,构建数据挖掘课程的知识体系结构
在大学里,设置一门课程,不能只关注这门课程所含的内容,更要考虑教育培养学生基本专业能力、可持续发展能力等本质性的问题。
数据挖掘是一门结合数据库技术、统计学、机器学习、神经网络、知识系统、信息检索、高性能计算和可视化等多门学科知识的交叉学科[4]。而且,该课程既包括各种理论知识,又离不开相关的实践技术,整个教学过程是培养和提高学生的创新能力和综合解决问题能力的重要途径。因此,针对计算机专业的学生,教学的首要任务是构建起整个课程的核心知识结构(如图1所示),同时,简单介绍相关的统计学、机器学习等计算机专业学生不太了解的非专业知识。
课程核心知识结构是教学的主线,是学生必须要掌握的。首先,让学生明确数据挖掘前要先经过预处理,再存入数据仓库;其次,针对具体情况利用相关的挖掘工具和挖掘算法进行挖掘;最后,挖掘结果以可视化的形式有效地展示给用户。教学的重点是挖掘算法和挖掘工具。对于挖掘算法,以数据挖掘国际会议ICDM(the IEEE International Conference on Data Mining)的专家评选出的十大经典算法(见表1)为主[5],结合相关实例给学生介绍各种算法的基本思想和相关概念,重点介绍使用较多的分类、聚类、关联、序列和机器学习这几种算法,先为学生打下良好的理论基础。
3 以实例为切入点,注重理论结合实践
数据挖掘课程主要针对我校研究生开设,考虑到学生就业和当前市场需求,以及课程本身实践性强的特点,在教学过程中要注重理论结合实践,注意培养学生解决实际问题的能力。因此,在给学生介绍目前常用的数据挖掘工具(如IBM Intelligent Miner、SAS Enterprese Miner、SPSS Clementine、Weka等)的基础上,结合市场应用需求,以实例为切入点,分别分析数据挖掘在互联网日志分析、电子邮件分析、互联网广告挖掘、电子商务、移动互联网等各大领域中的实际应用情况和成功案例(表2)。同时,还可以从内容挖掘、结构挖掘和用户访问模式挖掘这三个方面简单介绍WEB挖掘的基本知识[6]。这样,课程本身就脱离了枯燥的理论,让学生对数据挖掘有了感性认识,激发学习兴趣。
⑵ 过滤垃圾邮件。\&互联网广告\&⑴ 通过大数据挖掘,精准定位各类客户的广告形式;
⑵ 准确评估广告效果。\&电子商务\&用数据提升整体营销;通过日志挖掘做客户分析;用序列算法分析商品上架时间;用聚类算法对商品分类、提升会员管理。\&移动互联网\&⑴ 锁定用户的数据价值,通过地理位置信息挖掘出有价值的东西;
⑵ 文本挖掘。\&]
在教学过程中,贯穿以“能力培养为目标”的实践教学理念,提供有效的网络资源,让学生自己动手动脑,分析成功案例,完成教师给定的虚拟挖掘任务,强化学生参与意识,教师在以学生为主体的教学过程中当好指导者和激励者,从而充分调动学生的主观能动性,掌握不同应用领域大数据的挖掘问题的基本解决方法,培养学生的创新能力。例如,给学生一个文本挖掘的分类题目,让他们熟悉从原始数据的清洗、预处理、降维、建立模型、测试、得到结论等一系列环节。
4 改革教学评价,实施分类化评价
数据挖掘课程是一门融合了多个学科的实践性很强的课程,对应的考核方式应该与其他专业课程有所区别,应该更重视学生学习过程中的表现和能力的提升。
理论知识的考核注重学生对数据挖掘基本概念、挖掘流程和主要挖掘算法的掌握情况,主要以试卷考核的方式为主,注意主观题和客观题的数量比例,采用统一考核方式和评判标准。对于实践技能的考核,主要强调的是学生对不同类型数据进行挖掘时应掌握的相关软件使用技能的考查,考核时除了要体现学生对实验原理的掌握外,更重要的是要反映出学生在实验方法的掌握、设计、操作过程中的实际能力,我们取消了以往把一次性考试结果作为总成绩的方法,而把学生平时课堂实验成绩作为总成绩的主要部分,考核成绩占课程总成绩一定比例。
教师教学质量的评价与学生考核成绩相对应,可采用单独评价和统一评价两种方式。单独评价是指将社会实践作为一个独立的质量评价过程对教师教学质量进行考核;统一评价是指将教师实践教学与理论教学综合起来统一考核,以一定比例计入教师总体评价。
无论是对学生,还是对教师,这种分类化的教学评价方式,不仅有利于学生实际能力的培养,而且对教师的教学水平也是一种促进,有利于课程教学质量的不断提高。
5 结束语
大数据时代,谁能发掘出数据背后的巨大商业和社会价值,谁就能在激烈的市场竞争中处于优势。数据挖掘作为计算机应用专业的研究生核心课程之一,也是学生今后就业必需的专业技能之一。以往的教学过程理论性强,枯燥乏味,考核形式单一,学生学习热情普遍不高,不利于学生专业能力的培养。本文结合当前大数据的时代背景,在构架课程核心知识体系的前提下,结合实际应用领域和案例,分析数据挖掘常见算法和常用工具,强调学生的参与和主观能动性的发挥,而采用分类化的教学评价又能比较客观、公正地评价学生对课程知识和专业实践技能的掌握情况以及教师的教学效果。课程开设三年来的教学实践证明,学生综合运用计算机专业知识的能力得到提高,理论与实践结合的创新能力得到锻炼,教师在教学过程中不断完善了自身的知识结构,提高了教学水平,实现了教学相长,得到了学生的好评。
参考文献:
[1] Anand Rajaraman, Jeffrey David Ullman.大数据:互联网大规模数据挖掘与分布式处理[M].人民邮电出版社,2012.
[2] 李国杰.大数据研究的科学价值[J].中国计算机学会通讯,2012.8:8-15
[3] Jiawei Han,Micheline Kamber,Jian Pei等.数据挖掘概念与技术(第3版)[M].机械工业出版社,2012.
二、根据信息管理专业本科生培养要求确定课程目标
数据挖掘课程是一门综合性很强的前沿学科,对计算机软硬件、数据库、人工智能技术、统计学算法、优化算法等基础知识都有较高的要求。因此该门课程开设在学生大三下学期,既有相关知识的基础,又为大四做毕业设计提供了一种思路。信息管理专业是计算机与管理相结合的专业,旨在培养具备信息系统开发能力与信息资源分析与处理能力的综合应用型人才。对信息管理专业的学生而言,本课程主要的目标是数据挖掘算法原理理解、数据挖掘算法在商务管理问题中的应用以及常用数据仓库与数据挖掘软件的熟练应用和二次开发。
三、基于模块化方法的课程内容分析
模块化教学模式是按照程序模块化的构想和原则来设计教学内容的一整套教学体系,它是在既定的培养目标指导下,将全部教学内容按照一定标准或规则进行分解,使其成为多个相对独立的教学模块,且各教学模块之间可以按照一定的规则有选择性的重新组合。学生可以根据个人兴趣和职业取向在不同模块之间进行选择和搭配,从而实现不同的教学目标和人才培养要求。模块化教学本质上是以知识点与实践的细化为出发点研究的。商务智能方法本身非常丰富,实践应用也是课程的主要特点之一,因此十分适合使用模块化的知识分解方式。本课程的知识点模块管理分为两个层次,一是从宏观角度设计课程的基础内容模块和高级主题模块;二是从微观角度针对较为复杂的教学内容进行的知识点划分。
1.课程主要内容模块化分析。目前该课程包括十章理论内容,分别为数据仓库与数据挖掘的基本知识、数据仓库的OLAP技术、数据预处理、数据挖掘系统的结构、概念描述:特征化与比较、挖掘大型数据库中的关联规则、分类与预测、聚类分析、复杂类型数据挖掘和序列模式挖掘。根据模块化管理的宏观角度分类,课程内容的第一至五章属于基础理论部分和简单数据挖掘技术的介绍,可以作为基础内容模块;第六至八章为数据挖掘的核心算法,其中既有基础理论与技术方法,又可深入到较难的方法和复杂的应用,因此介于基础内容与高级主题之间;第九、十章可以算做课程的高级主题模块;另外,课程的实践模块既包含数据仓库的建设又包含数据挖掘算法的应用,难度也介于基础内容与高级主题之间。
2.复杂知识点的模块化管理。从微观角度对知识点进行设计主要针对的是上述的高级主题、以及难度介于基础内容与高级主题之间的章节,由于这些章节知识点在难度上有一定层次,讲授内容弹性比较大,因此需要在课程设计中明确一定课时量所要达到的难度。以商务智能技术中的分类算法为例:首先一般的入门课程都会介绍分类算法的概念和基本原理;接着开始介绍分类算法的基础算法———决策树,而决策树算法中又包含ID3等多种算法,并且除了决策树外,还有其他更高级的分类算法;在真正使用分类法进行预测时,还要分析预测准确度;最终要将所学知识加以应用。这样就形成了一个结构清晰、难度循序渐进的知识点模块的层次关系。在宏观角度、微观角度对教学内容进行分类的前提下进行相应的授课方法与考查方法的研究,才能真正有助于学生的学习。
四、授课与考核方法设计
对不同层次学生要求不同,这种不同既体现在知识点的要求上,又直接体现在任务的难易性程度上,这都需要教师在课程设计时充分考虑不同要求情况下的不同的授课方式,并使学生清楚自己需要掌握的程度。对于高级算法和实现部分,通常可以选择一到两章内容采用专题探讨式的教学方法。这种方法是指在教师启发和引导下,以学生为主体,选择某个基本教学单元为专题,学生自主研究作为知识传递的基本形式,将多种灵活的教学方式综合运用到教学环节的教学方法。根据信管专业培养方案的培养目标、以及对学生调研的情况,实践环节比较适合选择成熟的商务智能工具进行数据的整合和多维数据建模,也就是直接使用现成的;或者使用数据挖掘软件进行数据建模,完善数据挖掘算法。可以针对学生管理基础课与IT基础课知识的掌握情况,选择合适的工具为学生设计综合性实验。实验中给出部分操作步骤,并在实验后期仅给出数据与工具,让学生自己设计数据仓库、进行数据挖掘、并对挖掘结果进行多种形式的展示。
中图分类号:G642 文献标志码:A 文章编号:1006-8228(2014)11-65-02
Course construction of data mining course for IT specialty in application-oriented university
Li Zhong, Li Shanshan
(Institute of Disaster Prevention, Sanhe, Hebei 065201, China)
Abstract: Aiming at the content differences of data mining course in the application-oriented university, the training objectives and requirement for different specialty are analyzed. The content system and hours arrangements of data mining courses for IT specialty starting are given from the three major functions of data mining. Based on the last two years' student teaching effectiveness of data mining courses, it is concluded that combining theoretical and experimental training content settings with appropriate teaching methods can improve learning interest, stimulate learning enthusiasm, improve operating ability and achieve training objectives.
Key words: data mining; course content system; IT specialty; teaching effectiveness
0 引言
毋庸置疑,我们正处在信息时代。根据国际互联网管理机构2012年的数据,每天全球互联网流量累计达1EB(即10亿GB),这意味着每天产生的信息量可以刻满1.88亿张DVD光盘[1]。要想在如此浩瀚的数字海洋里寻找有用的信息,简直是大海捞针!因此数据挖掘技术应运而生。大概十几年前,微软创始人比尔・盖茨就预言,数据挖掘技术将是未来计算机发展的重要方向之一,事实也的确如此。
数据挖掘技术诞生于20世纪80年代末,是统计学和计算机科学的交叉学科,涉及数据库技术、统计学、机器学习、神经网络、模式识别、知识发现、专家系统、信息检索、高性能计算、可视化以及面向对象程序设计等若干学科知识,在商业、金融、保险、体育、勘探、生物技术等领域获得广泛应用。也正因为该课程涉及的内容宽泛,要求知识面宽广、数学基础扎实等,前几年主要在研究生阶段开设。但是随着信息技术的快速发展,本科生能力要求提高,知识传授的重心下移,很多高校已在本科阶段开设数据挖掘课程,以提高大学生解决实际问题的能力,进而为课程设计和毕业设计打下必要的基础[2]。
1 国内高校本科数据挖掘课程开设现状
通过院校实地交流,结合网络搜索,我们已经收集了十几所高校的数据挖掘课程教学大纲,开设专业包含有计算机类专业、经济统计类专业、电气自动化类专业、生物技术专业等,各专业根据自己的人才培养目标制订教学大纲、教学计划、考试大纲等,其内容存在很大差异。其中985、211高校主要以英语授课,采用国外原版教材,课程内容涉及算法、编程较多;而一般院校多采用中文教材,根据专业不同,内容也有很大差异。
经济统计类专业开设数据挖掘课程,要求学生了解什么是数据挖掘,以及如何用数据挖掘来解决实际问题,了解如何通过几种数据挖掘技术建立数学模型,了解主流数据挖掘系统的特点,能够安装、使用,要求能够熟练使用典型的挖掘工具对实际数据进行分析,具备从数据资源提取信息与知识并进行辅助决策的基本能力。
中图分类号:G642.0 文献标志码:A 文章编号:1674-9324(2014)30-0240-03
随着数据挖掘、商务智能技术的快速发展与广泛应用,亟需对信息管理专业的本科生加强对相关知识的介绍,此时进行课程改革,调整、增加授课学时和实践环节有重要意义。数据挖掘是一门与多学科交叉的新兴计算机专业课程,其课程内容丰富、应用范围广、实践工具类型繁多。在有限授课时间内,如何选择适合于信息管理专业的本科生的课程内容、案例与软件工具,选用何种有针对性的教学方法,是进行数据挖掘课程设计需要解决的主要问题。
一、国内外数据挖掘类课程建设研究分析
近年来,数据挖掘与商务智能技术发展迅速,充分借鉴国外相关研究,尤其是ACM SIGKDD课程委员会对数据挖据课程建设建议,对进行数据挖掘类课程的教学建设研究有重要意义。ACM(美国计算机协会)于1998年成立了SIGKDD(知识发现兴趣小组),致力于知识发现与数据挖掘的相关研究,ACM SIGKDD课程委员会连续多年多次更新其主要课程――数据挖据课程的建议,其中委员会将数据挖掘课程分为基础部分与高级主题,基础部分覆盖了数据挖掘的基本方法,高级主题既有数据挖掘基本方法的深入研究,又有更高级算法的介绍。国外很多大学的计算机科学学院、商学院都开设了数据挖掘类课程并同时进行相关研究。波士顿大学开设了“数据管理与商务智能”课程,课程主要包括基础、核心技术、应用三部分。许多国外著名大学建立了教学管理系统,提供大量的案例、在线讨论和在线辅导功能。国内很多学校都开设了数据挖掘的相关课程,我国大多数高校的课程大纲内容与国外大致相同,只是在实践部分选用了不同的商务案例。数据挖掘的应用领域广泛,因此可以根据开课学院和专业选择合适的实例。
二、根据信息管理专业本科生培养要求确定课程目标
数据挖掘课程是一门综合性很强的前沿学科,对计算机软硬件、数据库、人工智能技术、统计学算法、优化算法等基础知识都有较高的要求。因此该门课程开设在学生大三下学期,既有相关知识的基础,又为大四做毕业设计提供了一种思路。信息管理专业是计算机与管理相结合的专业,旨在培养具备信息系统开发能力与信息资源分析与处理能力的综合应用型人才。对信息管理专业的学生而言,本课程主要的目标是数据挖掘算法原理理解、数据挖掘算法在商务管理问题中的应用以及常用数据仓库与数据挖掘软件的熟练应用和二次开发。
三、基于模块化方法的课程内容分析
模块化教学模式是按照程序模块化的构想和原则来设计教学内容的一整套教学体系,它是在既定的培养目标指导下,将全部教学内容按照一定标准或规则进行分解,使其成为多个相对独立的教学模块,且各教学模块之间可以按照一定的规则有选择性的重新组合。学生可以根据个人兴趣和职业取向在不同模块之间进行选择和搭配,从而实现不同的教学目标和人才培养要求[1,2]。模块化教学本质上是以知识点与实践的细化为出发点研究的。商务智能方法本身非常丰富,实践应用也是课程的主要特点之一,因此十分适合使用模块化的知识分解方式。本课程的知识点模块管理分为两个层次,一是从宏观角度设计课程的基础内容模块和高级主题模块;二是从微观角度针对较为复杂的教学内容进行的知识点划分。
1.课程主要内容模块化分析。目前该课程包括十章理论内容,分别为数据仓库与数据挖掘的基本知识、数据仓库的OLAP技术、数据预处理、数据挖掘系统的结构、概念描述:特征化与比较、挖掘大型数据库中的关联规则、分类与预测、聚类分析、复杂类型数据挖掘和序列模式挖掘。根据模块化管理的宏观角度分类,课程内容的第一至五章属于基础理论部分和简单数据挖掘技术的介绍,可以作为基础内容模块;第六至八章为数据挖掘的核心算法,其中既有基础理论与技术方法,又可深入到较难的方法和复杂的应用,因此介于基础内容与高级主题之间;第九、十章可以算做课程的高级主题模块;另外,课程的实践模块既包含数据仓库的建设又包含数据挖掘算法的应用,难度也介于基础内容与高级主题之间。
2.复杂知识点的模块化管理。从微观角度对知识点进行设计主要针对的是上述的高级主题、以及难度介于基础内容与高级主题之间的章节,由于这些章节知识点在难度上有一定层次,讲授内容弹性比较大,因此需要在课程设计中明确一定课时量所要达到的难度。以商务智能技术中的分类算法为例:首先一般的入门课程都会介绍分类算法的概念和基本原理;接着开始介绍分类算法的基础算法――决策树,而决策树算法中又包含ID3等多种算法,并且除了决策树外,还有其他更高级的分类算法;在真正使用分类法进行预测时,还要分析预测准确度;最终要将所学知识加以应用。这样就形成了一个结构清晰、难度循序渐进的知识点模块的层次关系。在宏观角度、微观角度对教学内容进行分类的前提下进行相应的授课方法与考查方法的研究,才能真正有助于学生的学习。
四、授课与考核方法设计
对不同层次学生要求不同,这种不同既体现在知识点的要求上,又直接体现在任务的难易性程度上,这都需要教师在课程设计时充分考虑不同要求情况下的不同的授课方式,并使学生清楚自己需要掌握的程度。对于高级算法和实现部分,通常可以选择一到两章内容采用专题探讨式的教学方法。这种方法是指在教师启发和引导下,以学生为主体,选择某个基本教学单元为专题,学生自主研究作为知识传递的基本形式,将多种灵活的教学方式综合运用到教学环节的教学方法[3]。根据信管专业培养方案的培养目标、以及对学生调研的情况,实践环节比较适合选择成熟的商务智能工具进行数据的整合和多维数据建模,也就是直接使用现成的;或者使用数据挖掘软件进行数据建模,完善数据挖掘算法。可以针对学生管理基础课与IT基础课知识的掌握情况,选择合适的工具为学生设计综合性实验。实验中给出部分操作步骤,并在实验后期仅给出数据与工具,让学生自己设计数据仓库、进行数据挖掘、并对挖掘结果进行多种形式的展示。
五、结论
本文通过国内外数据挖掘课程内容、分类、教学方法的分析,针对信管专业本科生的培养要求,研究了数据挖掘课程建设的主要内容,并针对知识点的不同模块,实行不同的授课方式,使学生更加明确重点、难点和扩展内容,提高了学生的听课效率,对教学内容的模块化分类、以及相应的授课方式的研究成果仍可继续发挥作用,并进行更深入的研究和实践。
参考文献:
[1]韦艳艳,张超群.模块化教学与学习迁移[J].当代教育论坛,2018,(5).
[2]郑浩,陶虎,王晓辉.高校模块化教学模式及其效果评价方法[J].科技信息,2012,(25).
摘 要:数据仓库与数据挖掘是大数据时代产生的一门新兴交叉的课程。针对该课程的特点,将CDIO工程教学理念融合到教学过程,重新设置了教学目标与大纲、调整了教学内容、改进了教学方法,总结了数据挖掘课程教学实践的一般流程并给出具体的实验教学设计方案。
关键词 :教学改革;数据仓库;数据挖掘;CDIO
中图分类号:G642 文献标识码:A doi:10.3969/j.issn.1665-2272.2015.09.040
收稿日期:2015-03-15
1 CDIO简介
CDIO工程教育模式是基于项目的学习的一种模式。CDIO中,C(Conceive)构思,根据工程实践,让学生掌握专业知识的基本原理,确定未来发展方向;D(Design)设计,以产品设计与规划为核心,解决具体问题;I(Implement)执行,以制造为核心,组织一体化的课程实践,其中包括学生必须掌握的理论知识与实践能力;O(Operate)运作,即产品应用的各个环节。它以产品的研发到运行的生命周期为载体,通过系统的产品设计让学生以主动的、实践的、课程有机联系的方式学习。CDIO代表工程项目生命全周期,是产业转型升级对创新人才需求的形势。
CDIO培养大纲将工程毕业生的能力分为技术知识与推理、个人专业能力和素质、团队合作与沟通能力、在企业和社会环境下CDIO系统四个层面,大纲要求以综合的培养方式达到这四个层面的预定目标。其精髓在于:以工程项目设计为导向、工程能力培养为目标的工程教育模式。
2 “数据仓库与数据挖掘”课程概况
当今的大数据时代,人们处理数据的能力大大增强,快速增长的海量数据已经远远超出人们的理解能力,因此数据仓库与数据挖掘技术得到了广泛关注,有效地挖掘和运用海量数据,获得有价值的知识和信息,从而帮助人们制定正确的决策。很多高校为工程类专业本科生开设这门专业课,研究如何将信息处理技术运用于企业管理决策的具体实际。
本工程课程涉及到数据仓库的设计与构建技术、联机分析处理OLAP技术、分类与预测、聚类、关联规则算法、数据挖掘应用综合项目技术等多方面的知识和技能。通过课程的学习,不仅要求学生掌握在数据仓库与数据挖掘方面的知识,还要求培养学生的工程CDIO能力。
但是目前许多高校在工程教育采用的教学方式存在以下问题:培养目标不清楚,学术化倾向严重;人才培养模式单一,缺乏多样性和适应性;工程性缺失和实践环节薄弱;课程体系与产业结构调整不适应等。在教学过程中,强调教师的主导作用,却忽视了学生的主体作用,忽视了学生的工程意识、工程素质和工程实践能力的培养。这与高校培养创新性应用型人才的目标相悖。因此,改革势在必行。
3 “数据仓库与数据挖掘”课程改革实践
3.1 基于CDIO理念的教学目标与大纲
CDIO教育理念所提倡的工程毕业生的能力分为技术知识与推理、个人专业能力和素质、团队合作与沟通能力、在企业和社会环境下CDIO系统四个层面,四个层面上进行综合培养的教学模式。在CDIO能力培养目标方面,课程在四个能力层面上建立培养目标。
针对“数据仓库与数据挖掘概述”内容,知识点是数据仓库的含义与特征、数据挖掘的任务、多维数据模型。讲授数据仓库的概念、特点、构成以及数据挖掘和数据处理的基本知识,使学生有一个初步的理解。培养学生技术知识与推理能力。
针对“联机分析处理OLAP”内容,知识点是数据仓库的数据组织、数据预处理、数据存储、基于多维数据模型的数据分析。本阶段如果不结合直观的举例讲解,学生就失去了兴趣,因此笔者要布置一些思考题,教会学生自主学习,自己查阅教材、网络等资源资料,从中提炼出结论。培养个人分析问题、解决问题的能力、所学知识的灵活应用能力;
针对“分类与预测、聚类、关联规则”内容,知识点是数据采集、关联规则算法的设计、结果分析。在这个阶段经常会是“数据的堆砌”,讲了很广泛的算法知识却没有足够的时间进行深入理解。因此应抓住关键的概念、能力,引导学生提出问题,并学会调查研究,为学生提供深层学习的机会,并把在第一层面所学的知识运用到对问题的解决之中去。这样,学习的焦点就从“覆盖”的方式过渡到以学生为中心的学习方式。培养数据获取能力、程序设计能力、问题表达能力;
针对“数据挖掘应用综合项目”内容,知识点是项目的准备、进度管理、文档管理和项目设计和实现。实际工作牵涉到企业或者组织的各个部门多类人员,所有团队成员之间协同、合作,会有分工、沟通、协调,甚至会有妥协,这就要求在运用实例的过程中一定要具有团队合作精神。培养工程系统能力和人际团队能力。
3.2 改革教学内容
在教学内容中安排了两级项目:多种初级项目和一个高级项目。初级项目是将课程内容分成各种项目,数据主要来源于SQL Server 2008的示例数据仓库Adventure Works DW,以项目实现促进理论学习;高级项目是综合性项目:“卷烟产品销售规律挖掘”,利用卷烟产品历史销售数据中蕴含的信息,采用数据挖掘技术对各个卷烟品种销售的关联关系进行分析并预测,以制定更加合理的卷烟产品营销策略。具体项目设置如下:
项目一:基于SQL Server 2008的数据仓库数据库及多维数据模型设计。步骤如下:分析组织的业务状况及数据源结构组织需求调研,收集分析需求采用信息包图法设计数据仓库的概念模型利用星型图设计逻辑模型物理模型设计构建多维数据模型。本项目旨在个人能力的培养(分析问题、解决问题的能力、所学知识的灵活运用能力等)。
项目二:关联规则挖掘。使用商业智能开发工具进行购物篮分析,以达到重新设计网站功能,提高产品的零售量。
项目三:潜在客户分析即分类及预测。使用商业智能开发工具分析购买自行车的潜在客户。
项目四:K-Means聚类分析。使用商业智能开发工具分析客户购买自行车情况分析。
项目五:贝叶斯网络应用。使用商业智能开发工具解决一个简单的预测和诊断问题。
项目二至五旨在培养学生个人能力(数据获取能力、程序设计能力等)和人际团队能力(问题表达能力、人际交流能力),倡导学生乐于探究、勤于动手。
高级项目:数据挖掘应用综合项目“卷烟产品销售规律挖掘”。将一个相对独立的项目交由学生自己处理,从信息的收集,方案的设计,到项目实施及最终评价,都由学生自己负责,学生通过该项目的进行,了解并把握整个过程及每一个环节中的基本要求。通过综合项目,学生完成了CDIO的四个阶段,提升CDIO所提倡的四大能力,具体体现如表1所示。
3.3 改革教学方法
在课程教学方法是项目教学法为主,任务驱动法和案例教学法为辅的教学模式,起到很好的教学效果。
4 结语
CDIO工程教育模式由麻省理工学院和瑞典皇家工程学院提出,包括构思、设计、实现和运作四个环节,是国际流行的工程人才培养理念,强调对学生创新思维、实践能力和团队协作精神的培养。本文体现了CDIO理念的能力培养要求,将数据仓库设计开发方法和数据挖掘技术融入具有较强工程背景与应用价值的项目设计与开发中,理论与实践紧密结合,推动课程建设和课程教学改革。
参考文献
1 顾佩华,沈民奋,陆小华译.重新认识工程教育—国际CDIO培养模式与方法[M].北京:高等教育出版社,2009
2 郭长虹. 重构CDIO特色的工程图学课程体系[J].图文学报,2013(3)
关键词: 数据挖掘技术;课程;教学
Key words: data mining technology;course;teaching
中图分类号:G642.0 文献标识码:A 文章编号:1006-4311(2011)25-0155-01
0 引言
数据挖掘技术是电子商务专业的一门重要专业课程,它是信息化时代对信息与数据管理的必然要求。一方面,在生产、生活和商业活动中,我们产生了海量的数据,这些数据有着不同的表现形式,如最常见的超市记录单、各种各样的公司或商业数据库,还包括音频、视频等;另一方面,我们需要从这些数据中寻求规律,对数据进行“挖掘”,使数据发挥更大的作用[1]。数据挖掘正是从大量的数据中提取出隐含的、以前不为人所知的、可信而有效的知识[2]。数据挖掘技术教学的目的就是要使学生掌握典型的数据挖掘技术,并能够运用数据挖掘技术解决实际问题,为今后运用数据挖掘技术解决实际问题打下扎实的基础。
1 数据挖掘技术课程特点
数据挖掘技术具有自己独特的课程特点:
1.1 新颖性 1995年,在加拿大召开了第一届知识发现和数据挖掘国际学术会议(International Conference on Knowledge Discovery and Data Mining),由于把数据库中的数据形象地比喻为“矿床”,“数据挖掘”一词很快流传开来[3]。数据挖掘的发展仅有10余年的时间,数据挖掘技术课程是一门新兴学科。
1.2 内容广 数据挖掘包括关联规则挖掘、分类规则挖掘、特征规则挖掘、时序规则挖掘、偏差规则挖掘、聚类规则挖掘和预测这七大任务,相应的,每种任务都有自己专门的挖掘技术[4],如关联规则挖掘的典型技术为Apriori算法及其衍生技术,分类规则挖掘的典型技术为ID3或C4.5决策树算法及其改进算法等。
1.3 有深度 数据挖掘技术作为一门计算机与数据处理相结合的新兴学科,具有一定的难度。其中的任何一个技术都可以独立成篇,如粗糙集分类算法自原理至实例推广就是一门单独的课程;作为数据处理的重要内容,聚类算法同样可以独立成籍。
1.4 交叉性 诚如前面所述,数据挖掘技术有着广泛的支撑背景,既包括信息论方法和集合论方法等归纳学习类技术,又包括神经网络方法、遗传算法方法、蚁群算法等仿生物技术,还包括成熟的统计分析技术和模糊数学技术,此外还有公式发现类技术和可视化技术等。可以这样说,数据挖掘总是在广泛吸取其他各门学科的先进技术,并加以转化、发展的。
2 数据挖掘技术教学过程存在的问题剖析
数据挖掘技术作为一门新学科、新课程,发展迅速,但是其缺点也是不言而喻的,主要包括:
2.1 课程教材不统一 目前,数据挖掘技术的教材层出不穷,这些教材尽管总体涵盖内容相近,均自成体系,但是有的细节却并不一致,如多数教材主张采用E-R图进行数据仓库(数据挖掘通常总是与数据仓库连接在一起的)设计,但也有教材持反驳态度[3];对数据仓库系统的体系结构说法也不尽一致,不同的教材给出不同的体系结构,有的甚至将数据结构等同于体系结构[5]。这主要是由于学科和课程的新颖性导致的,使得教材的编写多带有研究探索的性质,未能达成统一。
2.2 教学重点不统一 教材的不统一和学时的不统一(如有的院校是36课时,有的是48课时)导致教学重点也不统一,有的考虑到学生掌握知识的浅显性,将重点放在统计分析技术,而对神经网络技术和遗传算法技术等相对较难的技术一笔带过;有的则考虑到体系的完整性,对所有数据挖掘技术等同对待,均匀笔墨。
2.3 教学方式不统一 数据挖掘技术是一门实验技术较强的课程,但是有的教师在安排授课时,仅设置理论课时,没有实验课时;有的教师则将课程直接放在实验室来上,偏重于对学生实验技巧的掌握。当然,更多的是将实验课时与理论课时交错进行的。对实验安排的处理也不尽相同,有的分组进行,有的则由学生独立完成。
3 提高数据挖掘技术课程效果的对策建议
3.1 精心编排课程讲义 课程教材是授课的首要基础,一本好的教材不仅便于教师的备课、授课,更有利于学生的理解。当然,教材与课时、教学大纲有着密切关系,教师在选择教材时应充分考虑学生的学科基础、授课课时数、教学大纲规定的培养目标等各种因素,从大量层出不穷的教材中选择最理想的教材,适当的时候也可根据相关教材,整理一份恰当的讲义教材,组织学生使用。
3.2 合理安排教学内容 数据挖掘技术的教学内容应考到学科体系的完整性,既要为学生打牢理论基础,又要突出学生实践能力的培养。因此要以“掌握理论、强化应用、突出能力”作为数据挖掘技术课程的培养目标,通过精选具有充分代表性、源于实际问题的典型例题与案例,使它们能基本覆盖在实际中最常见的数据挖掘问题,在讲解这些从实践中抽取并经过精心改造和设计的例题和案例的过程中,逐步地建立起学生应该掌握的数据挖掘技术理论框架。
4 结束语
数据挖掘技术教学具有十分重要的现实意义,通过科学讲述数据挖掘技术,有助于培养学生对理论知识的现实应用转化能力,培养学生从现实世界出发提出问题、分析问题和解决问题的能力。数据挖掘技术的教学应以培养学生能力为主线,精心组织教学内容,有效采用多种方式,增进学生对知识的理解与掌握,显著提高教学效果与质量。
参考文献:
[1]陈文伟.数据仓库与数据挖掘教程[M].北京:清华大学出版社,2006.
[2]Jiawei Han,Micheline Kamber著.范明,孟小峰译.数据挖掘:概念与技术[M].北京:机械工业出版社,2007.
中图分类号:TP311文献标识码:A 文章编号:1009-3044(2008)16-21267-03
Data Mining Based Course Competence Development of C Programming Language for Vocational College
GUO Xiao-chen1,2
(Chenzhou Vocational Technical College,Chenzhou 423000,China)
Abstract:In this paper we utilize the data mining technology into the course of C programming language in vocational colleges in order to classify and predict the examination result, and eventually find out the implied information. This is helpful to make guidance for improving the quality of teaching and deepen the teaching reform.
Key words: data mining; concept description;class comparision; C Programming Language
1 引言
C语言程序设计课程是计算机应用和电子信息工程专业的必修程序设计课,是知识性、技能性和实践性很强的课程。主要培养学生利用计算机来处理实际问题的能力和培养学生程序设计的思维能力,使学生能够掌握C语言的基本语法和算法,能利用C语言进行基本的程序设计。
C语言程序设计主要由数据描述、程序控制两大模块组成,包括基础数据类型、流程控制、函数和复杂数据类型等四个单元的内容。笔者从事多年的C语言程序设计教学工作,如何利用有效数据分析工具,将所积累的丰富的数据转换为有价值的知识,了解和分析学生的知识掌握及能力培养情况,并采用相应的教学改革。
2 数据挖掘技术的概念和内涵
数据挖掘(DataMining)是对大量的、不完全的、有噪声的、模糊的、随机的实际数据,进行抽取、转换、分析和模型化处理,从而提取能辅助决策的关键性数据,并能结合应用领域的特点,推导出有用的知识的过程;简而言之,数据挖掘就是深层次的数据信息分析方法。通常采用概念/类描述、关联分析、分类和预测、聚类分析及演变分析等方法来完成数据挖掘。数据挖掘的过程是一个线性的过程,依据不同信息平台的数据类型,采用面向环境的管理方式,实现面向环境要求的数据挖掘。数据挖掘的过程一般由数据准备、数据挖掘、结果的解释与评估四个阶段组成。
3 数据挖掘技术在《C语言程序设计》课程能力培养分析中的应用
3.1 数据仓库的建立
挖掘所需要的数据来源于某高职院校近3年来计算机应用和电子信息工程两专业近860名学生的C语言程序设计这门课程的期末考试成绩、实验成绩及实习成绩,给定属性学号(ID)、姓名(name)、性别(gender)、专业(major)、科类(section)、成绩(result)。成绩部分包括考试成绩(test_result简称为t_r)、实验成绩(experimental_result简称为e_r) 、实习成绩(practice_result简称为p_r)及总分数(total_score简称为t_s),其中总分数=考试成绩×70%+实习成绩×20%+实验成绩×10%。通过对考试试卷的分析统计,基础数据类型(Foundation Data Type简称为FDT)、流程控制(Process Control简称为PC)、函数(Function简称为F)和复杂数据类型(Complicated Data Type简称为CDT)四个单元的分数比重分别为20%,30%,20%,30%,综合考虑各单元的内容,汇总统计出各单元的满分分值为14,21,14,21。
该数据挖掘任务可以用DMQL表示如下:
Define cub discretmath〔ID,name,gender,section,major,result〕。
total_score=sum (result);
define dimension result(test_result,Programes_result,practice_ result);
define dimension test_result(FDT,PC,F, CDT)。
数据仓库的结构如表1:
3.2 数据的预处理
由于现实中的数据多半是不完整的、有噪声的、不一致的,某些学生的成绩会因教师个人感情或其它因素而分数偏高或偏低,从而导致现有分数含有一定偏差的噪声数据,对此可以通过数据的预处理技术改进数据的质量,提高其后的挖掘过程的精度和性能。本文利用数据清理中的聚类中K_平均算法找出孤立点,并利用分箱技术将噪声去掉。表2为经过数据预处理的二维视图。
以上数据仓库中的数据,就是经过预处理后,得到的是集成的、概念分层的、不含有噪声的数据,该数据可以用来进行准确的数据挖掘工作。
3.3概念/类描述
3.3.1数据概化
数据库中的数据和对象通常包含原始概念层的细节信息,在多数情况下,感兴趣的一般是在不同抽象层上得到的数据的量化信息或统计信息。因此,首先采用解析特征化进行属性相关分析,来帮助识别不相关或弱相关属性,将它们排除在概念描述过程之外。概化过程如下:
1)收集目标类数据,它由计算机专业的集合组成,对比类数据取电子信息工程专业的集合;
2)用保守的属性概化阈值进行面向属性的归纳,通过属性删除和属性概化进行预相关分析。
ID:由于ID存在大量不同值,并且其上没有概化操作符,该属性被删除;name:由于name存在大量不同值,并且其上没有概化操作符,该属性被删除;gender:由于gender只有两个不同值,该属性保留,并且不对其进行概化;major:假定已定义了一个概念分层,允许将属性major概化到值{计算机应用,电子信息工程};section:假定已定义了一个概念分层,允许将属性科类概化到值{理科,文科,对口};total_score:该属性存在大量不同值,因此应当概化它。假定存在total的概念分层,将分数数值区间{100_85,84一70,69_60,59_0}按等级(grade){A,B,C,D}分组,这样该属性可以被概化。
表3通过对表2的数据进行概化得到的关系
3.3.2类比较的实现
通过概化处理,数据仓库中的属性基本已经得到了单个类的描述。但我们希望挖掘一个描述是它能将一个类与其它可比较的类相区分,因此采用挖掘类比较来实现。现给定了属性gender, section,major, test_result,program_result,practice_ result和grade。
1)专业类别分析
首先确定目标类与对比类为属性major中计算机应用和电子信息工程两个不同专业的学生;其次,对两个数据上进行维相关分析,不相关或弱相关的维从结果类删除;再次,在目标类上进行同步概化,产生主目标类关系,如表4所示。
从表4可以看出,与电子信息工程专业相比,计算机应用专业的学生趋向平均分、实习成绩及实验成绩这三部分分数较高,体现出学生在知识应用能力和计算机编程能力上较强,但对知识掌握出现两极分化严重,针对这部分基础知识掌握不牢固的学生,教师在执教时就应考虑加强基础知识的巩固。相对而言电子信息工程专业的学生对基础知识的掌握基本较好,但对该课程的灵活应用有所欠缺,这就使得在教学过程中应适当注重培养学生的应用能力,加强对他们编程、实验及实习的辅导。
2)性别类别分析
首先确定目标类与对比类为属性gender中的男和女;其次,对两个数据上进行维相关分析,不相关或弱相关的维从结果类删除;再次,在目标类上进行同步概化,产生主目标类关系,如表5所示。
表4 主类(计算机应用)与目标类(电子信息工程)关系 表5 主类(男)与目标类(女)关系
从表5可以看出,与女生相比,男生从总体上对该门课程的学习效果较差,不及格率较高,且优秀率低,基础知识掌握不牢固,体现出不少男生学习态度不端正,目的不明确,缺乏学习的积极性。而女生这门课的成绩比男生好,优秀率高,及格率高,对基础知识掌握牢固,但在知识的应用能力方面欠佳不能很好地灵活运用;由此可见,教师在教学过程中须考虑学生的性别差异,因材施教。
3)科类类别分析
首先确定目标类与对比类为属性section中文科类、理科类和对口类;其次,对两个数据上进行维相关分析,不相关或弱相关的维从结果类删除;再次,在目标类上进行同步概化,产生主目标类关系,如表6所示:
从表6可以看出,与理科类、文科类相比,通过对口高招进来的学生不管对理论知识的掌握还是在实践技能上都比较突出,且目的性非常强。而文科类与理科类相比, 文科类对基础知识的学习优于理科类,但在知识的应用能力上较差,理科类则恰恰相反。可见,教师在教学过程中除了考虑普遍学生存在的问题外,还需要注意学生的差异,对于对口类学生而言应多准备一些相对大的项目,让其能“吃饱”,而对于理科类和文科类学生一方面要加强理论基础知识的学习指导,另一方面要适当注意培养其应用能力,加强对编程及实践方面的辅导。
4 结论
利用多年的C语言程序设计课程的成绩的数据,通过数据挖掘技术探索和发现两个专业学生对这门课程的知识掌握及能力培养的情况,可以有针对性地进行教学内容和教学方式的改革,使得学生更好地掌握C语言程序设计这门课的知识,培养各方面的能力,为以后的课程学习、专业发展打下坚实的基础。
参考文献:
[1] JiaweiH,MichelineK.DataMiningConceptsandTechniquo5[M].Beijing:China Machine Press,2006.
[2] 朱明.数据挖掘[M].合肥:中国科技大学出版社,2O02.
[3] 张锦祥.高级程序设计语言课程教学改革与实践[J].浙江教育学院学报,2007(4)71-76.
YANG Nan-yue
(Industrial Training Center, Guangdong Polytechnic Normal University, Guangzhou 510665, China)
Abstract: Since personalized teaching has been implemented in multimedia technology teaching in the past five years, a lot of teaching data accumulated from multimedia technology online learning platform. The article introduced data mining and analysis technology to process these data in order to obtain support and decision-making reference for the improvement of the quality of personalized teaching. First, the snowflake model of courses selection for data warehouse was built. Then the Apriori algorithm was used to dig out the inner link between the students’ media technology achievements and the final grade. And then cluster analysis with k-means algorithm on all students’ scores was conducted. Finally, the calculated results were visualized and analyzed. Practice proved that data mining and analysis technology is a useful tool for quantitative analysis in the teaching.
Key words: data mining; snowflake model; association rule; cluster analysis; personalized teaching
我校的多媒体技术公选课面向全校各年级各专业本科生开课,因此选修本课程的学生来源较复杂,其计算机基础参差不齐。过往统一步调的授课模式满足不了不同层次学生的需求,所以从2011年开始,本门课程实施教学改革,以多媒体技术在线学习平台为基础,结合课堂授课开展个性化教学,把多媒体技术包含的四大媒体技术课程:图像处理、音频处理、视频处理和动画制作做成讲座的形式,每一门课程分别包含两到三次的讲座,学生根据自己的情况选听选学。每门媒体技术不同难易度的学习资料都放在学习平台里,学生可以自由选择学习资源,并通过网络或课堂与同学和老师进行学习交流。考核方式为每一门课程最后一次讲座讲完后在学习平台上进行随堂考试,要求每位学生至少选考其中三门。本门课程期末考试也在学习平台上进行,要求全体学生都必须参加。本教改实施五年来,学生反应良好,同时多媒体技术学习平台网站上存在着大量学生成绩和教师教学及管理过程中的相关数据,那么这些数据之间存在着怎样的联系,是否蕴藏着教与学之间的知识和规律?由于数据挖掘技术能够发现隐藏在海量数据中的潜在联系和规则,从而预测未来的发展趋势[1],因此我们把该技术引入学习平台中的信息资源管理系统,把大量积累的教学基础数据建立数据仓库[2],在这基础上运用数据挖掘手段从中快速准确地提取出重要的信息和有价值的知识,找出影响学习成绩的因素,为进一步改善个性化教学的教学质量提供数据支持和决策参考。
1 数据仓库多维数据模型的建立
数据仓库的逻辑数据模型是多维数据模型。目前使用的多维数据模型主要有星型模型和雪花模型。一个典型的星型模式包括一个大型的事实表和一组逻辑上围绕这个事实表的维度表[3]。雪花模型是对星型模型的扩展,将星型模型的维度表进一步层次化,原来的各维度表被扩展为小的事实表,形成一些局部的层次区域[3-4]。建立本课程数据仓库时,为了减少数据冗余,改善查询性能我们采用雪花模型结构,如图1所示。建立以学生选课为中心的选课事实表,三个主维度表“学生表”、“成绩表”和“时间表”分别通过“学生键”、“成绩键”和“时间键”与事实表直接关联。其中,主维度表中的“学生表”和“成绩表”都有各自的二级维度表,与事实表间接关联[5]。
2 采用Apriori算法的关联规则挖掘
关联规则用于揭示数据与数据之间未知的相互依赖关系,即在给定的一个事物数据库D,在基于支持度-置信度框架中,发现数据与项目之间大量有趣的相关联系,生成所有的支持度和可信度分别高于用户给定的最小支持度(min_sup)和最小可信度(min_conf)的关联规则。关联规则挖掘算法归结为下面两个问题:(1)找到所有支持度大于等于最小支持度(min_sup)的项目集(Item Sets),即频繁项目集(Frequent Item Sets)。(2)使用步骤(1)找到的频繁项目集,产生期望的规则。两步中,第(2)步是在第(1)步的基础上进行的,工作量非常小,因此挖掘的重点在步骤(1)上,即查找数据库中的所有频繁项目集和它的支持度[4]。本课题对多媒体技术课程学习平台中所有考试成绩进行关联规则挖掘,采用Apriori算法查找频繁项目集。
Apriori算法通过逐层迭代来找出所有的频繁项目集L。用户需要输入事物数据库D和最小支持度阀值min_sup。实现过程为:
1)单次扫描数据库D计算出各个1项集的支持度,得到频繁1项集构成的集合L1。
2)连接:为了产生频繁K项集构成的集合,通过连接运算预先生成一个潜在频繁k项集的集合Ck。
3)剪枝:利用Apriori算法“任何非频繁的(k-1)项集必定不是频繁k项集的子集”的性质,从Ck中删除掉含有非频繁子集的那些潜在k项集。
4)再次扫描数据库D,计算Ck中各个项集的支持度。
5)剔除Ck中不满足最小支持度的项集,得到由频繁k项集构成的集合Lk。
Apriori算法如下:
[(1)L1=find_frequent_1-itemsets(D)(2)for(k=2;Lk-1≠?;k++) do begin(3)Ck=apriori_gen(Lk-1); //新的潜在频繁项集(4)for all transactions t∈D do begin(5) Ct=subset(Ck,t);//t中包含的潜在频繁项集(6)for all candidates c∈Ct do begin(7) c.count++;(8)end;(9)Lk=c∈Ckc.count≥inmsup(10)end;(11)Answer=UkLk;]
求出频繁项集L后,1)对于L中的每一个频繁项目集l,产生l的所有非空子集。2)对于l的每一个非空子集s,如果,[sup_count(l)sup_count(s)≥min_conf],则输出规则:SL-S[4]。
本课题对近五年选修多媒体技术的学生所有成绩数据进行清洗,填补空缺值,去噪,类型转换,集成等处理后放入数据仓库中,系统采用Apriori算法找出所有的频繁项集。为了便于进行关联规则的挖掘,对成绩数据进行离散化处理,转变成标称型变量[5]。成绩score(简化为“s”)在85-100区间的表示“优秀”,标记为“1”,在70-84区间的表示“中等”,标记为“2”,在60-70区间的表示“合格”,标记为“3”。多媒体技术每门媒体技术课程:图像处理、音频处理、视频处理、动画制作和最后的期末考试分别用A、B、C、D、E表示。学生的学号用StudentID表示,那么每个学生选修的N门课和最后期末考试的成绩可以表示为{StudentID,Asa,Bsb,Csc,Dsd,Ese},其中Sa,Sb,Sc,Sd,Se的取值范围是{1,2,3}。例如{ 2011204543021,A3,B1,D3,E3}表示学号为2011204543021的学生,选修了图像处理,音频处理和动画制作这三门媒体技术,其中图像处理成绩为合格,音频处理成绩为优秀,动画制作成绩为合格,期末考试成绩为合格,该名学生没有选修视频处理,故没有这门科目的成绩。
设定最小支持度阀值min_sup为3%,最小置信度阀值min_conf为70%,系统采用Apriori算法进行数据挖掘,得到满足最小置信度阀值的规则和相应的置信度如表1。
挖掘结果分析:表1的关联规则体现学生选修的媒体技术课程种类、科目数量与期末考试成绩之间的相互关系。可以看到期末考试成绩属于中等(E2)或合格(E3)级别的,学生全选四门媒体技术比只选学三门的置信度高,即选课数量多的较容易及格或获得中等的期末成绩。另外,在选课种类方面,选B这门课,即选音频处理的学生比较多,是一个概率比较高的事件,可能这门课内容比较少和易掌握,因此选学选考的学生就多。但这门课的成绩对期末考试成绩影响不明显,说明教师这门课出的考题区分度低,没能反映出学生的水平层次。在最小支持度阀值min_sup为3%的情况下,选A(图像处理),C(视频处理)和D(动画制作)这几门课并获得优秀成绩(A1,C1,D1)的很少,即小概率事件被过滤掉了,没能挖掘出它们与期末成绩之间的关联性。但这几门课程成绩中等或合格与期末成绩存在内在关系,也就是说如果这几门课成绩都是中等的,期末考试成绩大部分都为中等,一小部分可以达到优秀。如果这几门课成绩都是合格,期末考试成绩就是合格。说明这几门课程的考题比较真实反映出学生掌握技能的实际水平,致使期末综合性的考试成绩与学生平时掌握程度相符合。这也意味着个性化教学具有一定的成效。
本课题对近五年的学生多媒体技术每科成绩与期末成绩进行聚类分析,把学生划分到若干不同的类中,分析各个类的特征,从而考察实施个性化教学后的效果。设定85分,75分和65分为三个初始的聚类中心,对学生的所有成绩进行聚类分析,找出同一类别学生的学号,以此为索引,查找到该类中各个学生的专业与年级,绘制出饼状图,再绘制出该类学生所选各门媒体技术的平均分柱状图,通过这几个图表考察不同专业不同年级学生在本门课程优秀中等合格若干成绩区间的分布情况,从而检查实施个性化教学的效果,为今后的改进方案提供参考。例如调整后得到的最终聚类中心为82分的学生,各门媒体技术的平均分和专业、年级分布如图3~图5所示。
从上面几个图可以看出,成绩为优秀的学生主要来自美术、计算机和电信这几个专业,大三、大四的学生比较多。分析其中的原因,主要是美术学院很多专业课需要用二维、三维图像软件或视频软件进行制作和处理,他们对这门课程已经有一定的基础,所以学起来比较轻松,也容易取得高分。而计算机和电信专业中高年级的学生学习和使用软件的能力比较强,因此掌握多媒体技术各个媒体软件较其他专业学生快,并且能够灵活运用,因而较易取得比较优异的成绩。
最终聚类中心为64分的学生,各门媒体技术的平均分和专业、年级分布如图6~图8所示。