时间:2023-02-28 16:00:55
导言:作为写作爱好者,不可错过为您精心挑选的10篇教育测量评价论文,它们将为您的写作提供全新的视角,我们衷心期待您的阅读,并希望这些内容能为您提供灵感和参考。
一
高中语文人教版“表达与交流”模块对高中写作教学无疑具有指挥棒的作用。由五本课本中“表达与交流”内容编排的分析,我们可以看出教材注重什么淡化什么。具体为必修一:心音共鸣――写触动心灵的人和事,亲近自然――写景要抓住特征,人性光辉――写人要凸显个性,黄河九曲――写事要有点波澜。必修二:直面挫折学习描写,美的发现学习抒情,想象世界学习虚构。必修三:多思善想――学习选取理论的角度,学会宽容――学习选择和使用论据,善待生命――学习论证,爱的奉献――学习议论中的记叙。必修四:解读时间――学习横向展开议论,发现幸福――学习纵向展开议论,确立自信――学习反驳,善于思辨――学习辩证分析。必修五:缘事析理,学习写得深刻;讴歌亲情,学习写得充实;锤炼思想,学习写得有文采;注重创新,学习写得新颖。
不管从标题上,还是从篇目内容及课后练习上,认真分析比较,我们都可以归纳出“表达与交流”的三大内容:一谈如何写好记叙,描写,抒情,议论,二谈“虚构”与真实,侧重虚构,三谈好文章的四项指标――深刻、充实、文采、新颖。没有涉及它们与文体的相关,更没有涉及文体的理论知识与实际操作指导。必修教材的“表达与交流”忠实地执行了我国《语文课程标准》的要求。我国《语文课程标准》并不特别强调文体,小学以叙述文为主;初中有明确的文体要求:“写记叙文,做到内容具体;写简单的说明文,做到明白清楚;写简单的议论文,努力做到有理有据;根据生活需要,写日常应用文。”普通高中只要求综合运用记叙、说明、描写、议论和抒情等表达方式,并没有明确的文体规定。这反映出《语文课程标准》淡化文体意识的价值取向。
美国高中作文教学却与我们不同,文体教学在美国高中作文教学中有着重要地位,在作文教学的几大模块中占有相当大的比重。
如在作文教学纲要和指导观念里,实用文体的写作训练和写作基本能力训练与表达方式的训练共同组成美国的写作教学的三大内容。这三大训练有多种训练体系,有单向的也有综合的。“文体”意识和实际指导在这些体系中随处可见,如“思维―表达训练体系”主要进行思维和文体写作的训练,其他还有一般文体写作训练体系、实用文体写作训练体系。如美国加利福尼亚州的《公立学校英语课程标准》明确要求学生写叙述文、文学评论、研究报告、劝说文、技术性文章及常用应用文,对每一文体都有明确规定。
在实际教学操作中,文体教学得到了同样的重视。
如三册《美国语文》(2004年同心出版社出版的《美国语文―――美国著名中学课文精选》,以下简称《美国语文》)是中国大陆第一套系统引进的西方著名中学语文教材。文体类型(除编译时由于篇幅关系删去的戏剧、诗歌外)统计如下:
文体类型具体类型举例:
(1)小说:短篇小说、科幻小说、长篇小说;
(2)散文:分析散文、讽刺散文、说明散文、思考性散文;
(3)其他类:日志、神话、传说、故事、叙述文、布道、自传、劝说文、演讲、格言、书信、通告、游记、回忆录等。
课后写作练习文体训练类型举例:
(1)想象、娱乐、感受类:神话、短篇小说、科幻小说、电影情景、人物传记、日记、续写、改写、广告、网页制作、格言等;
(2)通告、阐释、描述类:通信、通告、新闻报道、报告、描述性信件、摘要、讣告、课程描述、竞赛公告等;
(3)劝说、建议、说明类:说服性的短文、给校长的建议、建议专栏、收藏者指南、提议、有说服力的信条等;
(4)分析、评论类:文学分析、社论、批判性回应、说服力评价、比较研究等。
与淡化文体教学对应的是中国作文评价标准是面向文学性、诗意和哲理性很强的记叙文、议论文、说明文的通用标准;与注重文体训练对应的是美国评价标准鲜明地体现为分文体定标准。这种分文体制订评价标准的做法是较为严谨的。它能充分反映评价学生驾驭不同文体的能力,较之抽象地评价内容充实否、结构完整否、符合要求的“通用”标准否,更能起到实际的评分指导与规范作用。
我认为美国作文教学对文体教学的重视,是美国作文教学卓有成效的原因之一。在美国教学中最令全球教育界惊奇的事就是美国人普遍具有良好的写作能力,只要受过普通教育的美国人,都能把自己要说的话写在纸上且表达清楚,同时尽可能遣词造句,使意义更准确。而这种情况,反映的正是美国高中作文评价有相当高的效度。
美国作文教学之所以卓有成效,注重文体教学和注重效标效度的分文体制订评价标准的作文评价功不可没。这样的结论不是主观臆测,而是通过客观分析得出的。了解美国文体教学与分文体制订评价标准的作文评价,并对评价效度进行分析,我国作文评价的效度问题亟待解决。
二
怎么改进甚至改革高中作文教学呢?作文成绩与写作能力是否成正比呢?
举个比较绝对的例子,假如高中作文教学只有新诗教学,作文练习与测评题只有新诗形式的测评题,有这么一个可能结果,老师抱怨作文难教,学生抱怨作文难学难写、没东西可写、太多束缚不自由……还有一个可能结果是,作文测评成绩不错的高中毕业生在社会上不会写读书笔记,不会写文学评论,不会写报告,不会写社论,不会写计划书,不会写基本的商业策划,不会写比赛公告……作文测评成绩不好的高中毕业生在社会上却成了新兴作家或者公司的文案高手……于是作文教学改革呼声四起,兴起了半命题写诗、话题写诗、材料写诗、漫画写诗、不定题材写诗、生活化写诗、心灵化写诗、学生诗作互评、多就少改诗、总评诗、面评诗、每日一诗……
当然,上述是一个较为绝对的例子,可事实是,这个绝对例子与当下高中作文教学内容的关系只不过是五十步与百步的差别。高中作文教学中并未有更多样的文体介绍和指导,在大部分学生的脑海中,他们知道的文体就只有文学性质的记叙文、散文、论点论据论证式议论文、诗歌和戏剧,就在这有限的三四个文体中选择,较之于事实上丰富多样的文体而言,“文体不限”能算是真正意义上的文体不限么?脑海中根本就没有多少文体概念知识,何谈文体不限的选择呢?在记叙文、散文、论点论据论证式议论文、诗歌和戏剧范围内分文体定标准的作文评价是否是真正意义上的分文体定标准作文评价呢?如前文所示美国中学文体训练类型涵盖了工作岗位上大部分的文体写作,培养了美国人而不是美国学生普遍良好的写作能力,而大部分接受过高中作文教学的中国高中毕业生,在进行工作岗位上基本的文案写作时一般都是初次接触,能力匮乏。这不仅是高中语文作文教学中文体教学缺失造成的后果,还反映了对应于淡化文体教学的淡化文体评价的作文评价的低效度。
任何测评都涉及效度。效度是指所测量到的结果反映所想要考察内容的程度,测量结果与要考察的内容越吻合,则效度越高;反之,则效度越低。在作文教学中或者在升学考试中指作文测评的分数反映学生作文真实能力的程度。在判断作文测评是否有效性时,在考虑到测评的内容效度的同时还必须考虑到效标效度。
内容效度最容易理解,它关心的是测量的内容。比如某一个学段进行诗歌写作教学,内容效度就会考察诗歌写作测题是不是与这个学段教授的诗歌写作知识、方法和技能有正相关。
效标效度稍微复杂些,是指当前一项测验结果与作为效标的资料或数量之间的相关程度。效度的高与低,需要有一定的参照点加以考查,尤其是能力的测试。实际上能力都是无法测量的,因此我们只能确定一个或几个能反映能力的标准,然后做间接的比较。这种人为确定的效度标准简称“效标”。效标效度关心的是测量结果和另外一个效标(criterion)的符合程度。比如,据说微软公司招人的时候会考一些类似脑筋急转弯的问题,像“纽约有多少个水井盖”之类。考察者并不真的关心答题者是不是真的知道纽约有多少个水井盖,他关心的是答题者以后的工作业绩(相当于效标)。那么考题到底能在多大程度上预测工作业绩呢,或者说这些考题和工作业绩的相关程度到底如何呢,这就是效标效度。比如,在美国高中作文教学进行的同时,进行多种文体的训练与测评,这个测评,除了关心测评题与教学内容的相关程度外,更关心学生实际生活和工作中的写作能力及发展。测题到底能在多大程度上预测写作能力呢?或者说这些测题与日后的写作能力的相关程度到底如何呢?这就是效标效度。
内容效度和效标效度的区别首先是调查者(investigator)的观察的取向(orientation)不同。使用内容效度的调查者,关心的是测量的得分。比如教师对学生进行写作测验,那么学生在这张试卷上的得分正是教师所关心的。使用效标效度的调查者,他关心的是效标的得分。比如上面举的招聘的例子,公司并不真正在乎你在招聘试题上的得分,他在乎的是你以后的工作业绩(相当于效标),上面举的作文测评的例子,教师还关心学生在以后的生活和工作中的写作能力(相当于效标)。
这是两种效度在观察重心上的区别,另一个明显的区别就是推论(inference)的程度的不同。对使用内容效度的测量者来说,基本上不存在推论。还以作文测题为例,作文成绩高分就说明这学生作文能力好,教师不需要进行推论,作文成绩得分直接说明问题(如果要引申到学生的学习态度就是在进行推论了)。在效标效度的例子里,推论是很明显的。招聘试题上的得分真的能预测将来的工作业绩吗,诗歌写作成绩好真的能预测将来生活和工作中的写作能力吗?局限于记叙文、散文、小说、论点论据论证式议论文和诗歌的写作成绩好,真的能预测将来的写作能力吗?这时候推论的意味已经很强烈了,实际上效标效度就是用来衡量这种推论的可靠性的。
测量者关心的是测量得分时,用内容效度;测量者关心的是效标得分时,用效标效度,也许还需要解释一下,这两种效度并非只能用于不同的作文测题,而是取决于测量者如何使用作文测题。比如,同样是一套或一系列作文测题,两种效度都可以用来考核它,这取决于施测者如何使用这套或者一系列作文测题。如果施测者只想从中知道学生对相关的写作知识和能力的掌握情况,那么他应该关心这套或这个系列作文测题的内容效度如何;如果施测者想以此推断学生将来工作生活中的写作能力,那么他应该关心这套或者这个系列的写作测题的效标效度如何。
在关注效标效度时,不能忽略了同时效度和预测效度。它们是在时间上对效标效度进行的分类。它们的区别是时间上不同,同时效度的效标和原测量工具是同时施测的,而预测效度的效标是在原测量工具之后施测的。比如学习期间正式进行的作文写作测验的同时效度的效标是与这些测验并行的学生写作练习成绩和老师观察评价等,而预测效度的效标则可以是期末考作文成绩,高考作文成绩和生活工作中的写作能力。
前文已经说道,效标效度的使用者真正关心的是效标上的结果,因而待检验的测量工具其实是作为效标的替代物出现的。为什么要使用替代物呢?其理由在预测效度这里很明显,效标是作用于将来的,我现在要知道结果就必须使用替代物。比如要知道学生在将来正式高考时的可能成绩,那么我们需要使用有较高的预测效度的模拟试卷。又或者要知道学生将来写研究报告的能力,那么教学时应该使用有较高的预测性的作文测题;这两个例子里的模拟试卷和写作测题都是为了实现预测的目的而必须使用的替代性的测量工具。
结合以上关于内容效度和效标效度的分析,我国作文教学和作文评价的现状如下:高中作文教学模块“表达与交流”有三大内容:一谈如何写好记叙,描写,抒情,议论,二谈“虚构”与真实,侧重虚构,三谈好文章的四项指标――深刻,充实,文采,新颖。作文评价对应于这三大内容的评价标准。那么从理论上说作文评价已有了较高的内容效度。可是内容效度高并不代表作文评价的效度高,并不能真实反映作文教学的成效如何,是否科学合理。在作文教学中,文体教学的严重缺失,文体意识严重匮乏导致学生日后生活中自由写作思维极为狭隘,没有可供自由选择的文体写作,驾驭文体能力相当乏弱导致学生日后无法快速应对丰富多样的文体写作,这反映了我国高中作文教学评价相当低的效标效度。
事实上,高中毕业后大部分人都有这样的经验,开始社会生活、走上工作岗位后,没有多少人会继续进行我国高中作文类型的写作,例如写文学性、诗意、哲理性很强的记叙文、散文、议论文,反而是当下高中作文教学所淡化的形式规范性很严格而且思维能力要求各具特色的其他文体写作特别是实用文体写作成了很多人的日常写作,可是在作文评价过程中,忽视对效标效度的分析,并没有把驾驭这些文体的写作能力当做预测效标来分析和重视。缺少这种效标效度分析的作文评价就无法发现当下作文教学成效低微,学生应对生活与工作的实际写作能力低弱的真正原因。
参考文献:
[1]黄全愈.高考招生制度改革的追问[J].全球教育展望,2005(5).
[2]陈文中.外国大学入学作文考试的启示[J].中学语文教学,2004(4).
[3]周鸾飞.近五年我国高中教学作文评价的研究[J].湖南师范大学硕士学位论文,2009.5.
[4]贺义廉.高考备考作文训练的现状与误区[J].当代教育论坛,2008第5期.
[5]王选遨.构建符合课程标准要求的写作教学新思路[J].语文教学通讯高中版,2005(3)
[6]朱晓斌.西方写作教学研究的新进展[J].心理科学,2001,VOL24(4).
[7]张娟.我国高考作文命题及评价回归生活的诉求[J].教育测量与评价,2008.9.
[8]黄全愈.“高考”在美国[M].广西师范大学出版社.
[9]瞿宝奎.教育学文集・教育评价[M].人民教育出版社,1989.
随着知识经济时代的到来,科学技术和创新能力已成为国家间竞争的核心要素。高校作为国家科技创新体系的重要组成部分,扮演着越来越重要的角色。作为科研生产活动的主体,高校教师的科研生产力在很大程度上影响着高校整体的科研产出水平和创新能力。
因为科研产出具有不确定性(即较多的投入并不一定能够获得相应的产出结果,在自然科学研究中表现得尤为明显)、多样性、连续性(即本期的研究成果可能会影响下一期的项目申请)、直接传播性、社会影响深远性等,所以,教育界对于高校教师科研生产力的测量指标莫衷一是。
一、概念界定
科学研究是科学工作者生产知识、应用知识的活动,这种活动属于高度社会化的一般劳动,使人类拥有认识和改造自然的巨大力量,反映了人与自然的关系,应该归属于生产力的范畴。学者赵红州认为,社会的科学能力应该属于特殊的生产力,也就是科学领域的生产力或科研生产力。谢彩霞等人指出,科研生产力由科研生产要素构成,整个科学研究过程离不开科研生产要素。姚东瑞进一步指出,科研生产力作为科学研究活动的一种产出能力,既包括通过发现、创造而实现创新理论、生产知识与发展科学的能力,又包括通过整合和应用而实现技术创新、知识运用和转化的能力。叶钟灵就美国对科研生产力的评价指标进行了综述,按研究开发工作的成果进行统计,常见的指标有专利发明数、论文出版数、成果得奖数、论文引述数等。科研生产力是科学劳动社会化的必然结果,结合已有研究,本文中的科研生产力是指科学研究活动的产出能力,具体表现在产出的数量和质量上。
二、文献综述
(一)数量测量
从国家层面上看,国外对高校教师科研生产力的评价非常重视,尤其是美国和英国。美国主要是从教学、科研以及服务三个方面对高校教师进行评价,其中科研评价包括学术研究和科研项目。学术研究包括举行学术报告、展览,发表学术论文、专著,申请专利等;科研项目包括开展各级政府部门的纵向基金项目研究,为社会上的公司、企业进行人员培训,提供技术服务等。英国对高校教师的科研评价也比较系统,设有英国大学科研评价体系,由专家组按照统一的标准,依据达到国内或国际先进水平的成果数量,将评价结果分为七个等级同。澳大利亚科研评价体系则包括文献计量指标和非文献计量指标。文献计量指标包括出版物(赋有权重)、引用、展现科研特色的结构指标(包括出版物的领域分布、合作级别、科研类别)。非文献计量指标包括常用非文献计量指标(科研人员数量、科研时间、外部资金、研究生数据、荣誉和奖励、演讲、国际访问),适用于人文社会科学的非文献计量指标(与校外机构的研究合作产生的方案以及合作发表的出版物、参与大学管理、为社会提供学术服务等),以及适用于创造性艺术学科的非文献计量指标(舞蹈家、演员、音乐家、剧作家在公开场合的表演,建筑师和设计师的建筑或者创造等)三个方面。
国外研究者认为,虽然用出版物的数量来衡量高校教师的科研产出有诸多局限性,但是从数据的可得性以及可靠性出发,出版物的数量是一个很好的评价高校教师科研产出的指标。出版物主要指发表的论文和所著专著两个方面。
国内学者在测量高校教师科研生产力时,也倾向于采用出版物的数量作为重要指标,但是,考虑到学科性质的不同以及科研产出的多样性,在借鉴国外经验的同时,国内学者对高校教师科研产出的测量指标做了进一步整理,主要从指标分类、指标筛选两个方面进行。他们认为,科研产出主要表现为学术专著、、专利授权、成果鉴定、技术转让等方面。
1.指标分类
有学者根据科技绩效评价产出指标性质,将指标分为源生指标、追加指标和派生指标三类。源生指标包括论文、专著、专利授权、成果鉴定、技术转让、人才培养等;追加指标建立在源生指标的基础之上,包括科技奖励、论著引证、文章被索引及摘录情况等;派生指标是建立在优秀的源生指标和优秀的追加指标基础之上的,包括学会、研究会、专业期刊的兼职、获得荣誉称号等。学者刘丹平、周建方等人采用层次分析法将高校教师科研能力评价指标体系分为目标层、准则层和指标层。目标层即高校教师科研能力评价,准则层包括科研项目、科技成果、论文、论著、专利与著作权、科研综合能力6个方面,指标层包括国家级科研项目、省部级科研成果、三大检索论文、学术专著、发明专利、专业创新能力、学科建设和团队合作精神等24项。
2.指标筛选
在各类指标中可能存在一些次要的评价指标,因此,需要对这些指标进行筛选,分清主次。通常使用的筛选方法主要有系统分析法、文献资料分析优选法以及应用数理统计法等。靳希、张火春和姚力等人在总结国内外有关业绩考核工作经验的基础上,根据专业技术人员业绩考核的目的,高校教师从事科研工作的特点以及模型设计的基本原则,建立了教师业绩考核的指标体系。这个体系包括研究任务、科研专著、科技论文、鉴定科技成果、获奖科技成果、专利成果以及研究效益7项指标。在这7项指标的基础上,根据科研绩效定量评价体系的设计原则,贺天伟和张景林增加了培养人才这一指标。郑秀才从承担的科研任务和取得的科研成果两个方面综合设定了高校教师科研绩效评价指标:科研项目及经费、科研论著(期刊和专著)、科技成果(专利等)、科技成果应用、科技成果获奖。胡金秀、周国强等人从纵向科研立项、科研经费、成果鉴定、科技奖励、学术论文、专利及计算机软件、著作、对合作完成科研业绩的分配这几个方面来考察科研绩效。胡俊在分析了国内外教师科研业绩以及高校教师科研特点的基础上,建构了包括学术论文、著作、鉴定成果、技术转让等在内的新的指标体系。
为使对高校教师科研生产力的评价科学、合理、全面、有效,在已有研究的基础上,学者们进一步完善了科研生产力的评价指标体系。刘仁义选定以下指标作为科研产出指标:学术论文,学术著作,专利申请与授权,科技成果鉴定,研发成果应用和其他科技服务,人才培养,科技奖励,论著被引、被索及被摘,学术兼职,纵向项目,纵向科技经费,排名与贡献率,这些指标下又分二级指标,以计算教师的科研产出。吴小妹通过专家访谈和问卷调查的方式,对高校教师科研能力指标框架进行了修正,其中,科研产出指标又分为、发表专著、获取专利、获得奖项、研究报告、项目资助6个二级指标,这6个二级指标下又分论文级别、作者排名、出版社等级、专著字数等15个三级指标。张宏琴在对当前国内许多高校正在使用的评价体系进行考察的基础上,提出了科学研究指标、成果指标、学术论文指标、人才培养情况、社会工作情况(指学术讲座、党政职务)等适用于教学研究型大学的高校教师科研绩效评价指标体系。
(二)质量测量
国外学者考虑到出版物之间存在着质量差异,高校教师在一本引用率很高的期刊上发表文章和在一本几乎没有人引用的期刊上发表文章所付出的努力和时间是不同的,因此,仅以出版物的数量来衡量高校教师的科研产出是片面的。于是,不少学者在计算出版物数量的基础上增加了期刊质量权重以及文章引用率,英国学者杰兰特·琼斯和吉尔·琼斯为了区分文章的质量,将出版物分为学术期刊上的论文、学术期刊上的书信、专业期刊上的文章、流行杂志上的文章、专著、书籍、官方报告、对编辑工作的贡献8类。还有学者认为,不同的学科面临着不同的文章发表的竞争压力,因此,不同学科学者的发表文章数量应该用竞争压力进行修正。而竞争压力可以用与该学科相关的期刊提供的空间和教师的发表需求之间的比值计算。
中图分类号:G641
文献标识码:A
文章编号:1672-0717(2015)01-0059-05
收稿日期:2014-11-30
基金项目:湖南省教育科学“十二五”规划2012年度项目“高校有效学生学业评价研究”(XJK012CGD002);湖南省社科基金项目“高校发展性学习评估的国际经验与借鉴”(13YBA077);全国教科规划教育部重点项目“高校学业评估的国际比较研究”(DIA130302)。本文同时受湖南大学青年教师成长计划经费资助。
作者简介:刘声涛(1976-),女,江西萍乡人,教育学博士,湖南大学讲师,主要从事高校教学与学习评估研究。
《高等学校章程制定暂行办法》实施以来,教育部核准了多所大学的章程,这些章程对学生学业评价工作的表述高度一致,即:学生公正地获得学业上的评价。这个表述中有两个看似平常实则复杂多义的概念:公正、学业评价。博登海墨(Edgar Bodenheimer)说:“公正有一张普洛透斯似的脸,变幻无常,随时可呈不同形状,并且有极不相同的面貌。当我们仔细查看这张脸并试图揭开隐藏其表面之后的秘密时,我们往往会深感迷惑。”[1]在不同的时代与人类活动中,人们对公正的涵义有不同的理解,不同的学者对于公正也有不完全相同的阐述,迄今尚未形成一个统一的公正论。教育领域中的评价是一个正在发展中的概念,其内涵在不断地扩大与丰富中。国际上,学生学业评价近几十年正在产生教育评价历史上从未有过的变革[2]。当公正与学业评价两个复杂的概念在一起时,有必要了解高校行政管理人员、教师、学生如何理解公正评价学生学业,这种理解是否有偏差,如果有偏差那么更合适的理解又是什么。章程是高等学校依法自主办学、实施管理和履行公正职责的基本准则,探讨上述问题有益于高校章程制定及以章程为依据来办学。
一、对高校公正评价学生学业的实际理解
有三方面的证据表明,当前我国高校学业评价相关群体主要将公正评价学生学业理解为通过以考试为主的方式来给予学生应得的分数或等级的活动。第一方面的证据来自于学生调查。2014年1月,笔者在某高校对大学生进行了学业评价书面调查。调查包括三个问题:(1)大学期间,你的学业有没有得到公正的评价?(2)请给出你或同学的学业被不公正评价的例子;(3)你认为被不公正评价的原因是什么?学生针对这三个问题主要围绕教师如何考及如何评分作答。第二方面的证据来自于高校相关政策文本的分析。有研究者对E大学学生评价管理机构的管理职责、课程学习评价规定、学生实习评定和毕业论文评定的相关规定、毕业资格和学士学位授予资格的政策文本进行分析,发现我国现行高校对学生评价的理解与要求是以专业知识为主要评价内容,以考试为主要手段进行考试成绩鉴定[3]。第三方面的证据来自于研究文献的内容分析。以“高校、公正、评价”或“大学、公正、评价”为关键词在CNKI数据库中查询到论述高校公正评价学生学业相关问题的3篇论文,这些论文对公正评价学生学业的界定都是给予学生客观公平的学业成绩。可见,人们对于高校公正评价学生学业的理解与实践主要是围绕学业考试和评分进行,评价即考试,公正即评分准确。
注重考试和评分的学业评价活动发挥了评价的测量功能:收集并量化信息。从测量功能角度理解学生学业评价并不奇怪。我国考试文化盛行,在不少人看来,学业评价即考试是自然而然的。首先,考试在我国有长期的历史。1930年教育评价专家泰勒(R.W.Tyler)开始在教育领域使用评价一词,此前评价学习的术语就是考试和测验,而西方的考试和测验发展的源头正是我国的科举制。其次,我国人口众多,经济尚欠发达,社会诚信体系不成熟,考试依然是对社会有重大影响力的人才选拔手段。
测量意义上的公正评价学生学业要求评分准确。简单地说,公正是在一定社会范围内通过对社会资源的公平合理分配使每一个成员得其所应得[4]。测量意义上的学生学业评价分配什么?最容易被想到的就是学业评价的直接分配――分数或等级。直接的分配类似于代币,用来获得真正的分配,如保研资格、奖学金、工作机会等社会资源或和社会资源密切相关的东西。分数或等级是学生学业成就客观真实状态的数字表征,公正则意味着数字表征准确或地位表征准确。数字表征准确指数字完全和学生学业成就客观真实状态相符。因为公正主要和分配有关,数字对学生学业成就在其团体中所处位置表征准确也能确保学生在分配时得其所应得,这就是地位表征准确。本文中将数字表征准确或地位表征准确统称为准确。
二、测量视角下公正评价学生学业的挑战
研究者若对测量意义上的学业评价的基本技术有更多的了解和思考,会发现准确评价学生学业在测量的各环节上都面临着挑战。
首先是收集哪些方面的信息。学业评价需要收集学生在预期学习成果上的表现信息。高校中的学业评价主要是课程学业成就评价。为了保护高校教师的学术自由,同时也因为高校课程多且不断变化,课程应该有怎样的学习成果由教师自行决定。在制定高校学术标准和质量标准方面世界领先的英国高等教育质量保障署(Quality Assurance Agency for Higher Education, QAA) 也仅是在学科层次上制定基准,不再细化到专业、课程层次。表层上,教师理解课程、设定合适的教学目标的能力以及个人风格等方面的差异导致课程目标多样化。深层上,课程到底该取得何种学习成果及价值判断,原本就是一个难有统一答案的问题。因而,不同教师授课的同一门课程上被评价的很可能是学生不同的学习成果的表现。
其次是用什么评价方法去收集信息。按学生在评价活动中要做出的反应,测量学意义上的学业评价可分为选择――反应评价和建构――反应评价。选择――反应评价包括选择题、判断题、匹配题等需要学生找出答案的评价形式,建构――反应评价包括论文题、表现性测试、档案袋评价等需要学生自己产生答案的评价形式。每种评价方式都有其适用情形及局限。选择――反应评价能考察学生大范围的知识掌握情况,易于计分,但难以考察高层次能力;建构――反应评价能引发学生在高层次能力上的表现,但难以对学生的真实状况做准确推论,难以计分。迄今为止,从测量技术上没有找到能很好地克服每类评价方式局限性的方法。
再次是收集多少信息。由于用于信息收集的时间有限,实际工作中只能在预期学习成果中选择若干并设计有限的评价任务,因而学业评价只能测量学生特定的、有限的行为样本。测量实质上是对学生的真实状态作出推论,推论基于有限的行为样本,同时推论本身会有或多或少的误差,这些都导致评分有误差。
最后是收集到的信息如何量化。选择――反应评价具有易于计分但难以测量高层次能力的特点。高等教育的重要教学目标,如理解分析综合能力、沟通合作能力、自主学习创新能力等都需要借助建构――反应评价方法来评价。教育测量学中,建构――反应评价的评分者一致性受到高度关注。因为高等教育的重要教学目标难以量化,人们希望至少不同评分者对同一行为样本的评分不要相差太远。但这种对评分者间一致性的期望也面临挑战:评分者的标准设定或对已有标准的理解不尽相同,同时教育测量学已经证实学业评价中各种心理效应导致的评价偏差客观存在且难以克服。基于评分的困难,波帕姆(W.James Popham)等著名教育评价专家都认为应对论文题或档案袋评价的使用持谨慎态度[5](P139)。
事实上,对测量技术有更多了解和反思的学者对考试有着冷静而客观的认识。波帕姆认为应该降低教师对分数能反映学生实际成就水平的迷信[5](P28);沃尔弗德(Barbara E.Walvoord)建议放弃拥有完美、简单的等级评分体系的幻想,接受它会有缺陷和限制的现实[6](P10);刘易斯(Harry R.Lewis)认为分数决不可能成为准确比较不同学科成绩的标尺,即使在一门课程内,分数也是不准确的[7];韦墨(Maryellen Weimer)指出分数能够精确地衡量与客观评价学习的认识是错误的[8]。
可以说,准确评价学生学业是一种误解和想象,但当前我国高校却对它有着过度的依赖和关注,并且高校教和学中的很多负面现象都和这种依赖和关注有关。
尽管多数教师不能从测量技术的角度说清楚给学生准确评价学业有多困难,但是他们会感受到这点,尤其是面对建构――反应题时。有的教师会因没有合理评价学生而内心不安,还有教师担心评分不合理导致学生投诉。为避免评分可能带来的麻烦,高校教师经常使用以下策略:(1)抬高分数。给全体同学更高的分数,尽管这对于优秀的学生不公正,但可以避免因评分过低而被学生投诉;(2)对学生按正态分布评分。正态分布是众所周知的能力分布,按正态分布分配不同分数等级的人数比例,这样使得分数看起来很正常;(3)尽量用选择――反应题。选择――反应题好评分,在理工科的测验中普遍使用;(4)秘而不宣的标准与任务。若公开标准与任务,教师担心学生通过不同的渠道做准备,导致分数看起来不符合学生水平。
一直以来,大学生学习研究不断地证明着学业评价对于学生学习的影响[9]。学业评价过于依赖与关注考试对学生的负面影响包括:(1)肤浅学习。选择――反应评价主要考查记忆、再认等低层次的认知能力,这只需要学生的肤浅学习即能应对。即便是形式上的建构――反应评价,若没有对题目及评分进行精心设计,也可能只是考查学生低层次能力。(2)突击学习。考试发生在学习告一段落后,再加上考察低层次能力,学生完全可以通过突击学习通过考试,部分学生甚至还能获得高分。(3)舞弊。既然评价注重的是分数而不是学习,学生就会想方设法获得分数,包括以舞弊的方式。(4)对课程的误解。事实上,学生是根据学业评价而不是教师的课程介绍来定义课程[10]。一门只要求死记硬背的课程在学生眼中就是枯燥无味、干巴巴的。不合适的学业评价会让学生对真实的成人智力世界产生误解。(5)失去通过学业评价调整自己学习的机会。考试在学期末进行,没有反馈,而反馈被认为是改进学习的核心要素。
三、高校公正评价学生学业:以改进 学习为首要目标
面对测量意义上公正评价学生学业的挑战,自然要提高测量技术,以不断提高对学业的测量能力及测量准确程度。更重要的是,要意识到并承认考试固有的局限性。承认这种局限性不仅是正确使用考试的关键,更是一种基本的科学态度,它告诉我们要改变对考试与分数的过分依赖与关注,正确认识公正评价学生学业的内涵。
首先要正确认识学业评价的内涵。在过去的几十年中,学业评价被不断地审视与反思。早在1930年,泰勒开始在教育领域使用评价概念,提出评价比考试和测验有更多的功能和目的,认为教育评价仅用于检测学生的成就是不够的,同时也要关注课程内容、课程形式、学生活动、学习的多种结果。20世纪60年代初,克龙巴赫(Cronbach,L.J.)建议评价者们重新确定评价的概念――不是根据竞争的成绩,而是作为一个搜集和报告对课程研制有指导意义的信息过程,强调评价的诊断和反馈作用[11]。可见,在评价的最初发展阶段,学者主要就“什么需要被评价”及“评价起什么作用”扩展了评价的含义,认为评价的功能是信息收集及分析反馈,这一功能不仅学业成就检测上需要,与学习相关的多项工作上都需要。在此阶段,教师被认为是评价的组织实施者及评价信息的分析使用者。1968年,布卢姆(Benjamin Bloom)将形成性评价的概念用于学生学习,认为应在学生学习过程中通过检测诊断学习中的问题。形成性评价主要就“什么时候评价”扩展了评价的含义。20世纪80年代后,社会经济发展不断对人才培养工作提出更高要求,同时认知心理学等学科揭示了学生在学习中发挥积极主动性的作用,大量学者开始进一步挖掘评价在学习中所能起的作用。学者主要就“评价的核心功能及其实现途径”、“学生在评价中的角色”扩展评价的含义。评价依然是信息收集及分析反馈工具,但这一工具被认为应该是以改进学习为首要目标。不同学者或研究组织用不同的名称来称呼这种以改进学习为首要目标的评价,如学习导向评价、为了学习的评价等,并且总结了这类评价的特征。英国的评价改革研究小组(Assessment Reform Group,ARG)认为,为了学习的评价应该是:有效的教学设计中的一部分;关注学生如何学习;课堂活动的核心内容;教师需要掌握的关键专业技能;建设性的,因为任何评价都会带来学生情绪、情感的影响;考虑到学生学习动机的重要性;促进对学习目标的理解,在评价标准上应该达成共识;保证学生得到如何取得进步的建设性指导;发展学生自我评价的能力,促进他们进行反思和自我管理;认可学生各个方面的成就[12]。不同学者或研究组织总结的为了学习的评价的特征大同小异,从这些特征中可以明显看出为了学习的学业评价从目的到形式完全不同于考试。
其次要正确认识学业评价中公正的内涵。为了学习的学业评价分配什么?分配的是能改进学生学习的信息以及根据这些信息所确定的合适的教育。联合国教科文组织的著名报告《学会生存――教育世界的今天和明天》在谈及教育中的机会平等时指出:“给每个人平等的机会,并不是指名义上的平等,即对每一个人一视同仁,如目前许多人所认为的那样。机会平等是要肯定每一个人都能受到适当的教育,而且这种教育的进度和方法是适合个人的特点的。”[13]应像理解教育中的机会平等一样理解学业评价中的公正,因为它们有着共同的使命――让学生学会生存,获得发展。
澄清学业评价工作的首要目标不仅是评价内涵扩展和丰富的结果,还是使评价活动有效的要求。选拔、甄别、诊断、鉴定、认证、发现、发展、管理等等都是评价可能具备的目标。研究者认为,包括学业评价在内的评价活动之所以很困难就在于评价可以同时具备多种目标[14],但难以同等良好地实现所有目标,得到最重视的目标决定评价的内在结构与外在形式。这也就是为什么在学业评价的研究文献中总是可以看到学者指出对某些评价功能和目标“过于重视”、“过于关注”、“过于依赖”、“过分强调”,认为对某些评价功能和目标应该“突显”、“强调”。评价工作需要确定首要目标,并从这个首要目标出发设计评价,以确保首要目标的达成而不是其它。
人们依赖考试一方面是对考试的局限性了解不够,另一方面是强调了学业评价在人才培养中不合适的目标――管理。当前我国高校中的学业评价,与其说是一种教育方式,不如说是一种管理方式。在高校管理中,考试是高效且便利的以考促学的工具。高校中的学业考试是高利害的,因为它和毕业及各种荣誉有关,这样的考试自然能促使学生学习。但我们必须追问,有没有导致正确的学习?不管考试在管理上多么高效和便利,它终究是以牺牲学生的利益为代价。正是对于以管理为目标的学业评价的依赖,人们很难看到它和改进学生学习的关系。只有把学生的利益放在第一位,而不是把管理的效率和方便放在第一位,才能正确理解公正评价学生学业的内涵。
为了学习的学业评价在国外高校人才培养工作中正在发挥着重要作用。首先政府部门和相关组织明确将以改进学习为首要目标的评价写进政策文件中。美国高等教育协会(The American Association for Higher Education,AAHE)制定的良好学生学习评价活动的第一条原则是:评价学生的学习必须从教育的价值开始[6](P171)。QAA明确要求:评估实践应促进有效学习[15]。其次学者积极进行理论研究,并和教师一起进行学业评价改革。如,美国学者安吉洛和克罗斯(Anglo,T.&Cross,P.)等在20世纪80年代组织的课堂研究项目;澳大利亚学者南丁格尔(Nightingale,P.)等在20世纪90年代中期组织的大学教学促进项目(Committee for the Advancement of University Teaching,CAUT)。这些项目均是由评价专家组织及指导教师进行学业评价改革行动研究,在实践中发现问题,解决问题,形成丰富的学业评价资源。如,学业评价方法、学业评价范例供更多教师使用,并致力于在高校形成以改进学习为目标的评价文化。相比之下,我国对高校学业评价的认识及实践还停留在考试阶段,高校中盛行的依然是考试文化而不是评价文化。
四、结语
在各项教育改革中,评价均被视为最难点或瓶颈。评价的首要目标选择不当是评价不能取得预期效果的重要原因之一。长期以来,我国高校学业评价均承担着测量者的角色,人们认为公正评价即公正评分。在这种情况下,需要从政策层面对人们的认识和实践进行正确引导。翻看我国《教育法》,可以发现教育部已核准的章程中,对学生学业评价工作的表述基本上和《教育法》中的表述一致。章程要与教育法保持一致无可厚非,但保持一致并不意味着原封不动,其遣词造句若能有利于纠正对高校学业评价即考试的片面认识,引导高校进行有利于改进学生学习的评价则更有益于高校提高人才培养质量。即使对学生学业评价工作沿用和教育法一致的表述,也需要高校相关群体正确认识与实践公正评价学生学业,让学生真正从学业评价活动中受益。
参考文献
[1] [美]博登海墨.法理学――法哲学及其方法[M].北京:华夏出版社,1987:238.
[2] 崔允t.促进学习:学业评价的新范式[J].教育科学研究,2010(03):11-15.
[3] 沈晓丽.我国普通高校学生评价实践研究――以E大学为个案[D].华东师范大学硕士学位论文,2008:摘要.
[4] 洋龙.平等与公平、正义、公正之比较 [J].文史哲,2004(04):145-151.
[5] [美]W.James Popham.促进教学的课堂评价[M].北京:中国轻工业出版社,2003.
[6] [美]Barbara E.Walvoord & Virginia Johnson Anderson.等级评分――学习和评价的有效工具[M].北京:中国轻工业出版社,2004.
[7] [美]哈瑞.刘易斯.失去灵魂的卓越[M].侯定凯,等译.上海:华东师范大学出版社,2012:117.
[8] [美]玛丽埃伦.韦默.以学习者为中心的教学――给教学实践带来的五项关键变化[M].洪岗译.杭州:浙江大学出版社,2006:82.
[9] Nightingale,P.,Te Wiata,I.,Toohey,S.,Ryan,G.,Hughes,C.,and Magin,D.Assessing Learning in Universities.Sydney:University of New South Wales Press,1996.117.
[10] David Carless,Gordon Joughin,Ngar-Fun Liu.How Assessment Supports Learning:Learning-oriented Assessment in Action[M].Hong Kong University Press.2006:2.
[11] 王萍,高凌飚.“教育评价”概念变化溯源[J].华南师范大学学报(社会科学版),2009(04):39-43.
[12] Assessment Reform Group.Assessment for Learning:10 Principles[R].Cambridge:University of Cambridge,2002.
随着高校扩招,我国的高等教育进入大众化阶段,越来越多的学生有机会走进大学校园接受高等教育。然而,越来越多的人开始怀疑我国高校培养的这些学生的质量,这些学生是不是高质量的人才?他们能不能满足社会各界对人才的需要?他们还是所谓的“天之骄子”吗?
这些疑问渐渐地不再是疑问了,人们看到当代大学生的素质正在逐渐降低,一方面社会各行各业对人才的需求如饥似渴,另一方面越来越多的大学生失业。本科毕业不好找工作就考研,硕士毕业不好找工作就继续考博,博士毕业呢?如今我国的高等教育广受诟病,“读书无用论”一再泛滥,广大教育界师生一直在探讨如何能提高我国高等教育的质量,如何让高等教育真正培养社会所需要的人才。
我们知道,高考具有“指挥棒”的作用,即“考什么,就学什么;怎么考,就怎么学”。到了高等教育阶段之后,考试仍然发挥重要的作用,却已不是对学生考核的唯一方法,对学生的评价也不能仅仅看分数了。既然考核评价机制的改革有助于提高我国高等教育的质量,我们首先要全面了解考核评价机制的含义、内容和作用。
考核评价机制包括考核和评价两方面内容,考核是考察核实、研究考证之义,评价是衡量、评估价值之义,一套完整的考核评价机制要有完善的考核方法,并根据考核的结果做出评价。考核评价机制的作用有三个方面:
第一,考核评价机制是测量教育教学效果的工具,教学质量的判定既有定性描述又有定量分析,考核评价机制就是教育效果的测量工具。举例来说,考试是一种重要的考核方法,分数是评价教学效果的重要媒介。第二,考核评价的结果是对教育教学信息的反馈。考核评价的结果可以为教育教学系统反馈重要的信息。这种信息反馈给教研人员,能使教研活动更具针对性和实效性;这种信息反馈给教师,能使教师及时改进教学方法,提高教学效率;这种信息反馈给学生,为学生改进学习方法提供依据。第三,考核评价机制对教育教学的发展具有重要导向作用。学生会根据考核评价机制的要求进行学习,教师会按照考核评价机制的要求进行教学,学校会按照考核评价机制的要求布置教学任务,什么样的考核评价机制就会使教育教学教学机构培养出什么样的学生。考核评价机制导向作用的突出表现之一是高考的“指挥棒”作用。
因为考核评价机制对教育教学有如此重要的影响,所以改革考核评价机制对教育质量的影响也是巨大的。相比于初、中等教育,国家和社会对高等教育的质量更为关注,因为高等教育培养的人才直接面向社会需要,完成高等教育的学生会直接进入社会、参与社会。因而,本文着重分析改革考核评级机制对提高我国高等教育质量的作用。
长期以来,我国高等教育系统中对学生的考核评价机制存在诸多不合理之处,这些不合理之处表现在以下五个方面:
(一)考核形式单一,缺乏多样性。目前我国高等教育阶段对学生的考核仍然以考试为主,而且多数是闭卷的笔试,除外语类的其他科目考试基本没有口试。笔试多是期末一次性考试,考试成绩的偶然性较大,很少有平时的考试,这种考核方式与应试教育的考核方式没有差别,并不能真正考察教育教学的效果。考试在期末进行,削弱了考试对教育教学信息反馈的作用。虽然许多高校都设有平时成绩这一项,但平时成绩名存实亡,平时成绩的多少由老师给定,有些老师以出勤定成绩,有些老师甚至不考虑出勤情况,完全忽视对平时成绩的考察,多数情况下平时成绩成为老师为不及格学生提分的工具。另一方面,增加平时的考核内容会增加老师的负担,由于学校缺少对平时考核的监督检查,在缺少监督的情况下,多数老师对平时的考核很懈怠,平时成绩俨然已成为“鸡肋”。论文是对学生综合运用知识能力的考核,但仅有少数课程以论文的形式就行考核,而且论文多是期末交,缺乏对平时学习效果的考核。
(二)考试内容以记忆性知识为主,缺少对学生创新性和对知识运用能力的考核。闭卷考试的题型固定,分值固定,考试的知识点多为记忆性的。很多老师在考前为学生划重点,让学生加强记忆,甚至有些老师通过漏题的形式提高学生的成绩。这样的考试形式使记忆能力强的学生能考得好成绩,很多学生依靠考前的突击式的背书就能考高分,而记忆能力差的学生就会吃亏,而且这样的考试也不能考察学生的分析能力和创新性,对知识缺乏应用。
(三)我国严进宽出的高等教育模式使考核缺乏严格性。学生一旦进入大学,意味着不再需要像高中那样刻苦学习,“六十分万岁”的思想颇为流行,如果仅仅是为了拿毕业证和学位证,大学可以说无学习压力可言。对于辛辛苦苦考上大学的学生来说,如果因为考试不及格而无法毕业,别说学生,就是家长和老师恐怕都无法接受,因而老师自然而然就降低了考试判分的严格性。考试的严格性降低,再加上伸缩性极强的平时成绩,学生很容易就能及格,这样的考核根本不能真实反映高等教育的效果,教育质量怎能提升?此外,学生的自由选课权给老师造成一定的压力,如果一个老师给分低了学生就不选他的课了,这在一定程度上使考试客观性和严格性受到影响。
(四)对学生的评价过度依赖考试成绩。学校评奖学金、保送研究生、评优秀班干部、推优入党都和考试成绩挂钩,这一方面使得成绩好的同学追求更好的成绩,造成类似应试教育的效果,另一方面使得成绩不好的同学放弃对好成绩的追求,学生对待考试成绩的态度“两极分化”,使考试失去激励作用。无论是哪个结果,都无法发挥考试应有的作用,考核评价机制检测教育教学效果和反馈教育教学信息的作用严重削弱。
(五)对于期末一次性的考试,考完后学生只知道自己考了多少分,而究竟哪些题做错了,哪些知识点丢分则完全不知道,由于一门课考完后就不再学了,学生也就不去想到底哪儿出错了,这样不利于学生全面掌握知识。学校没有相关的规定要求老师向学生完整地反馈考试结果,学生也很少主动向老师索要,老师则更不会主动去劳神费心地为学生提供分析。
我国高等教育考核评价机制存在的这些问题严重影响我国高等教育的质量,考核评价机制在我国高等教育教学中发挥的作用不容忽视,因而,构建科学的考核评价机制势在必行。根据我国高等教育考核评价机制存在的问题,为了达到高等教育质量的提升的目的,改革考核评价机制应该包括以下五个方面:
(一)考核形式的多样化,注重平时成绩的考核。高校应该增加平时成绩在综合成绩中所占的比重,并增加平时成绩考核的多样性,利用平时小论文、课堂展示、课程设计、课堂讨论和小组合作等形式进行考核。平时成绩的考察能增强考核评价机制反馈教育教学信息的作用,并能减少期末考试一考定成绩的偶然性,真实反映学生在教学过程中学习情况。利用口试的形式全面了解学生对知识的掌握和运用能力。期末考试应更多利用论文、案例分析、开卷考试等形式,综合考察学生的各项能力,尤其是注重利用论文作为考核的方式,论文的写作需要查阅大量相关文献,能综合考核学生的理解、分析和写作能力。
(二)考核内容的全面性与科学性。要减少对记忆性知识的考核,增加对知识运用和分析能力的考核;试卷中减少客观题比例,增加主观题比例,考察学生运用所学知识进行论述和案例分析的能力。发达国家高等教育阶段对学生的考核很少涉及记忆性内容,更侧重综合能力的考核,这一点值得我们学习。
(三)增强考核的严格性和客观性。要想通过考核检测教育教学效果和反馈教育教学信息,必须增强考核的严格性和客观性。要统一判分的标准,不能因人而异,判分要严格依照判分标准,对于主观题,老师要根据学生答题内容公平地给分,不能通融不及格的学生。考核严格了,学生们自然不敢懈怠,考核的目的也就达到了。不仅期末考试要严格,平时考核也要严格,考核方式一旦确定,老师和学生都要严格遵守考核规定,对于违反规定的,学校要依照规章制度予以惩罚。
(四)评价学生不能单纯依靠学习成绩。学习成绩固然是评价学生的重要工具,但是对于高等教育阶段的学生,其综合素质不仅表现在学习成绩方面,还表现在思想上和道德上。评价学生要考虑其参与社会实践的程度,思想道德的发展和其他学术成果等,关注其综合素质。鼓励大学生参与社会实践,培养自身兴趣爱好,提高自身解决问题的能力。
(五)老师要把考核结果及学生存在的问题反馈给学生。大学生通常只知道自己考试得了多少分,至于哪些知识点上丢分则不知道,加之一门课只学一学期,考完后学生们也不想知道到底哪些知识点没学好。因此,要想让学生学好,必须把考核结果完整地反馈给学生,使学生真正明白。
我国的高等教育正处在快速发展阶段,而考核评价机制却没有跟上高等教育发展的步伐,考核评价方式与初、中等教育阶段没有太大的区别,落后的考核评价机制制约了我国高等教育质量的提升,不符合培养高质量人才的要求。因而必须改革我国高等教育的考核评价机制,引导高等教育发展,通过考核提高学生学习的积极性,全方位培养学生能力,公正、客观地评价教育教学效果,发挥高等教育培养高端人才的作用。
[参考文献]
[1]胡海霞,李钢.谈教学型高校考核评价机制下的考试制度[J].考试周刊(考试研究版),2010(9):1-3
[2]杨爱英,宋扬.高等教育考核方式改革初探[J].常州信息职业技术学院学报,2009(2):19-20
[3]赵丽娟,孟宪国.浅论素质教育考核评价体系之构建与创新[J].齐齐哈尔大学学报(哲学社会科学版),2005.7:151-152
一、活动背景
光污染是继水、气、声和渣污染之后的一种新型污染,主要包括白亮污染、人工白昼和彩光污染。光污染的影响首先在于破坏天文观测环境,历史上天文台因此而被迫搬迁的案例屡见不鲜。英国格林尼治天文台早在1948年就为躲避光污染和大气污染而迁往东南沿海环境优美、观测条件更好的赫斯特蒙苏堡地区。在美国、加拿大、日本、西班牙、葡萄牙等国,多个著名天文台都曾几次迁址。我国紫金山天文台的观测工作也全部转移到了其他观测站点,紫台园区则已改建为天文博物馆,以天文科普和天文旅游为主,仅保留了少量与太阳观测有关的科研工作。
光污染的影响其实并不局限于天文观测。居高不下的学生近视率、迷途的海龟幼崽、撞上玻璃幕墙的飞鸟、爆发性增殖的水藻、能源紧缺与气候变暖,这些看似并无关联的人与事,其实背后都与灯光之扰息息相关。
作为长三角地区的重要城市之一――无锡的光污染较为严重。在距市中心三阳广场约6.2公里远的天一中学校园里,天空是白的是灰的是橙的是多彩的,北斗七星中的天权是看不到的,狮子座的镰刀是认不全的……在距三阳广场16.9公里远的斗山山顶,连仙女座大星系M31和猎户座大星云M42都仅能勉强分辨,山脚下的路灯和远近城镇的光源清晰可见,天空泛着浅浅的灰白色……在与市区间隔有10公里的太湖十八湾地区竟连天顶附近的银河都彻夜不现,三角座星系M33也必须要通过双筒镜才能被观察到……
为提高学生及公众对光污染的认识,学校针对性地引进了一批测光仪,并依托天一天文社加贺谷穰工作室(文化宣传部)、达盖尔工作室(学术委员会)、伽利略工作室(普及委员会)和斯科特工作室(项目办公室),设计了“多层次城市夜空光度测量科技教育活动”,策划并实施了多个文宣、教育、科普和研究性项目。
二、活动目标
知识与技能:
1.理解夜空光度、光污染的概念,了解导致夜空光度增大的主要原因。
2.掌握夜空光度分级的方法,并能运用器材测量夜空光度值。
3.了解背景光对天文观测的影响,
学会设计反映此原理的科普实验。
过程与方法:
1.开展观星活动、光污染摄影与夜空光度测量活动,掌握天文观测及夜空光度测量的基本方法。
2.了解策划、组织活动的过程,学会科学研究的一般方法,实验设计的一般结构。
情感、态度和价值观:
1.了解城市对自然地理环境的改变,不合理的城市亮化带来的环境问题,敢于解决问题。
2.在活动中,提升科学素养,发展科学思维、合作创新精神。
三、参与对象与活动形式
活动对象以天一天文社社员为主体,包括国际分社约40人,少年分社约40人,高中分社约70人,荣誉分社约20人。此外,还包括无锡市中小学天文联合会(锡天联)下属成员学校约150人,以及其他相关单位的学生约300人。
活动主体――天一天文社社员参与了“多层次城市夜空光度测量科技教育活动”的全部项目、环节的活动,包括项目研究、实验设计、科普观测和摄影活动。锡天联成员学校、无锡市少年宫等其他相关单位的学生主要参与了科普观测和摄影活动。
四、活动的重点、难点、创新点
活动重点:搭建天文研究平台,以光污染研究为抓手,调动学生积极性,让更多的学生参与到天文活动中来。
活动难点:城市夜空光度测量研
究,光污染相关实验设计。
活动创新点:由中学发起并组织
的使用国际顶尖测光仪对城市进行高覆盖度的夜空光度测量研究,夜天光监测站点建设在世界范围内都具有唯一性;由中学生开展科普实验设计与教材编写同样具有开创性;以光污染为主题的摄影大赛在当今世界也是少见的。
五、可利用的各类科技教育资源
1.技术指导:中科院紫金山天文台科普部、北京师范大学天文系高爽老师、国家天文台刘博洋博士等以技术顾问的身份,参与了“城市夜空光度测量”的相关活动指导。此外,南京大学、中国科技大学、北京天文馆的专家教授们也曾多次来校指导天文课程建设。
2.团队建设:锡天联成员学校、无锡市少年宫等作为天一天文社紧密的合作伙伴,不仅为开展与夜空光度相关的科普活动提供了场地与学生支持,而且还有一批教师参与共同开展天文教研活动,形成了教研团队。
3.资金支持:天一中学为开展天文教育投入了大量的资金,已多批次采购天文实验器材如望远镜、测光仪、相机、野营设备、图书等,并已建设完成天文创新实验室一间;天文创新实验室作为学校“STS综合创新课程基地”的重要组成部分,还得到了省市区各级教育部门的专项建设资金支持;锡天联成员学校、无锡市少年宫等单位也配套投入了相关的天文基地建设。
六、活动内容
“多层次城市夜空光度测量科技教育活动”的全部项目、环节的活动,包括项目研究、实验设计、观测实践和摄影活动等多个层次,分别由天一天文社斯科特工作室(项目办公室)、伽利略工作室(普及委员会)、达盖尔工作室(学术委员会)和加贺谷穰工作室(文化宣传部)等四大工作室具体负责。表1为各工作室的智能类型列表。
(一)主题活动一:城市夜空光度测量(项目研究)
1.选题背景及意义:
无锡作为长三角地区的重要城市之一,经济发达,城市光污染情况总体比较严重,但是不同区域的污染程度也存在明显差异。夜空光度是衡量城市光污染程度的重要指标,通过使用专门的测光仪器,对无锡城区进行高覆盖度的光度测量,从而了解无锡城区整体的污染程度,不同区域的污染水平差异,以及分析光污染产生的背景,并尝试提出防治的建议,有利于提高公众对光污染的认识,也能为城市管理部门在优化城市灯光设置时提供参考。
2.活动过程和步骤:
(1)编写《无锡市夜空光度测量指导》方案。指导学生收集、整理与夜空光度测量相关的研究论文及其他材料,对“光污染”“夜空光度”等概念进行界定,并组织编写《无锡市夜空光度测量指导》方案,就测量时间、地点、方法及报告填写的格式予以统一规范。
(2)撰写开题报告。指导学生撰写《无锡城市夜空光度测量》开题报告,对研究背景、要解决的问题、选题意义及研究价值,核心概念的界定、相关现状、参考文献,研究目标、研究内容、研究假设,研究思路、研究计划,预期成果等内容进行项目论证。经论证后的项目被中国教育学会地理教学专业委员会研究性学习课题专家组立项。
(3)开展测量活动。指导学生开展城市夜空光度测量活动,具体步骤有:
①仪器编号:为支持本课题组
的研究工作,学校从加拿大购置了9台SQM测光仪,并予以编号(以分辨仪器本身存在的机械误差)。
②路线设计:将无锡市区划分为
不同的片区,并设计好测光的具体行
进路线和测光任务。
③实地测量:将课题组成员分成不同的小组,每组由3人组成,分别负责仪器操作、数据记录和坐标定位,每个坐标点测5个数据,以减小误差。
④数据处理:将测光所得的数据(经度、纬度、时间、测光值)输入EXCEL表格,进行误差分析,取平均值,得到各坐标点夜空光亮度的最终值。
(4)撰写结题论文。指导学生根据开题报告中预期成果的要求对收集的数据进行不同角度的分析,并将结论撰写成结题论文《无锡城市夜空光度测量研究》。结题论文主要结构包括:夜空光概述,测量仪器及方法,数据分析及测量结果(数据测量与分析步骤、夜空光亮度的地区分异、夜空光亮度的地区变化、夜空光亮度的地平高度及方位分异、夜空光亮度的时间变化),反思及讨论等。于2015年第4期《地理教学》杂志。
3.活动效果及呈现方式:
活动进行过程中及之后,我们得到了诸多媒体的关注:指导教师受邀赴上海复旦大学为2015年第六届全国天文社团发展论坛作了《也谈高中天文社团建设》的专题报告,赴江阴为2015年第二届无锡市高中生峰会作了《城市天文学》的专题报告。项目组还收到了国际天文学联合会普及工作委员会及香港大学物理系的邀请函,受邀加入国际夜空光度监测网络并赴香港大学开展项目交流与培训。
在前期活动的基础上,天一天文社发起成立了锡天联、无锡城市夜空光度监测网络两个组织,吸引了南菁中学、青阳中学、山明中学、旺庄实验小学等多家单位参与,将在无锡建设若干城市夜空光度监测站,并以此为抓手,开展进一步的天文教育活动。
(二)主题活动二:光学相关实验设计(科普实验)
1.选题背景及意义:
激发学生对科学的热情,培养并学习掌握科学研究的方法与技能是我国进行素质教育的目的之一。科学研究的方法和技能至少应包括:分析和观察周围世界的技能,发现问题、提出问题、作出假设、安排实验的技能,真实地记录观察结果与数据的技能,按照正确方法处理数据的技能。
天文因为不属于中小学必修课程而不被大多数学生所了解,中学阶段非常缺乏天文科普实验或科技制作的教学内容,非常有必要利用天一天文社的资源优势整理、设计一些科普天文实验或制作,这些源自我们身边的天文科学知识将极大地激发学生对天文的兴趣,增加他们对天文的认识,促进天文知识在基础教育阶段的普及。
2.活动过程和步骤:
(1)编写“光学相关实验设计”模板。指导学生学习《高中物理实验手册》等专业书籍,在此基础上,编写“光污染相关实验设计”模板:活动目标、概念与方法、材料准备、活动步骤、活动建议、活动拓展等,同时,设计一份样稿《在微光中辨认颜色》。
(2)开展“光学相关实验设计”。指导学生开展“光学相关实验设计”,具体步骤有:
①创意征集:发动学生提出光学
相关实验(及制作)设计的创意,组织人员从投稿的创意中精选可操作性较高的方案。
②方案编写:制订编写计划,并为课题组每一位学生分配编写方案(草案),指导他们根据模板和样稿的格式及要求进行方案编写。
③实验验证:将课题组成员分成不同的小组,每组2人,以小组为单位对所编写的方案进行实验验证。
(3)组织“光学相关实验设计”比赛。面向全校师生组织开展“光学相关实验设计”比赛,吸引对天文有兴趣、乐于动手实践的学生参加“在微光中辨认颜色”“彗星为什么长尾巴”“简易望远镜制作”等比赛,并评优颁奖。
(4)举办“光学相关实验设计”科普活动。面向锡天联成员学校、无锡市少年宫及无锡地区其他中小学、幼儿园开展“光学相关实验设计”科普活动,针对不同年龄阶段的受众举办光污染科普讲座或科普游戏。
3.活动效果及呈现方式:
学生编写的“光学相关实验设计”将被编入校本教材《中小学生天文学习指南3》,这是一本专门介绍天文相关科普实验及科技制作的教材,受众定位为中小学天好者及天文指导教师。
上述科普实验及科技制作被引入天文社“宇宙意识”少儿天文科普项目及“天文全球化”社区天文科普项目,作为寓教于乐的教学素材向少年儿童及社区的天好者推广。
(三)主题活动三:星空光害旅行团(观测实践)
1.选题背景及意义:
对业余天好者来说,观星是极大的乐趣所在。然而,严重的光污染正将灿烂的星空从我们身边
夺走。
为便于普通学生及其他业余天好者通过对比观测,直观地了解无锡各地的光污染情况,我们依托天一天文社组织的“天一观星营”项目,开展了“星空光害旅行团”活动,带领旅行团的团员们利用晚上的时间,去往锡城不同的地点,实地观测、考察并对比分析星星的数目,从而普及光污染的防治意识、夜空光度的概念。
2.活动过程和步骤:
(1)编写观测方案。指导学生编写观测方案,使用最常见的目视极限星等法,即通过肉眼能观察到的最暗星等来进行估算:选择2个或2个以上地平高度大于40°的定标天区,数出该天区内能观察到的恒星数目,与国际流星组织提供的表格对应来确定极限星等。同时,为便于零天文基础的团员参与,我们设计了简易观测法,请同学们观测标志性星座所在天区的恒星数量,来比较不同地点的光污染程度。
(2)开展观测实践。带领旅行团的团员们利用晚上的时间,去往无锡城不同的地点,实地观测、考察并对比分析星星的数目。具体观测过的地点有太湖广场、馨和苑广场、天一中学、斗山、保利广场、崇安寺广场、南禅寺广场、安镇高铁新城、太湖十八湾等。(见图9、图10)
3.活动效果及呈现方式:
通过“星空光害旅行团”活动,结识了一批无锡地区的成年及未成年业余天好者。以此为抓手,天一天文社发起成立了“无锡市业余天
好者协会”QQ群。以此活动为素材撰写的《星星都去哪儿了》发表在《天好者》杂志2016年第2期。
(四)主题活动四:光污染摄影大赛(文化艺术)
1.选题背景及意义:
为推动公众思考光污染在无锡及其所在社区的状况,让公众参与光污染活动,我们发起了“光污染摄影大赛”活动。邀请公众使用摄影设备捕捉各种光污染的画面,从而了解及思考无锡地区乃至全世界日益严重的光污染问题。比赛主题分为:光污染与生态、光污染与健康、光污染与能源、光污染的分布、光污染的来源等。评选标准主要有:摄影照片视觉美感、作品说明表达技巧、光污染意涵、手法创意等。
2.活动过程和步骤:
指导学生起草“光污染摄影大赛章程”,包括组织单位、大赛目的、比赛主题、参赛资格、参赛设备、照片格式、相关权益、比赛日程、评选规则等。
章程起草完毕后,通过锡天联官网、锡天联微信公众号(AUWS2015)、无锡市业余天好者协会QQ群(91462404)、牧夫天文论坛无锡天协专版等渠道向外比赛信息。
投稿截止后,组织专家对作品进行评审,并举办颁奖仪式。
3.活动效果及呈现方式:
通过光污染摄影比赛,一方面间接了解了无锡地区光污染的来源、分布情况,另一方面,在公众中对光污染进行了有效的宣传与普及。光污染摄影作品还被制作成海报,用于专题展览。
七、活动可能出现的问题及解决预案
1.项目研究中的技术问题:
考虑到光污染问题在大陆地区的研究仍处于起步阶段,即便在世界范围内也未引起足够的重视,我们在开展夜空光度测量时会遇到各种各样的技术问题。对此我们的解决方案主要是:
(1)开题报告与测量指南两个指
导性文件必须花大力气保证质量,保证指导性和可操作性。
(2)争取学校在测光仪采购上的
支持,以及年级组、班主任在学生活动时间上的支持。
(3)遇到实在难以解决的技术问题,请教中科院紫金山天文台等相关研究机构。
2.科普实验中的素材问题:
中学生的专业知识储备毕竟是有限的,对生活的观察能力也仍有待提高,这直接导致了科普实验素材的缺乏。对此我们的解决方案主要是:
(1)大量、深度阅读中小学阶段及国外的实验手册,学习实验编写的一般结构,积累与光学相关的实验和科技制作素材。
(2)通过天文科普书籍和天文历
史故事,寻求实验和科技制作素材。
(3)面向全校发起光污染相关实
验和科技制作素材的征集活动。
3.观测实践中的安全问题:
夜间开展天文观测实践活动遇到的最大挑战是人身与财产安全问题,很多学生、家长或教师不支持天文活动也主要是对此有深深的顾虑。对此我们的解决方案主要是:
(1)与参加活动的学生签订合同,
并要求学校同意、学生签字、家长签字。
(2)统一、强制购买意外险,分担风险。
(3)与有资质、口碑好的旅行社合作,联系包车或食宿。
(4)对每一个观测地点进行事先
的实地探访,确保观测地的安全性,远离陡坡与水体。
4.摄影大赛中的发动问题:
摄影大赛看似简单,就是摁一下快门的事。但真正要发动公众参加,激发大家的热情却并不是一件简单的事。对此我们的解决方案主要是:
(1)通过锡天联成员学校的天文
指导教师,发动学生中的天好者参赛。
(2)通过官网、微信公众号、QQ群等网络平台推送摄影大赛比赛通知。
(3)积极联系赞助,为获奖选手准备证书、奖杯及奖品。
八、效果评价标准与方式
在评价的过程中,坚持“主体多元”“方式多样”“向度多维”等原则。
1.主体多元:
在活动过程中,要求学生首先进行自评和互评,不同组别之间也可以进行他评。这有利于加深学生对评价标准的认识与理解,可以促进学生自我反思和自我发展。教师在此基础上,对学生自评、互评及他评进行再评价,保证了评价的指导性。
2.方式多样:
在活动过程中,灵活运用即时评价与延时评价。即时评价有利于表扬先进,纠正缺陷;延时评价则体现了尊重、关爱与期待。此外,还将口头评价与书面评价,一次评价与多次评价,诊断性评价、过程性评价与终结性评价等多样化的评价方式相结合,以保护学生的积极性,强化学生的成就感。
《教育的枢纽》主要有七个主体章节,主要从公众关注的热点、难点问题入手,对中国高考的一系列重大事件进行解读,并以云南省考试招生工作改革为主旨,详细介绍了中央及云南省内教育改革和发展计划。在个别章节,作者倡导崇尚实学、突破创新的教育风气,主张从现代教育的本质和发展趋势出发,提出新时期中国教育发展的新思维,建立符合中国文化特征、符合中国民众意识、符合时代需要的中国特色社会主义现代教育制度。显然,这也是华山先生的现代教育理想,它并非单纯意义上的改革思路,而是于其中贯穿着的现代教育文化意识。在此基础上,他列举了大量事例,运用对比、互证等方式,总结研究出了众多招考改革经验和成果。
读华山先生的《教育的枢纽》,还产生一些感慨。他说,“文章荟萃了一些实践经验,收藏了一些辛勤付出、聚集了一些关心呼声,大多论述的是中国教育改革,都是以当事者的身份在解释、评述、分析和探索教育的发展与改革,既表达了自己对中国教育改革成果的欣悦,也展开了自己对中国教育未来发展的憧憬。”每读这段话,我都不禁怦然心动。这何尝不是我们每一位关心中国教育改革和发展者的心声呢!
推荐书目:《教育的枢纽》
作者:朱华山
出版社:云南教育出版社
Mislevy等(1993)指出,统计测验理论的发展可以分为经典测验理论(Classical Test Theory, CTT)阶段、概化理论阶段和项目反应理论(Item Response Theory, IRT)阶段。CTT和IRT 都属于标准测验理论。标准测验理论视所测的心理特质为一个单纯的统计结构,目的在于从宏观上给个体一个整体的评估。随着心理测量学和认知心理学的进一步发展和现代教育技术水平的进步,学习者更加渴求获得更具体的、细微水平的测量与诊断评估。Frederiksen、Mislevy和Bejar(1993)编著的Test theory for a new generation of tests正式出版,标志着新一代测量理论的诞生。如图1所示,认知诊断评估逐步走入历史舞台,强调能力水平和认知水平维度能够被同时诊断,不再仅仅是单一的宏观维度的知识水平。计算机化自适应认知诊断测验(Computerized Adaptive Test for Cognitive Diagnosis, CD-CAT)是计算机化自适应测验理论和认知诊断理论相结合的产物,目的是达到因材施教量体裁衣式的自适应诊断,根据学习者当前状态,选取与之相适应的题目进行测试,进而诊断学习者能力水平和认知水平,以诊断报告的方式为学习者提供提升的建议和策略。
纵观计算机技术与统计测验的结合,其发展分为两个阶段:其一是以项目反应理论(IRT)为代表的标准计算机自适应测量阶段;其二指新一代测量理论的计算机自适应阶段(认知诊断是其核心内容)。项目反应理论的特点是以概率函数的形式来描述项目作答反映结果是如何受到被试能力水平和项目特征联合作用的影响。自适应测验起源于Alfred Binet(1904)开发的智力测验,根据被试的不同特质水平和题目的不同难度与区分度,对被试实测不同的测验题目,使这些题目与被试的实际水平尽可能相适应,这样使测验更具有针对性,从而每施测一道题就能获得最大的信息量。
当现代技术手段计算机引入到测量领域中,计算机化自适应测验(Computerized Adaptive Testing, CAT)由此诞生,由计算机自动从题库中选择合适的题目给学习者作答,一方面能够在学习者做完后自动评估其能力水平,给出适合学习者的下一道题目;另一方面能够自动设定终止规则,即当达到能够评估学习者能力的题目数后,测试会自动停止。之后,运用CAT思想与认知诊断理论结合,从题库中选择最适合学习者水平和最能区分水平能力的题目作答,对其知识状态达到最恰当的评估。CD-CAT更多关注被试掌握模式的自适应,根据可观察的行为和反应,推测潜在的知识结构和技能掌握情况。例如,获得相同分数的学生不能够体现个体差异,如果在测验中能够对学生作答反应、知识反应和能力诊断,从而能够进一步提出补救措施。CD-CAT的流程包括:开始测试初始题目选择估计被试当前状态选题策略认知诊断计量模型终止条件诊断报告。对于CD-CAT的研究目前处于探索开发阶段,组成CD-CAT各个阶段的问题仍需要摸索和实践应用,例如如何确定知识状态和表征能力属性、认知诊断模型的应用研究,如何选择初始题目,以及题库的开发、建设与维护等方面。
综上所述,为了从整体上把握CD-CAT在国内的发展脉络,厘清发展现状和研究聚焦,提出实施CD-CAT的科研建议和实施策略,分别从以下方面进行分析:一方面,以时间(2005-2015年)为轴,考察关于认知诊断自适应测试文献的研究情况,采用内容分析方法对已有百余篇中英文文献进行内容分析,并通过数据的可视化表征和社会网络分析工具,探讨其研究重心和内容;另一方面,通过分析国内外已有CD-CAT平台和项目的实践情况,总结和借鉴国外实施经验,为我国今后的CD-CAT研究提供发展策略。
二、研究过程
(一) 研究方法与工具
本研究主要采用文献研究法、内容分析法和数据可视化的方法,通过对有效文献的各类属性进行分析和标识,从而获得不同维度的计量分析结果,即对本质内容进行不同方面、由浅入深、层层递进的非线性分析。研究主要借助软件管理软件NoteExpress、数据处理软件SPSS 20.0和词云生成平台Tagxedo。首先,界定研究内容和范围CD-CAT;然后,团队成员分别对2005-2015年的文章进行筛选,梳理成为研究样本;接着,根据已有文献确定分析维度,以理论概述、现状实践、研究方法等为分析内容,对样本进行统计和处理。
(二) 数据收集
采用内容分析法对2005-2015年国内发表的关于自适应认知诊断的文献进行比较、分析、综合,对研究内容和现状进行梳理和总结。为了研究的严谨性和数据分析的准确性,将学术论文与毕业论文分开统计,中文数据库来源有中国知网和万方数据库,以认知诊断和认知诊断自适应测验为关键词进行搜索,与教育测量和教育技术领域相关的文献汇总如下:中文学术期刊检索到140篇,学位论文68篇;CSSCI期刊主要集中在《北京师范大学学报(社会科学版)》《教学学报》《心理科学》《心理科学进展》和《心理学探新》等。为了对比中英文文献关于结果分析中初步印象部分的差异,即关注焦点可视化部分,选取以Computerized Adaptive Test for Cognitive Diagnosis和Cognitive Diagnosis为关键词,在Computers Education、 Computers in Human Behavior和Journal of Computer Assisted Learning(数据库分别为ScienceDirect、SpringerLink、Wiley Online和ERIC)等教育技术专业相关期刊中搜集到论文66篇。
本研究进行了两轮文献搜索和文献筛选,共有5名团队成员参与,针对不同期刊进行分工。第一轮主要对目标期刊和目标关键词进行地毯式搜索,得到中文文献233篇,英文论文79篇,利用文献管理工具NoteExpress将其分类保存;第二轮采用内容分析法对自适应认知诊断文献的关键词、作者、研究主题进行分类,最终确定中文文献140篇,英文文献66篇。对作者进行分析的主要目的是对不同研究带头人和研究单位的分布进行研究,以辨识其影响力和规模。首先,主要对文献的研究主题进行分析。团队成员基于文献阅读和积累对计算机自适应测试、认知诊断、自适应认知诊断测试的过程进行分类,讨论之后达成一致,构建初步框架;其次,在上述框架基础上,根据文献的关键词进行记录。如《小学数学图形与几何认知诊断测验的编制》一文中,以认知诊断、多策略、多级评分和Q矩阵为关键词,对多策略的多级评分认知诊断算法(多级评分广义聚类判别法,GDD-P)进行改进与应用,并且介绍了测验蓝图编制、Q矩阵,与单策略认知诊断方法进行对比,是对算法和理论的深入研究。因此,该文章涉及的分析内容分别是:理论研究、Q矩阵、认知诊断模型。该文章分析的一致性(5位成员)达到93%;最后,确定分析框架,对所有文献进行阅读,完善文献分析内容。
(三) 结果分析
1. 初步印象:有哪些研究关注点
本研究选取数据可视化词云的表达方式展示样本研究的核心内容。考虑到支持中文统计的功能,选择统计平台Tagxedo(http://tagxedo.com/app.html),词云支持中文输入,对文字的输入内容、形状等可以个性化定义(如图2所示)。中文词云中认知诊断规则空间模型和属性等频
次最高,领衔关键词说明了研究领域的聚焦,其中研究问题主要关注于学业评估诊断、认知诊断模型验证与应用(如DINA模型)、纸笔考试与计算机自适应考试差异研究与效度研究。可以初步推断文献研究集中于CD-CAT的知识属性、认知诊断模型研究等初步应用阶段。
为了使中英文文献具有对照意义,同样选取统计平台Tagxedo进行词频统计和可视化处理(如图3所示)。英文词云中显示具体的应用方法(蒙特卡罗模拟法)、语言程序(R语言)知识评估和学习干预成为仅次于测试、自适应等的关键词。从宏观角度看,一方面,英文文献的关注点更加聚焦,能够对实际的认知模型进行测验和实践应用;另一方面,体现了自适应认知诊断测验的价值和意义所在,对学生的个性化学习进行指导和教学干预,利用技术促进测试诊断最大化的实现。
通过词云分析,对CD-CAT的研究热点有了初步了解。研究发现,国内的研究关键词集中在理论基础、算法改进层面,与教育、学习等过程关联较少;国外论文分析领域表示逐步通过技术方法作用于教育领域,与评估评价、反馈干预的实验与应用关联较多。如Sanja(2015)以C++面向对象编程课程为例,开发实现自适应测试平台,选取实验组与对照组,分别用自适应测试和笔纸测试进行比较,结合问卷、访谈的分析方法对自适应测试的过程、方法、优势、实验应用进行详细阐述;Triantafillou(2008)以计算机自适应测试理论为基础,开发依托移动设备的自适应测试工具,将专家的评价灵活地运用于教育评估过程之中。
2. 渐入佳境:局部剖析
样本分析单元分别从研究创新点、发表时间、单位、数量、研究方法和理论支撑等方面展开,具体统计维度涵盖认知诊断测验题库建立、初始题选择、选题策略、认知诊断计量模型、知识状态估计方法、终止规则、原始题参数在线估计和属性在线标定、理论研究和实践应用等。
(1) CD-CAT研究历程分析
借助NoteExpress 统计学术论文和学位情况,以图4表现发展历程。
作为量体裁衣式的测验,CAT始于20世纪七八十年代。随着网络与科技进步,自适应测试可谓发挥到了极致,如GRE、GMAT、美国注册管理会计师(CMA)等等。以认知诊断理论为基础的CD-CAT相比較于CAT,更加能够利用项目属性和认知模型优势,进行诊断性的测验编制和评测。从图4可以看出,我国的发展从2006年起步,2008年研究文献逐步增多,例如曾彦钧等人(2006)提出CD-CAT以认知结构为基础,在题库建设、起始规则、选题策略、被试知识状态估计、终止规则和曝光率等部分与传统的CAT有很大区别。2011年,是学术论文和学位论文发展的高峰,之后学位论文研究数量所有下滑,期刊论文数量变化不大。
(2)CD-CAT研究内容分析
参照认知诊断评估的主要步骤包括:①描述测量目的和确定属性;②创建认知模型;③设计测验Q矩阵;④开发或选择认知诊断模型(CDM);⑤评估Q矩阵和CDM;⑥模型参数估计;⑦评估诊断与干预。其中有的步骤可能循环或者迭代。对文献的研究内容进行归类(如表1所示)。
研究团队详细阅读140篇学术文献,发现很多文献聚焦于诊断模型、Q矩阵,以及概况综述和自适应认知诊断流程描述的研究,缺少完整的实践应用的成功案例。统计数据表明:
①相比较于国外CD-CAT,国内相关研究进程较慢,并且研究内容集中在理论概述和小规模的实验证明上,缺乏大规模应用CD-CAT相关的文献支持。可见,国内自适应的教育评价方式应用还未大范围普及,通过技术诊断学习者的能力水平和知识水平,并且提供有效的教学干预的案例还不够成熟。
②基础理论研究占文献总数的74.2%。例如,唐小娟、丁树良和俞宗火(2012)提出计算机化自适应测验在认知中的应用,分别从认知诊断模型、题库建设、起始规则、选题策略、被试知识状态和终止规则等几部分进行了详细介绍。有64篇文献(45.7%)对认知诊断模型进行介绍。截至2007年,常见的认知诊断模型有补偿模型LLTM(线性逻辑斯蒂克测验模型)和MIRT-C等,非补偿模型RSM(规则空间模型)、DINA(确定性输入噪音与门模型)、HO-DINA(高阶DINA模型)、RUM(融合模型)和AHM(属性层级模型)。
③实验实践比例为30%,其中有10%的文献叙述了相应的教育干预措施,例如数学、物理、化学和英语。康春花等(2015)以小学数学与几何的知识点和问题解决能力作为认知属性的分类,定义了数学知识和认知过程,并采用口语报告法对认知模型进行质性验证,选取某校六年级1,128名学生进行了测验。
近几年,新模型的研究也为自适应认知诊断测试研究开拓了一片新天地,例如祝玉芳等(2009)的多级评分AHM模型,涂冬波等(2010)提出多级评分DINA模型。余娜(2009)提出诊断模型的评估问题由信度和效度决定,认知诊断评估中信度采用校正之后的模型产生两组平行的模拟考生,分布估计每组掌握情况,计算相同考生被划分到相同属性掌握状态的百分比。
3. 升华:合作关系追踪
科学领域的研究往往存在学术带头人,也往往会以学术带头人为核心形成研究领域的网络关系。本研究借鉴魏顺平等(2008)提出的新的n-派系定义,利用研究者合作关系网络研究,建立作者A-作者B关联关系。在社会网络分析中,派系(subgroup)是社群中的一小群人关系特别紧密。
首先,借助Excel统计研究者与文献之间的关联表(如表2所示),以作者-文献-单位的方式表现。
本研究中CD-CAT文献量大于5篇的作者见表3,通过论文作者和机构分析发现,大部分文献作者来源于高校和研究所,并且主要来源于江西师范大学的心理学院和计算机信息工程学院,以及北京师范大学心理学院。究其原因,计算机自适应认知诊断测验研究属于专业性较强、理论基础扎实的研究领域,高校师生是新理念和方法的发起者和倡导者。认知诊断测试的最终目的在于以K-12教育为代表的评估教育,能够实现学习者的自适应学习和诊断评价。文献分布说明研究内容处于高校实验室阶段,缺乏社会的广泛关注、实践和推广应用。
接下来,通过UCINET软件呈现51个节点,借助作者间的合作,观察图中度计算并排序,选出处于前列的若干位作者(假定中心作者为学术带头人),然后计算以丁树良为中心的合作关系网络图,如表4所示。
由于文章作者合作较多,本研究以文献篇数最多的丁树良派系作为研究范例,将上表的矩阵导入UCINET中,并绘图(DRAW)得到科研合作关系网络图(如图5)。
两个节点的连线表示这两个节点存在合作论文的关系,线条的粗细表示合作论文的篇数,线条越粗,则合作论文数量越多。
采用UCINET 社會网络分析软件将这些派系进行可视化处理。研究结果表明:
(1) 目前教育技术研究领域的合作类型主要为师生合作,较少跨校、跨区域合作;也存在少数的跨区域合作,因此形成了星状辐射型。
(2) CD-CAT研究应走出团队、校门,甚至跨越国界,开展跨校、跨区域、跨学科的科研合作,优化研究团队构成,从而进一步提高研究质量,加快知识扩散。
三、CD-CAT研究项目现状
接下来对国内外认知诊断自适应测试的实验与应用进行详细介绍。从上述文献分析可知,国内实践案例较少,本研究团队经过大量内容采集和梳理,选取相对规模较大的实验案例分别进行阐述。而国外相对起步较早,2001年美国通过No Child Left Behind Act of 2001,表明有义务将施测结果告知学生和家长。因此,诊断测试的价值和意义不再仅仅是提供分数,而是需要提供补救措施等。本研究列举美国应用较为广泛的Smarter Balanced Assessment Consortium和最大的自适应系统平台Knewton,并分别阐释。
2009年,教育部基础教育司组织北京师范大学、江西师范大学和中央教育科学研究所(现中国教育科学研究院)等一大批研究学者,以数学和英语为考试切入点,考察学生的核心知识和能力水平,以此命题进行认知诊断完成353道题目的编订并且设定1套公共锚题,运用DINA模型进行诊断分析。
在北京师范大学心理学院刘红云教授、美国伊利诺伊香槟分校张华华教授共同合作的The development of computerized adaptive testing with cognitive diagnosis for an English achievement test in China一文中介绍的研究,以国家基础教育课程教材发展中心学生学业质量评价项目为依托,阐述了其在北京、大连等地进行计算机认知诊断的大规模测试的情况。由于软件和硬件以及专业技能的限制,将CD-CAT应用于学校项目是一个巨大的挑战,该项目克服传统C/S(Client/Server)框架,将B/S(Browser/Server)架构设计应用于国内的英语二级考试中。来自北京8所小学的584名学生首先参与了基于Web环境的测试,该测试有36道固定长度题目,规定40分钟内完成。该实验验证了CD-CAT应用于大规模考试的巨大潜力和高效性,同时参与测试的考生可以从中获取技能掌握情况的诊断报告,为后续进行学习干预和学习路径调整提供了可能。此后,2011年1月,大约3万名辽宁省大连市的五年级学生参加CD-CAT英语能力测试,该平台利用网络技术和自适应诊断技术,持续三天、同一时间承载2000人并发的测试。在此过程中,对题库的优化、采用香农熵方法选题算法,以及内容平衡和考试蓝图的限制的编制,都进行了较好的实验。一方面,为学生和教师提供作答情况评定和诊断报告;另一方面,为研究者提供对CD-CAT效度全面审视的实践机会,为认知诊断技术的大规模推广奠定了坚实的基础。
美国也有诸多公司关注和投入CAT的领域,如ASSESSMENT SYSTEMS的Smarter Balanced评估 系统(http://smarterbalanced.org/practice-test/)。在能力测验方面,主要应用于评估学生的英语和数学能力。2010年,美国针对K-12提出了全美教育标准(Common Core States Standards, 简称CCSS),用于评估各个年级学生的数学能力和英语能力,并且已经在全美46个州和哥伦比亚区施行。Smarter Balanced 评估系统利用强制性的终结性评价和可选的中期评估来提升计算机自适应测试(CAT)的效率。在该评估系统中,计算机程序可以根据学生的响应来调整整个评估问题的难度。例如,一个学生如果回答正确,则会收到一个更具挑战性的题目,而一个不正确的答案产生一个更简单的问题。通过适应学生的能力水平,系统推荐了一系列量身定制的测验问题给每个学生,可以快速识别哪些技能学生已经掌握,哪些知识维度学生还没有掌握。Smarter Balanced Practice Tests包括评分指南,现可用于三年级到八年级的英语、艺术和数学的认知诊断,能够为学习者提供一份可预览的Smarter Balanced评估,清晰地反映每一位考生在当前学习中每一门学科中的强项和弱项,以及在未来学习中需要重点关注的领域。这种计算机评估能够方便家长、校长和老师在很短的时间内看到成效,并且通过这些诊断反馈,对学生因材施教,满足其个性化学习需求。
此外,熟知的Knewton公司基于项目反应理论,真实地测量出学生对知识点的掌握程度,避免因题目的难易程度不同造成测量误差。Knewton自适应系统利用学生的历史学习数据的网络效应来优化推荐,提高学生学习效率。建立学生学习档案,预设一些学习路径点(根据知识技能图谱),根据实际学生的使用数据(学习资源的使用效果和学习路径点的学习效果),为后来的学习者推送下一个学习路径点和学习资源。
综上所述,国外CD-CAT发展已经将智能学习系统、评估系统和教育测评融入其中。虽然从应用角度来说,自适应的成分居多,认知的成分较少,但是將诊断功能结合到计算机自适应测验中,已经成为研究热点之一,吸引了众多学者继续推进CD-CAT的实施应用。虽然国内很多研究者已经意识到CD-CAT的优势,也有研究者提出了中国教育进展评估基于CD-CAT的改进与展望,但是实践应用还处于研究或者起步阶段。例如实际教学过程中,对相同分数的学生还不能从能力和认知水平角度进行很好的诊断和评估,教师往往仅根据个人经验来判断学生的知识掌握状态和认知错误,其教学设计与教学干预不能满足学生的个性化需求。
四、对我国教育评价诊断的启示
新一代测验理论阶段在认知水平的研究范式下产生,强调测验应同时在宏观能力水平和微观认知水平下进行,认知水平的研究应深入到被试作答的认知加工过程,其目的在于诊断认知能力结构,亦在于揭示不同被试的认知加工特点,是能力水平研究的深入。认知诊断实现了传统教育考试无法企及的诊断功能,它在实践中的运用价值是不言而喻的:根据诊断结果,学生可以有针对性地学,教师可以有针对性地教;教育教学机构部门来说则可以了解当前教育情况,为教育规划及教育决策的制定提供依据。
计算机自适应认知诊断测试在教育评估中具有重要的发展意愿,目前混合式的学习环境中需要个性化的、实时的、及时的诊断和评估报告。随着网络技术的发展,MOOC等一大批在线课程蜂拥而至,但纵观众多网络课程和实践研究,其中缺少对学习者量体裁衣式的诊断评估。同时,在我国教育的测评中,纸笔考试仍旧保留重要地位,然而缺少有效甄别、准确评估和学习知识建议等内容。同时,随着高考改革的实施与推进,构建健全的教育评价体系显得尤为重要。通过针对学习过程、学习能力评价的综合诊断方法,可以提升学生综合素质。华南师范大学心理学院张敏强教授谈到如何运用认知诊断方法与技术来评价学生的认知能力,从而让学生知道自己优势在哪里、不足在哪里、有什么方法可以补救。
因此,本研究结合我国发展现状与需求和国外已有应用研究的优势,对国内教育评价如何走向CD-CAT提出以下建议:
(一)教育评估方面
相比经典测量理论和项目反应理论,认知诊断理论能把认知过程与测量手段结合起来,不仅能对考生的整体水平做出评价,还可以将考生的认知结构模式化,利用合适的测量模型对不同的认知结构模式进行诊断,从而定时考察学生的认知结构和个体差异。认知诊断方法可以应用于会考、能力水平考试;课堂上运用认知诊断功能,可以帮助教师分析学生的优势和不足,不仅能对学生的整体水平进行评价,还能将学生的认知结构模式化,通过数据定量地分析出学生的认知结构和个体差异,这样得到的信息量大且细,有助于个性化教学的实现。
1. 重视测量工具的研究和应用
实现个性化的测试平台和题库,不仅需要熟悉测量理论,还需要掌握测量模型和工具、计算机程序、统计程序等,因而需要有关教育部门与研究团队投入人力、物力,依托信息技术、网络技术和硬件设备开发有价值的题库和测试平台。
2. 对教师进行评测培训
认知诊断测试过程中,教师不仅能够依据经验和教学目标提供考试题目,而且需要对学生所需的认知水平和能力水平进行详细划分,与研究团队配合共同绘制测验蓝图,从而确定测试属性和知识点。因此,教育评测的培训是教学过程中必不可少的工具,对教师的专业培训尤其重要。
3. 题库和测试平台的地位
相比较纸笔考试,CD-CAT能够更快地获知考试成绩或者录取结果,测试能够不受时间和地点限制,考试环境更加舒适和个性化。通过搭建题库和测试平台,能够保障和实现认知诊断自适应测试:既快速获取诊断结果、报告,又可实施大规模题库,保障大部分学生的考试题目难度和区分度一致,为教育公平提供可能。
(二)科研创新方面
打造精锐团队,延伸研究深度。从文献数据分析说明,目前我国研究派系较为集中,能够拓展实践应用的驱动项目较少。因此,应当加强跨团队、跨区域甚至跨国界的学术交流和合作,共享资源与经验,共同丰富和深化CD-CAT。
(三)实践应用方面
1. 利用现有资源进行校际合作
当前大部分测验只能提供单一的测验总分或能力值,但是具有相同分数或能力值学生的认知结构(或称知识状态)可能不同,因此,对他们采取的教学补救措施是不一样的。由此产生了一个很重要的问题:如何才能精确地测量出学生的知识状态呢?认知诊断理论能够回答该问题。
一、认知诊断的发展
理论和实际需求推动了认知诊断的快速发展。理论上,认知诊断的计量模型可以提供一个有效机制来验证认知理论;实践中,美国政府于2001年提出的《不让一个孩子掉队》的法案更是促进了认知诊断的蓬勃发展。其实早在20世纪80年代,就已经有众多学者开始注重认知科学和心理测量学的结合对教育领域的指导作用。Glaser曾批判传统的教育测验缺乏对被测心理特征的关注[1],Snow和Lohman在其编写的《认知心理学对教育测量的影响》中曾预测,教育测验可能会要求提供更多的学习诊断及教学指导信息。Nichols首次将认知科学和心理测量学的结合称作认知诊断评估,并在1995年出版专著《认知诊断评估》,从而使得该名称沿用至今[2]。Stout认为在21世纪,认知诊断将会成为新的测验范式[3],并得到广泛的研究。许多认知诊断研究者先后出版专著,从各个角度详细地介绍了认知诊断理论及其应用,其中包括:Leighton和Gierl在2007年出版的《教育认知诊断评估:理论及应用》[4],Tatsuoka于2009年出版的《认知评估:规则空间简介》[5],以及Rupp等人于2010年出版的《诊断测量:理论,方法及应用》[6]。
近几年国际和国内更是掀起了认知诊断的研究热潮。2012年9月在南昌举办的第十届海峡两岸心理与教育测验学术研讨会出版了专著《认知诊断理论、方法与应用》,对国内的认知诊断研究起到了极大的推动作用。作者仅在CNKI输入“认知诊断”关键词查询所有期刊后,就得到了23835条结果,而且呈逐年递增趋势,可以看出认知诊断研究正在蓬勃发展。
二、认知诊断的相关理论
认知诊断理论主要包含Q矩阵理论及认知诊断模型(CDM)两部分,下面分别对这两部分进行介绍。
(一)Q矩阵理论
Q矩阵理论的先驱是Tatsuoka教授,她认为Q矩阵理论欲确定学生不可直接观察的知识状态,并且运用可以直接得到的观察反应模式(ORP)表示这些知识状态[7]。学生的知识状态由属性向量表征,“属性”表示测验项目的特征,是学生正确解决特定项目所需要的认知加工能力和技能[8]。一个完整的Q矩阵理论包含:属性层级结构(AHS)、邻接矩阵(A)、可达矩阵(R)、缩减矩阵(Qr)、学生Q矩阵(Qs)、测验Q矩阵(Qt)及期望反应模式(ERP)[9]。下面用一个具体例子对Q矩阵理论进行详细阐述。图1为假定的关于某份认知诊断测验的属性层级结构。
如图1所示,该份测验界定的6个属性之间存在层级关系。例如,属性1是属性2和4的先决条件,即掌握属性2之前必须首先掌握属性1。这种层级关系是必要的,比如掌握乘法之前,必须先掌握加法。根据图1所示结构,可以得到邻接矩阵A阵,它是描述属性间直接关系的矩阵,图1的A阵如表1左侧所示。由A与同阶单位阵I的和A+I,通过Warshall算法可得到可达矩阵R阵,它是描述属性间直接、间接以及和自身关系的矩阵,如表1所示。
注:A1-A6表示图1中的6个属性,“1”表示存在关系,“0”表示不存在关系
在得到R阵之后,可以通过删除法[7]或扩张算法[10]导出所有可能存在的项目类别,即在图1所示的属性层级结构之下,一份测验能够编制出来的题目类型,记作缩减矩阵Qr阵,行代表属性,列代表项目类。在图1所示的层级结构下,最多只能出15种类型的题目,如表2所示。
将Qr矩阵转置并加上一列全0向量(代表该学生一个属性都未掌握)即可得到图1下所有可能的知识状态的集合,共有16种知识状态。
测验Q矩阵,即Qt矩阵是由Qr阵的列自由组合得到,但有一点十分关键,即自由组合中必须包含R阵,这样才能使学生的知识状态与期望反应模式一一对应[11],换句话说,Qt矩阵中必须包含R阵,才能保证对学生知识状态评估的精确性。
期望反应模式指学生在不存在任何失误和猜测的情况下对题目的作答反应模式,即学生掌握了题目考察的属性就能答对该题,只要有一个属性未掌握就答不对该题。但现实中,学生在作答时或多或少都会存在一些失误或猜测,因此,期望反应模式是一种理想化的反应模式。
对上述概念进行串联之后,我们可以通过图2来理解Q矩阵理论:
(二)认知诊断模型
测验施测后,只能得到学生的作答数据,要想得到学生的知识状态,就需要使用认知诊断模型进行估计。目前开发出来的认知诊断模型已达100多种[12]。下面仅简单介绍几个比较常用的认知诊断模型。
1.线型逻辑斯蒂克特质模型(LLTM)
Fischer提出的LLTM模型是认知诊断模型的雏形[13],它是在Rasch模型的基础上改造而成的,其模型为:
,其中θi是学生的能力参数,bj是题目的难度参数,qjk是属性k在题目 j上的复杂度计分, K为测量到的属性个数,ηk是属性k的复杂度权重,d是标准化常数。LLTM用属性复杂度的线性组合表征题目难度,属性对题目的贡献越大,则题目的难度也越大。
2.规则空间模型(RSM)
Tatsuoka提出的规则空间模型是一种基于模式识别和分类技术的诊断方法。该方法首先基于Q矩阵理论,分析出测验考察的所有认知属性以及每道题目考察了这些认知属性中的哪些,同时还能确定学生所有可能的知识状态种类。RSM认为学生的作答还会出现失误和猜测两种意外情况,这时学生的ORP会与其ERP不符,那么该如何基于ORP估计出学生的知识状态呢?RSM根据项目反应模型计算出一组序偶R(θ,ζ),它在规则空间中是一个坐标点,称为纯规则点。θ是学生的能力参数,ζ是基于项目反应理论的一个警戒指标,表示能力为θ的学生其实际作答反应模式偏离其真实能力水平相对应的项目反应模式的程度。基于ORP,可以计算出每个学生的序偶,然后使用贝叶斯判别或马氏距离判别可将学生判归为某个纯规则点,这个纯规则点即代表了相应的知识状态。
3.属性层级模型(AHM)
AHM是在RSM的基础上发展起来的,该模型同样采用了RSM模型的Q矩阵理论,但有两点不同之处。第一,AHM强调首先要界定好属性及其层级结构,据此来编制诊断测验,RSM是在现有测验的基础之上,反推属性及其层级结构。第二,AHM根据最大相似概率对学生进行判别,RSM通过建立规则空间,使用距离判别法对学生进行判别。Leighton等提出了两种基于项目反应理论和概率论的分类方法:A方法和B方法。
方法A:
,其中
sj(01)表示学生i的期望反应为0,但观察反应为1的所有题目的集合;sj(10)表示学生i的期望反应为1,但观察反应为0的所有题目的集合。P(θi)为学生i的正确作答概率,由项目反应模型估计得到。
方法B:
。该方法与A方法的区别在于,B方法认为拥有某个观察反应模式的学生,掌握了所有逻辑包含在其中的期望反应模式的属性组合,对于那些逻辑不包含的期望反应模式,只需考虑失误而不需考虑猜测[14]。
4.确定性输入,噪音“与”门模型(DINA)
DINA模型是具有显式项目特征函数的诊断模型[15],其数学表达式为:
,其中
是潜在反应指标,具体含义是指,若学生i掌握了项目j所考察的全部属性,则ηj=1,否则,ηj=0。从中可以看出,DINA模型能将学生分为两类,一类是掌握了题目考察的全部属性,一类是至少有一个题目考察的属性未掌握。αik 指学生i是否掌握了第k个属性(k=1,2,…,K), αik =1表示掌握,αik =0表示未掌握。qjk表示项目j是否考察了属性k,若qjk=1表示考察了,qjk=0表示未考察。sj是题目的失误参数,它表示学生 i 掌握了题目 j 考察的全部属性,反而答错的概率;gj是题目的猜测参数,它表示学生 i 未全部掌握题目 j 考察的属性,反而答对的概率。一个质量较好的题目,应该具有较小的 sj 和 gj 参数,并且要满足1-sj>gj[16]。
5.融合模型(FM)
FM被认为是一个很成功的认知诊断模型[17],其数学表达式为:
。
其中
,表示掌握题目j考察的全部属性的学生的正确作答概率,也称作题目的难度参数,其值越大,题目难度越小。
表示学生未掌握属性k所带来的惩罚,每少掌握一个题目j考察的属性,正答概率就会下降。r*ik也称作属性区分度,其值越小表明属性越重要。cj 表示学生答对项目 j 所需残余能力的程度,它是表征 Q 矩阵完整性的指标,cj值越大说明 Q 矩阵界定越完备[18]。
三、认知诊断测验编制方法
认知诊断测验与传统测验的主要区别在于:(1)认知诊断测验的目的是侦查出学生的知识漏洞,进而采取针对性的补救措施,促进个体的认知发展;而传统测验意在对学生进行整体评价或筛选,较少关注个体的认知结构。(2)认知诊断测验需要由认知心理学和心理测量学专家事先界定出完成测验任务所需的认知属性,以及它们之间的层级结构,然后根据Q矩阵理论编制测验;传统测验一般是根据双向细目表来编制测验,无法侦查出学生在认知结构和认知加工过程方面的情况。(3)在编制认知诊断测验时,不仅要满足测验考察的内容、题型、难度、区分度等标准,同时还要兼顾可达矩阵、每个属性的考察次数以及每道题目所考察的属性个数等因素。(4)传统测验追求的是总分分布形态尽量呈正态分布,分数之间的变异性越大越好[19],认知诊断测验对总分形态没有要求。
基于以上区别,认知诊断测验的编制方法与传统测验大不相同。国外学者从不同方面对其编制方法进行了研究[20],包括:认知设计系统[21]、证据中心设计[22]及基于KL信息量的认知诊断测验编制法[23]。在综合了前人研究的基础上,我们认为编制一份优良的认知诊断测验应该包含以下步骤:
1.确定认知诊断评估的目标和群体;
2.根据目标,由专家界定出完成测验任务所需的认知属性,以及它们之间的层级结构;
3.根据属性层级结构,利用Q矩阵理论建立一系列矩阵,其中测验矩阵Qt阵十分重要,是认知诊断的测验蓝图[9];
4.根据Qt矩阵编制认知诊断题目;
5.选择合适的认知诊断模型对题目参数和学生的知识状态进行评估;
6.对题目质量进行分析,例如,题目参数是否合理,Q矩阵质量是否合格,界定是否完备;
7.根据第6步的结果对题目进行修订或增删,以及对Q矩阵进行重新标定,之后重复2-7步骤,直到所有的题目均达到理想标准;
8.测验组卷。
四、认知诊断测验的效度检验
效度检验不应该仅局限于对测验本身是否达到预期测量目标的范围(内容/结构效度),还应该包括补救和指导效果的考察(校标效度)[24]。关于效度检验,目前有以下两派观点。
(一)Messick框架
Messick提出的效度检验框架[25],关注的是由认知诊断设计带来的正向或负向结果,它强调认知诊断设计与补救之间的联系。Messick区分了认知诊断结构效度的7个方面:(1)内容是否体现了认知诊断的目标领域;(2)学生是否运用了相应的认知加工过程去完成测验任务;(3)评分是否反映了学生能力与目标领域的交互作用;(4)认知诊断得到的结果是否能预测期望的结果;(5)认知诊断测验的结果是否公平可信;(6)认知诊断测验是否有较好的聚合效度和区分效度;(7)测验结果的外推性如何,例如是否能够推广到不同时间、地点以及实测环境。
(二)荷兰学者框架
Borsboom及其同事提出了认知诊断效度检验的三个主要概念[26]。(1)测量概念:认知诊断评估需要关注的是那些可以被量化的研究侧面,其中包括测量到的内容与想要测量内容的一致性、在不同情况下测量到的结果是否具有不变性,以及测量到的结果是否准确。(2)决策概念:能够用心理测量方法进行量化研究,包括额外评估,以及根据经验与诊断评估分数相关联的其他标准。强调对一个较稳定特质的测量结果是否能准确预测未来,是否采用了最佳的测量方案等。(3)影响概念:量化基于诊断评估所进行的决策评价,不能直接追溯到诊断评价的心理测量性质本身,而应该根据测量结果的变异性来考察效度。该概念包括测量的结果是否可以被接受,对不同人群测量是否公平等。
以上两派观点均是从理论出发,探讨在认知诊断中该如何对效度进行检验,以及应该关注的方面。实践中,一些学者采取具体措施对效度问题进行了检验。Tatsuoka和Tatsuoka将补救措施作为实证效度的证据[27],他们对学生进行前测后,根据诊断结果对学生实施了针对性的补救措施,然后在实施后测之后发现,93%的学生有了进步,7%的学生发生了退步;Jang在对二语阅读理解进行诊断后将结果反馈给教师和学生发现,所有的教师认为诊断信息十分有效,能够使学生了解未掌握的属性有哪些,并有效指导教师教学,有39%的学生经常使用反馈的诊断信息来指导自己学习,50%的学生偶尔使用反馈信息[28]。Embretson和Yang还提出建立项目难度对认知属性的回归检验,来测量认知属性对题目难度的解释量,以此来验证Q矩阵的内部效度[29]。
五、认知诊断在实践中的应用
认知诊断在实践中得到了广泛的运用,概括起来,主要包含两个领域:教育领域和临床诊断领域。其中第一个领域的研究颇丰。
(一) 认知诊断在教育领域的应用
在数学学科方面,余嘉元运用RSM对江苏省中学生解不等式题进行了诊断研究,这是RSM在国内的首次应用[30]。范士青用RSM,采用任务分析的方法归纳出加减法运算的属性及其层级结构,以此编制测验,调查了268名小学二、三年级学生对整数减法计算的掌握情况,研究发现,有87%的学生被成功划归到18个理想反应模式中[31]。
在语言研究方面,Hartz等人运用融合模型对小学三年级学生的阅读评估测验及PSAT测验进行了研究[32];刘慧以现代汉语普通话六个基本颜色词为对象,运用RSM对汉语非母语者对这些颜色词的认知模式作出判别,并对他们的掌握情况作出诊断性描述,这是RSM在汉语语言测试中的首次应用[33]。王静用RSM对857名被试进行了C.TEST阅读理解测验的诊断性评价研究,将90.57%的被试成功地划归到50个理想反应模式中[34];赵雪晶用RSM对289名以汉语为第二语言学习者进行了量词掌握模式的诊断研究,有95.16%的被试得到了成功归类[35];蔡艳、丁树良和涂冬波根据高考英语数据,采用AHM方法对82000名考生作了认知诊断分析,探明了目前高中生在英语阅读问题解决的认知特征及存在的问题,为教学指导及评估提供了丰富信息[36]。
在认知能力测验方面,康春花和戴海琦用LLTM对空间折叠能力(心理旋转)进行了实证研究,取得了良好的效果[37]。戴海琦和刘声涛还用LLTM对影响瑞文测验项目认知难度因素进行了实证研究[38]。余嘉元用RSM编制了40道题目,对南京市中学生进行测量,发现其中有318人存在不同程度的认知缺陷,他们能够被划归到16种不同的理想反应模式中[39]。赵顶位将AHM运用于三段论推理测验编制及个体知识状态的判别中[40]。赵顶位和戴海琦用高阶DINA模型对江西省三所中小学4-8年级学生的几何类比推理问题解决能力进行了诊断评估,探明了目前学生在解决几何类比推理问题中所存在的问题,进而为提出针对性的补救措施提供依据,使学生能够更好地掌握知识[41]。
在其他学科中的应用方面,刘启亮用RSM作了初中化学认知诊断的研究,将91.46%的被试判归为21种理想属性反应模式,然后就根据诊断结果该如何进行补救进行了相关探讨,从班级和个体两个层面从理论上提出了一些补救方案[42]。黎娇以欧姆定律学习为例,运用RSM进行了中学物理教学评价中的实证研究[43]。徐光建用高阶DINA模型编制了高一物理认知诊断测验[44]。
(二) 认知诊断在临床诊断领域的应用
Templin等人运用DINO模型对593名被试在病理性赌博方面进行了临床诊断研究,按照《精神障碍诊断与统计手册》(DSM-IV-TR)给出的10条标准,估计出了每个被试在各条标准上的“掌握程度”,从而判断该被试是否存在病理性赌博倾向[16]。
此外,Reif等人认为以往人格问卷的编制缺乏直观性,并且题目的难度均是由实证研究所决定。为了增加问卷题目的结构效度,他们使用LLTM编制了人格问卷[45]。
六、结语
未来认知诊断的发展不仅需要关注对测量模型的研究,更需要加强理论建设(Q矩阵理论),只有两者齐头并进,才能更好地壮大认知诊断理论。正如Leighton等人曾说:“认知诊断评价还处于婴儿期,但它的起源是非常牢固的。”[5]最后,希望更多的心理学工作者能够加入到认知诊断研究中,共同推进该测量理论的发展。
参考文献:
[1]Glaser, R., The future of testing: A research agenda for cognitive psychology and psychometrics[J]. American Psychologist, 1981, 36(9): 923.
[2] Nichols, P.D., A framework for developing cognitively diagnostic assessments[J]. Review of Educational Research, 1994, 64(4): 575-603.
[3] Stout, W., Psychometrics: From practice to theory and back[J]. Psychometrika, 2002, 67(4): 485-518.
[4] Leighton, J. and M. Gierl, Cognitive diagnostic assessment for education: Theory and applications[M]. Cambridge University Press, 2007.
[5] Tatsuoka, K.K., Cognitive assessment: An introduction to the rule space method[M]. Routledge New York, NY,2009.
[6]Rupp, A., J. Templin, and R. Henson, Diagnostic measurement: Theory, methods, and applications[M]. Guilford Press, 2010.
[7]Tatsuoka, K.K., Architecture of knowledge structures and cognitive diagnosis: A statistical pattern recognition and classification approach[J]. Erlbaum: Hillsdale, 1995: 327-359.
[8]丁树良, 王文义, 罗芬. 认知诊断中Q矩阵和Q矩阵理论[J].江西师范大学学报: 自然科学版, 2012, 36(5): 441-445.
[9]丁树良, 汪文义, 杨淑群. 认知诊断测验蓝图的设计[J].心理科学, 2011,34(2): 258-265.
[10]杨淑群, 蔡声镇,丁树良,林海菁,丁秋林. 求解简化Q矩阵的扩张算法[J].兰州大学学报: 自然科学版, 2008,44(3): 87-91.
[11]丁树良, 杨淑群, 汪文义. 可达矩阵在认知诊断测验编制中的重要作用.江西师范大学学报: 自然科学版, 2010,34(5): 490-494.
[12]辛涛, 乐美玲, 张佳慧. 教育测量理论新进展及发展趋势[J].中国考试, 2012, 5: 002.
[13] Fischer, G.H., The linear logistic test model as an instrument in educational research[J]. Acta psychologica, 1973,37(6): 359-374.
[14]韩裕, 张敏强. AHM分类方法的改良[J].华南师范大学学报(自然科学版), 2012.
[15]Junker, B.W. and K. Sijtsma, Cognitive assessment models with few assumptions, and connections with nonparametric item response theory[J]. Applied Psychological Measurement, 2001, 25(3): 258-272.
[16] Templin, J.L. and R.A. Henson, Measurement of psychological disorders using cognitive diagnosis models[J]. Psychological Methods, 2006, 11(3): 287.
[17]涂冬波,蔡艳,戴海琦,漆书青. 现代测量理论下四大认知诊断模型述评[J].心理学探新, 2008. 28(2): 64-68.
[18] Hartz, S.M., A Bayesian framework for the unified model for assessing cognitive abilities: Blending theory with practicality[D]. Unpublished doctoral dissertation, University of Illinois at Urbana-Champaign, Urbana-Champaign, IL., 2002.
[19]漆书青, 戴海崎,丁树良, 现代教育与心理测量学原理[M].北京:高等教育出版社. 2002.
[20]蔡艳, 涂冬波, 丁树良, 认知诊断测验编制的理论及方法[J].考试研究, 2010(003): 79-92.
[21] Embretson, S.E., A cognitive design system approach to generating valid tests: Application to abstract reasoning[J]. Psychological Methods, 1998, 3(3): 380-396.
[22] Mislevy, R.J., L.S. Steinberg, and R.G. Almond, On the role of task model variables in assessment design. In Siring & P. Kyullonene ( Eds. ), Generating items for cognitive tests: Theory and practice[M]. Hillsdale, NJ: Erlbaum, 2003.
[23] Henson, R. and J. Douglas, Test construction for cognitive diagnosis[J]. Applied Psychological Measurement, 2005, 29(4): 262-277.
[24]王卓然, 郭磊, 边玉芳, 从与标准测验理论差异谈认知诊断的特征[J].考试研究, 2012, 32(3): 10-20.
[25]Messick, S.. Validity. In R. Linn (Ed.), Educational measurement ( 3rd ed., pp. 13-103) [M].NewYork: Macmillan,1989.
[26]Borsboom, D., &Mellenbergh, G. J..Testvalidity in cognitive assessment.In J. P. Leighton&M. J. Gierl (Eds.). Cognitive diagnostic assessment for education:Theory andapplication(pp. 85-118) [M]. Cambridge, UK:Cambridge University Press,2007.
[27] Tatsuoka, K.K. and M.M. Tatsuoka, Computerized cognitive diagnostic adaptive testing: effect on remedial instruction as empirical validation[J]. Journal of Educational Measurement, 1997,34(1): 3-20.
[28] Jang, E.E., Cognitive diagnostic assessment of L2 reading comprehension ability: Validity arguments for Fusion Model application to LanguEdge assessment[J]. Language Testing, 2009,26(1): 31-73.
[29]Embretson, S.E., & Yang, X.. Construct validity and cognitive diagnostic assessment.In J. P. Leighton., & M. Gierl (Eds.), Cognitive Diagnostic Assessment for Education[M]. New York: Cambridge University Press,2007.
[30]余嘉元. 运用规则空间模型识别解题中的认知错误[J].心理学报, 1995,27(2): 196-203
[31]范士青. 小学生加减法计算错误的分类与认知分析[D],华中师范大学硕士学位论文,2008.
[32]Hartz, S., L. Roussos, and W. Stout, Skills diagnosis: Theory and practice[J]. User Manual for Arpeggio software. ETS, 2002.
[33]刘慧.规则空间模型在留学生汉语颜色词掌握模式诊断中的应用[D],北京语言大学硕士学位论文,2006.
[34]王静.C. TEST 阅读理解测验的诊断性评价研究[D], 北京语言大学硕士学位论文,2008.
[35]赵雪晶. 汉语作为第二语言学习者量词掌握模式诊断研究[D],北京语言大学硕士学位论文,2009.
[36]蔡艳, 丁树良, 涂冬波。英语阅读问题解决的认知诊断[J].心理科学, 2011,34(2): 272-277.
[37]康春, 戴海崎. 采用LLTM作测量与认知结合研究的初步探讨[J].心理科学, 2001,24(5): 569-572.
[38]戴海崎, 刘声涛. 瑞文测验项目认知难度因素分析及LLTM拟合验证[J].心理与行为研究, 2004,2(2): 411-414.
[39]余嘉元. 关于新课程改革中的诊断性测验研究[J].教育探索, 2006. 5: 24-25.
[40]赵顶位. 属性层次方法下的三段论推理测验制及个体属性掌握模式的判别[D],江西师范大学硕士学位论文,2007.
[41]赵顶位, 戴海琦. 基于认知设计系统的几何类比推理测验的编制及认知模型分析[J].心理学探新, 2011,31(3): 278-283.
[42]刘启亮. 规则空间模型在初中生化学知识学习诊断与补救中的应用研究[D],江西师范大学硕士学位论文,2008.
高等职业教育是高等教育的重要组成部分,其教学过程和培养目标有三个显著特点:一是注重岗位能力培养,根据“按需施教、学以致用”的原则,组织课程教学和实习实训;二是强调课程体系的针对性,课程设置不是从学科出发,而是从职业岗位需要出发;三是突出实践环节教学,主动适应地方社会经济建设发展要求。因此,要对整个教学过程进行全面、系统、公正地评价,就要从考试内容、形式、成绩构成等方面进行系统规划与分析,力求探索出相对完整、切实可行的能充分发挥考试功能和实现高职教育教学目的的考试方法和手段,从而实现高职教育教学目的。
高职院校工程测量技术专业专业课程主要包括《地形测量》、《控制测量》、《工程测量》、《GPS测量技术》、《数字测图》、《测量平差》、《摄影测量》等,各专业课程的考试均应具有显示功能、反馈功能和导向功能,因此要结合现有工程测量技术专业专业课程考试存在的弊端,构建新的考试机制,同时促进数字化校园的建设。现有的考试模式存在着很多问题, 如形式单一、考试目标的模糊等情况,造成学生创造力的抵制,综合能力的下降,具体分析主要包括是以下几个方面的问题:
1、考试目标僵化。考试是一个学习过程,这应该是一个考试的主题教育管理论文,其目的是促进学生更好、更全面、更深入学习的手段,是为了对所学知识的一种提升,为今后的运用打下坚实基础,从而拓宽思路,成为创新人才的起步。而现在考试形式促使学生考试目标僵化,态度不明确,认为考试是学习的终结者。
2、考试方式过于单一。目前高职院校大部分学科考试主要是是采取终结式考核, 即教师出各种题型的试题,学生在规定时间内闭卷笔试,教师按标准答案进行阅卷,给出学生的期末考试成绩,结合学生平时成绩,做出学生该门课程的期末总评成绩。考试的单一性,使学生学习一门课程之前便习惯性产生为了考试而学习的惯性思维。不光答题纸张耗材,教师阅卷、试卷回收也耗时。
3、考试内容主观性过强。目前考试内容大多由任课教师或专业教师自主出题,自主阅卷。老师出卷自由度小,试卷质量低。多数老师在出卷时都只会侧重大纲中的重难点,而忽略或者说是无法把各科知识进行链接,也无法区别对待,从而测试出个体真实的成绩论文服务。导致学生为考试而学,教师为考试而教。教师在授课过程中注重强调考试内容,便会导致理论知识的传授过于倾斜。试题内容的泄露,批改阅卷过程中存在的主观判错、计算错误等现象都会促使最后结果失去客观真实性、公平性。不能客观、真实地反映出学生的能力水平,同时又有测试内容不全面的因素,因此考试形式的改革和创新是迫在眉捷事宜,只有改革考试模式才能够真正激发学生的创新意识,培养其创新能力。
4、考试评价方法片面。目前期末总评成绩中,期末考试成绩是主要的决定因素,而期末考试往往是书面闭卷形式,这就给学生造成了很大压力和侥幸心理,有的同学在考前搞题海战术,有的同学把“投机取巧”的功夫用在考场上,同时也不利于学生创造性和主动性的发挥,阻碍了创新思维的培养与发展。为培养学生学习的自主性、自觉性和创造性,促使学生充分利用平时时间努力学习,就必须对传统的考试模式进行改革,建立一个真正全面、客观、合理的课程考核体系。
5、考试反馈机制缺乏。由于考试是期末一次性终结考试,学生考试结束,就意味着本门课程学习的终结。考试中存在的问题,教师不能与学生进行及时的反馈与交流。这样的考试模式有可能将学生引向一种僵化、死板的学习轨道。
这些弊端的出现都会降低学生学习的积极性、自主性、创新性以及个体综合素质的全面发展,同时还导致高职教育教学目的失去重心。
现代科技的发展教育管理论文,信息技术广泛应用,计算机已渗透到各行各业。其中,凭借计算机的考试系统以方便快捷等优点得到了充分的肯定。驾驶理论考试就是运用计算机考试的一个实际应用,它实现了理论考试的无纸化,以往出题、印试卷、批改试卷等繁琐的工作也随之被计算机所替代。考试是教学过程中的重要环节,它担负着因材施教、选拔人才、评价教学等众多功能。随着时代变迁,这种计算机无纸化考试系统由于安全性高、便于组卷和评阅、资源消耗低、自动化程度高、可以实现远程考试等特点,在学历考试、各种职称考试、证书考试中已被广泛使用。
工程测量技术专业专业课程考试模式改革应首先通过对专业考试现状的分析,收集资料建设试题库,同时与计算机编程技术人员合作构建考试模拟系统。因此,核心内容便是依托建立的考试模拟系统,其原理应同驾校理论考试一致,可以随机抽取题库试题组卷、计算机智能阅卷评分和试卷分析等功能于一身,更能体现客观、公平、公正的考试特点,且不受时间和空间的限制,随时随地进行测试更适合信息时代的考试要求,也切合了高校数字校园的建设。采用此考试模式,不仅使得教学管理部门不再面临人工印刷试卷的艰巨任务,也让教师从此告别了出题、组卷、人工阅卷、评分、试卷分析、登记分数等繁琐的工作,节省大量的人力物力,因此考试模拟系统代替传统的考试已经成为必然趋势。以下从多方面对其特点进行分析探讨:
1、随机抽题功能,降低了考生作弊的可能性,达到公平、公正性。支持随机组合卷,可以从指定的若干试卷中按要求随机抽取考题进行考试,或从试题库中随机抽题供考生作答,保证每个考生的试卷都不一样。用于考生平时自测也十分方便。由于试题是随机抽取的,所以考生试卷的试题顺序是不同的,这极大降低了考生作弊的可能性,有效防止相互抄袭行为,也确保了考试的公平性。
2、题型可以丰富,自主选择性强。教师可以在选择单选、多选、简答等题型的基础上,如条件充裕,可以设计新增判断题、不定项选择题、填空题、计算题、识图题、简答题等题型。
3、考试过程自动控制,在规定的时间内自动交卷、评分。整个考试过程由系统自动计时,时间到系统将自动提交试卷,避免了传统考试中考试结束时,考生还不愿意停笔交卷的拖延现象论文服务。
4、成绩分析功能,有效帮助教师了解教学情况。考生提交试卷后,系统将立刻对试卷进行自动评分,生成成绩通知单。最终将整个班级学生的成绩汇总教育管理论文,并按分数段排列,形成分析报告。真正实现考生考完即刻知道考试成绩的愿望,也体现出考试高效、快捷的特点。
5、可支持试题库管理,方便录入、导出试题,也可以在网上共享题库资源。该系统可拥有简单快捷的试题录入模式,方便对试题库的管理。试卷可以直接导出到WORD文档或打印出来。可以把所有试题保存到数据库,通过互联网方便地进行模拟考试,也允许设置为练习模式,让学生考试过程自行判题。
6、考试模拟系统扩展性强。其可以根据自己需求,在计算机技术基础上增加各种功能。如新增考生身份检查功能:对考生重考、二次登陆和考后查卷时进行身份检查,只有班级、考号、姓名和第一次考试输入的信息一致方允许登录,防止考生身份信息输入出错的情况。
7、界面可设计人性化,操作简便。在实际使用中,从每一位学生到教师,在操作方面都没有障碍,界面人性化,方便可行。
〔中图分类号〕G44 〔文献标识码〕A
〔文章编号〕1671-2684(2014)04-0004-03
心理健康(mental health)是指个体在适应环境的过程中,生理、心理和社会性方面达到协调一致,保持良好的心理功能状态[1]。它是影响人们幸福感的重要因素。然而,据美国卫生局报告,我国精神疾病目前占所有疾病的14.3%,预计到2020年将上升到17.4%[2],这表明我国心理健康问题形势严峻。小学生情绪能力和认知能力处于迅速发展的关键期,其心理健康状况不仅影响其幸福感,更对其健康成长起着不可忽视的作用。对此,有学者就我国小学生的心理健康状况进行了调查,结果发现,小学生中有中度心理和行为问题的占16.4%,有严重心理问题的占4.2%[3]。这反映了我国小学生的心理健康问题堪忧。
越来越多的研究认识到研究小学生心理健康问题不仅是学术议题,更是进行小学生心理健康教育的必要基础,因此大量的研究先后探究了小学生心理健康状况。为了把握小学生心理健康研究的具体情况,本文对源自中国期刊网的453篇相关论文进行文献计量学分析,以深入了解小学生心理健康研究的具体开展情况,为今后的理论研究与应用实践提供参考。
一、研究方法
1.统计方法
文献计量法,以频次、百分比为主。
2.文献取样
以中国期刊网为平台,对2003年1月至2012年12月所发表的有关小学生心理健康方面的所有文献进行统计,发现有453篇包含“小学生心理健康”的文章题录。
3.分析类目与单元
在对代表性论文进行参考的基础上,对以下6个单元作统计分析:年代分布、受资助状况、合作者人数、内容分布、作者机构及作者所在地区。
二、结果与分析
1.研究论文的年代分布
对2003~2012年发表的453篇小学生心理健康方面的文章进行年代分布统计分析,如下页表1所示。除2005年(4.4%)和2009年(10.2%)出现稍大的波动外,我国关于小学生心理健康研究的论文数量总体呈现增长趋势。2003~2007年的论文数为159篇,2008~2012年的论文数为294篇,分别占总数的35.1%和64.9%,后者较前者增长了29.8个百分点,这说明近十年来小学生的心理健康问题越来越受到研究者的关注。
2.研究论文的受资助情况
对近十年来的453篇论文的受资助情况进行分析,如表2所示,结果发现有84.1%不受任何项目资助,仅有15.9%的论文受资助。在受资助的文章中,最多的是省部级项目(9.5%),来自“相关协会”(1.1%)及“国家级”(1.3%)资助的项目相对较少。整体而言,受资助的研究数比例低且不同级别间数额差异很大。这给未来的研究以启示:小学生心理健康研究的全面开展需更多资助,尤其是国家级项目及相关协会项目的支持。
3.研究论文的内容
对453篇文章的内容进行具体分析(见表3),结果发现“现状调查”(18.9%)、“相关研究”(21.9%)及“对策研究”(19.4%)这三项研究内容所占比例相当,但都低于“其他”内容类别(37.1%)的研究论文,而这部分论文是作者基于小学生心理健康问题某角度而提出的一般性看法或陈述,缺乏科学研究的严谨性。“综述研究”及“测量方法研究”则分别只占总体的0.9%、1.8%,这提示着综述性与测量方法类研究目前呈现出一定困境,亟待突破。
4.研究论文的形式及其研究力量
对研究论文的合作形式和研究力量进行分析(见
表4),结果发现,独著论文数占论文总数的67.8%,合著论文仅占32.2%,且论文合著以两人合作形式(17.2%)为主,课题组合作形式仅占0.7%。这表明研究者需加强各种形式的合作力度,组建课题组形式的专业研究团队,增强研究的系统性和全面性。
以第一作者的单位作为研究力量机构分析的基础,“其他(小学教师及协会等)”占研究力量的55.8%,其次为“师范类院校”(17.7%),而来自其他单位的研究相对缺乏,见表5。这表明,小学教师及协会是最主要的者,这些发表者的研究内容基本上是一般陈述性的研究,这与表3中关于研究内容的数据结果(“其他”类别即一般性看法或陈述性研究占最大比重)契合。由此可以看出,专业研究团队参与力度的薄弱可能影响到研究内容的的专业性与系统性,研究需更多专业力量的
投入。
为了进一步了解研究力量的分布,本研究对研究力量的省份分布情况作了分析,分布总体来说呈不平衡状。研究力量位列前五位的省份分别为:江苏(11.0%)、山东(7.5%)、甘肃(7.5%)、浙江(7.1%)与吉林(5.1%),表明小学生的心理健康问题在我国较发达地区已经普遍受到研究者的关注。位列后五位的省份分别为:青海(1.1%)、内蒙古(1.1%)、(0.9%)、宁夏(0.5%)及新疆(0.5%),即我国偏远贫困地区的相关研究极度缺乏。
三、讨论
1.拓展测量方法
本研究发现,近十年来关于小学生心理健康的研究数量较多,同时内容涵盖面较广,包括现状调查、相关研究、对策研究、综述研究、测量方法研究及其他研究等,但关于测量方法的研究却相对匮乏。目前国内研究仍较多引进国外的测量方法,易出现跨文化问题;此外,现有量表内容多侧重负面心理特质,与小学生发展的实际有所偏离[4]。我国研究者也意识到这些问题,心理健康的评估工具已经从单纯引进发展到自编问卷,量表内容在向多领域延伸,也编制出了一些信效度较好的量表。但总体来看,我国心理健康量表的信效度普遍较低,自编量表有低水平重复现象,测量积极心理的量表少[5]。即我国仍需本土化的较为统一的科学测查工具和标准。广大研究者需加强对研究方法的探索,改善测量工具,以便为更深入的研究奠定基础。
2.研究者的全面调动
小学生心理健康问题的研究需要研究者的积极参与。首先,对研究者合作积极性的调动。研究形式合作化已经是当今科研形式的主流,合作带来的团队资源整合有助于促进研究途径多样化以及研究本身的完整性、全面性与创新性。但上述数据显示,独立研究形式仍是小学生心理健康研究的主流。独立性研究在一方面保留了研究纵向的独特性及系统性,但另一方面独立性研究缺少横向文化间的合作交流。这与以往的研究一致[6,7],即跨文化、跨地区式大样本研究缺乏。为此研究者应当积极寻找合作切入点,突破束缚,加强各种形式的合作以逐步完善研究维度。
其次,对经济落后地区研究者的调动。有研究者在关于西部民族地区中小学心理健康教育需求现状的研究中发现,8.4%的中小学生认为自己的心理健康状况较差或很差,其中有28.7%为小学生[8],这说明西部落后地区小学生对心理健康教育的需求非常强烈。但本文数据显示,我国一些落后的偏远地区,如青海、内蒙古、、宁夏及新疆等地关于小学生心理健康的研究极少,发展极慢,这也反映了落后地区小学生对于心理健康教育的需求远远得不到满足,客观经济条件的相对落后直接影响到理论研究与教育实践的开展。同时研究工具的不完善、研究人力的不足等因素都妨碍了相关研究的发展。政府需增强支持,帮助其改善研究的物质环境与人文环境,呼吁更多其他地区的研究者多进行跨地域研究合作,提升研究意识,改善研究方法,加大研究力度。
最后,对各个单位研究力量的调动。本研究数据显示,群体主要集中在小学教育者及有关协会方面,他们多以见解性、描述性的研究为主。这些研究与其自身教育实践直接联系,更具现实意义,且能为进一步的研究提供启发与思考,但这类研究缺乏专业性、科学性与系统性。由此,对来自不同研究单位的研究力量的全面调动可以融合多种研究优势,实现不同单位研究力量之间的互补,以便研究成果能更高效地应用于
实践。
3.展望
心理健康问题的低龄化趋势已经受到社会的普遍关注,有关小学生心理健康的研究总体上正在不断地深入和拓展。针对目前研究呈现的不足,未来的研究需要考虑以下几方面:(1)加强研究的问题解决指向性,增加对策研究,将理论积极运用于实践;(2)实证研究有待强化,研究方法需不断改进,尤其是测量工具的改进;(3)研究要迈向全面化合作,突破孤立局限,尝试跨单位、跨地域、跨文化研究;(4)研究可多围绕具体、典型的心理健康问题展开,增加个案研究并综合群体研究以增强研究的临床应用性。
参考文献:
[1] 姚本先.学校心理健康教育概论[M].北京:高等教育出版社,2010:3-9.
[2] 肖旻婵.中小学心理健康教育研究[D].上海:华东师范大学,2005:1-2.
[3] 沃建中,马红中,刘军.走向心理健康(发展篇)[M].北京:华文出版社,2002:9-10.
[4] 郑日昌,张颖,刘视湘.小学生心理健康的结构和量表编制[J].教育测量与评价(理论版),2008,(2):30-34.
[5] 廖全明,苏丹,黄希庭.目前国内常用心理健康量表的回顾与反思[J].心理学探新,2007,27(4):74-77.
[6] 杨宏飞.我国中小学心理健康研究的回顾[J].中国心理卫生杂志,2001,15(4):289-290.