基础教育质量有了科学的评价标尺
基础教育质量有了科学的评价标尺
——基础教育质量监测答记者问
今年6月,一项全新的工作将在全省正式推行,那就是:基础教育质量监测。首批样本校包括长沙市、株洲市、岳阳市、常德市、郴州市、永州市、娄底市、湘西自治州等8个市州的288所学校,明年将在全省14个市州全部推开。
什么叫基础教育质量监测?为什么要开展这项工作?具体如何操作?之前难道我们就不清楚自己的质量底细?监测的结果如何运用……带着这一系列的问题,记者采访了具体承担此项工作的湖南省基础教育质量监测中心(以下简称“中心”)。
一、“为什么?”
记者:为什么要开展基础教育质量监测?
中心:从全国来说,2012年教师节前夕,时任总理温家宝正式宣布:中国完成了“两基”攻坚这一历史性任务!“两基”目标基本实现,基础教育进入了内涵发展阶段,开始由注重规模转向注重公平和质量。因此,《国家中长期教育改革和发展规划纲要》和我省《加强教育强省建设规划纲要》都提出,要把促进公平作为基本教育政策,缩小城乡差距、区域差距和校际差距;把提高质量作为教育改革发展的核心任务,并建立以提高质量为导向的管理制度和工作机制。
但是对教育质量,特别是基础教育质量,目前全国普遍面临着一个重要障碍,就是不清楚其整体状况。比如,我们不清楚教育对象发展的具体状况,不清楚儿童青少年各方面素质在区域、城乡、性别方面的具体差异,也不清楚教育投入、课程、教师、学校管理、家庭等各种因素对教育质量的影响程度。同时,讲提高质量,提高的程度有多大,是总体提高了还是部分提高了,这些都不清楚。在这些情况都不清楚的背景下,教育管理部门、学校、教师、家长等相关各方对基础教育质量都有不同的判断和理解。
因此,我们迫切需要建立基础教育质量监测体系,摸清基础教育质量现状,了解基础教育质量的强项和弱项,为改进教学和科学决策提供支撑。
还有一个很重要的原因是,十八届三中全会的《决定》提出要深化教育领域的综合改革,其中一个重要内容就是推进管办评分离。也就是说,不能自己评自己,既当运动员又当裁判员,要把“评”作为管理中一个相对独立的环节。这就要有标准,要强化教育督导,建立完善的督政、督学、监测三位一体的教育督导体系。所以,总体来看,开展教育质量监测,是深化教育改革的需要,是建立质量保障制度的需要,最终目的是促进每一个学生获得全面发展。
记者:这项工作有没有可以借鉴的经验?兄弟省市是怎么做的?
中心:实施基础教育质量监测并不是我们的创举。最近十多年,基础教育质量监测在国外受到了高度重视,成为世界许多国家和地区提高教育质量的重要举措。发达国家和地区如美国、日本、欧盟国家、加拿大等,较发达国家和地区如韩国、新加坡、新西兰、芬兰、我国香港和台湾地区等,都已构建了完备的质量监测工作体系。一些国际性组织开展的基础教育质量比较项目也引起了人们高度的关注。最具代表性的项目有经合组织发起的“国际学生评价项目(PISA)”、国际教育成就评价协会组织的“数学与科学学习国际比较(TIMSS)”、世界银行资助的“国际教育质量监测项目(SABER)”。在国内,2007年,教育部就设立基础教育质量监测中心,从国家层面持续开展不同学科,以及相关因素监测。在省一级,重庆、上海、北京、福建、浙江、甘肃、江西等省市也成立了相关机构,在省级层面进行质量监测。
基础教育质量监测的特点是程序规范、涉及学科多、专业性强。为确保监测结果的科学性、准确性,我们在理念、流程、工具开发、测量技术等方面,基本上是采用一些国际组织在这方面的做法。
二、 “怎么做?”
记者:我省从什么时候开始?怎么做?
中心:早在2011年,湖南就开始筹备这项工作,2011年省教育厅就批准成立相应机构。经过一段时间的筹备, 2013年4月12日,湖南省基础教育质量监测中心在省教科院挂牌成立,省教育厅厅长、党组书记,省委教育工委书记王柯敏,亲任监测中心领导小组组长,并到会讲话。
一年来,中心在全省高校、研究机构和省内中小学校遴选了近200人的高水平专家、管理人员、一线教师,多次邀请北京、香港和省内专家举办教育测量和抽样技术培训,研发了一套38个卷别的义务教育四年级、八年级学生数学学习质量监测工具,在岳阳、湘潭、邵阳三地开展了两轮监测工具预试,开发了基于信息化的测试工具导入与组卷系统、现场测试系统、样本学校信息报送系统、编码评分系统、数据处理系统。6月份,即可在八个市(州)开展义务教育阶段四年级、八年级学生数学学习质量监测,样本学校288所,样本学生11500余人,参与的校长教师约4500人。
同时语文学科学生学习质量监测工具完成了监测框架的设计,开发了部分测试题。以后,还将有计划开发基础教育不同学段、不同学科的质量监测工具,逐步建立一套完整的基础教育质量监测体系。
记者:基础教育质量监测是不是测试学生的学业成绩,为什么老师也要参加?
中心:学生的学业成绩只是一个方面。教育质量包括了很多指标,评价质量不能只看考试分数。我们将要开始的监测,内容包括了学生的思想品德和公民素养,学生的身体和情绪、意志品质、个人行为习惯、与他人交流合作等心理健康水平,学生的学业水平和学习兴趣、学习习惯、学习方法等素养,学生参与艺术活动的兴趣、审美情趣、艺术欣赏与表现能力等方面的艺术素养,学生的实践能力和创新意识。同时还要监测评价影响学生发展的教育环境与社会环境,包括学生的家庭环境,教师、学校、课程、条件等学校环境,社区及相关政府部门的支持环境等。正因为监测内容不同于传统的考试,要了解影响学生学业的各种因素,所以,需要学校校长、各科教师共同参与,填答相关的问卷。
问题:质量监测是否就是看学生成绩?以市州为单位的统考等考试能不能做依据?
中心:前面已经谈到,教育质量包括了很多指标,评价质量绝对不能只看考试分数。统考只能反映学生的学科成绩如何,单方面以成绩作为评价标准是不科学的。
另一方面,如果只看统考成绩,市州之间因为试卷不同,试卷之间缺少彼此联系的桥梁,统考结果是不能反映全省基础教育质量总体水平的。同时,在市州内部,用不同学科总分相加来衡量学生的学业成绩也是不科学、不公正的。举个例子。假设一次语文、数学统考,满分都是150分,语文平均分是90分,数学平均分是70分。假设考生甲的语文是第一名,得到130分,数学只得平均分70分;考生乙是数学第一名,也得到130分,语文也得平均分90分。如果两科同等看待,那么甲和乙的综合能力相当。但两科原始分直接相加,甲总分200分,乙总分220分,相差很大。这个例子就说明,如果使用原始分,能力相当的两个考生,总分可能很不相同。反过来说,总分相同的考生,能力可能很不一样。所以说,使用原始分相加,就类似于身高加体重,使得看似公平的统考分数存在实质上的不公平。
质量监测在学生学业测试方面,采用等值技术,在不同年份、不同学科的测试中建立了分数的转换关系,打造了同一把量尺,这样就解决了几个问题:不同学科的分数可以相加,不同年份的学科成绩可比较,不同人的能力都客观公正地排在一把量尺上。
记者:据说组织了大量的专家出题目?题目这么难出?科学性在哪里?
中心:是的。这与基础教育质量监测的内容、方式和要求有关。内容方面涉及学生的综合素质和相关影响因素,监测方式是抽能代表总体的样本学生考查全部教学目标达成情况(中考、高考等是全体学生考查少量教学目标达成情况),并且每个测试题要符合测量学要求。所以监测工具不是一套试题,而是多卷别的,参与的人员除了课程与学科专家外,还需要发展与教育心理学、教育与心理测量学、教育评价、教育经济、教育社会、教育管理等其他学科专家,每个试题都要进行预试,做质量分析。去年,仅数学学科,我们在对遴选的教研员、一线教师培训后,共征集原题1400余个,实际上可用或可以改编的不足80题,在此基础上我们组织了核心专家团队,召开各类研讨、论证会议29次,共改编、原创300余题。问卷也是这样。
测试题很难命制,是因为题目要体现监测理念。基础教育质量监测,测试题不是测量学生学了什么,而是测量学生用学过的知识、技能解决问题的素养与能力。监测要关注生活情境,试题源于个人、学校、公众和科学生活,不是死记硬背的知识;要突出能力立意、素质立意,注重开放性、创新性的思维品质,能区分不同学生在记忆、理解、应用、分析、评价、创新方面的能力;要能够引导教学,诊断教学问题。
同时,每一个题目都要符合教育测量学的要求。可靠的测量结果来源于高质量的试卷,高质量的试卷来源于“好”题,怎么样衡量是否“好”题,则需要试测。好题有一些指标,比如大家熟悉的信度、效度、难度等,我们还采用项目反应理论对数据进行处理,考察题目的项目拟合度、项目测验的信息函数等,不符合这些测量学指标的题目必须剔除。其他考试都是一次命题,题目没有进行预试,没有进行标准化的处理,这就会导致一些试题质量不高,无法准确区分学生能力。这也是平时我们经常听到的某某学校、某某学生这次没有考好的客观原因。
三、“如何用?”
记者:此前在一个材料上看到,说是我们的监测能促进和提高学生的创新能力?为什么?
中心:培养学生的实践能力、创新精神和社会责任感,是教育的根本目的。不能说质量监测能促进和提高学生的创新能力,但可以在促进和提高上发挥较好的导向作用。质量监测一方面在命题时非常注重体现监测理念,另一方面,我们使用了编码评分。比如,学生学科知识与能力测试中,我们有一些开放性试题,这类试题可能反映的是学生的评价能力、分析能力,也可能是创新能力,题目的答案可能多种多样。对这类问题,我们实行双码评分。假设有一组学生达到了满分要求,但在满分组中还有部分学生的答案设计最简洁,或者思路最清晰,或者回答问题最有创意,那么第一个码(满分码)后就会附加一个码,这个附加码在分析时就用来说明学生在评价、分析或者创新方面的特长。举个例子,假设测试时甲乙两个学生第一码都得到总分35分,但甲在一个创新能力测试题的第二码为3,乙的二码是1,那么甲的创新能力要高于乙。如果整个样本的创新得分总体很低,就说明我们需要加大对学生创新意识、创新能力的培养。
问题:测试后的结果能说明什么?准备如何分析运用?成绩相对较低者,是否就认定教育质量较差?
中心:我们的测试结果总体是三个模块。一是中小学生学科学业表现的总体状况,优秀、良好、合格、不合格比例是多少。二是相关影响因素的总体状况,比如说课业负担、课业难度、体育与身心健康、不同性别和不同类型儿童(流动儿童、留守儿童、寄宿儿童)的状况等等。三是这两个方面的相关关系,比如,学业成绩优秀的学生群体与其家庭环境、学校管理、教师教学、师资水平、班级管理、校园文化等方面的关系。对这些方面深入分析后的结果可以使各级政府能够及时掌握基础教育的优势与不足,从而为政府和教育行政部门制定基础教育发展规划、进行科学决策提供依据。也可以向校长、教师、学生乃至家长提供有针对性的反馈信息,找到影响学生学习质量的因素,可以为学校管理、教学改进和学习改进提供专业支持。还可以有效地引导学校和社会形成正确的教育行为,进一步促进社会、学校、家庭为全面实施素质教育达成共识,形成合力。
基础教育质量监测结果可以用来反映当年的状况,但我们更关注的是一个区域进步的幅度。结果相对较低只能说明当年的情况,但也表明了后续的提升空间。同时,监测总体结果奉行不公开不排队的原则,只分类反馈给相关各方作为工作改进、政策调整的参考依据。
记者:以后的监测是否会换新的地区和学校?
中心:今年,基础教育质量监测在我省八个市州共288所学校实施,这些样本市州和样本学校是通过抽样产生的。质量监测是通过样本来反映总体状况,所以,每年的监测都要重新抽样,同一所学校第二年被抽中的可能性很小。随着监测工具的完善,明年14个市州都会进入监测范围,并以市州为单位直接对学校抽样。
记者:样本地区和学校要做好哪些相应的配合工作?
中心:基础教育质量监测包括了很多环节,数据采集工作是整个监测工作中极为重要的一环,既要保证监测数据真实客观,监测工具严格保密,又要严格遵守规范化程序。所以样本市、县教育行政部门和样本学校要按照相关的要求做好组织协调实施工作。这方面我们已经录制了相关宣传片,编制了《基础教育质量监测实施规程》。其中,对监测工作的意义、目的、内容、实施程序、组织工作、信息报送、相关人员职责等都提出了具体要求。据了解,目前相关市、县、校对这项工作都非常重视,正在做出安排部署。
2013年4月,湖南省基础教育质量监测中心在省教科院挂牌成立,省教育厅厅长、党组书记,省委教育工委书记王柯敏亲任监测工作领导小组组长。
专家对学生基础知识与能力测试卷开展编码评分
湖南省教育科学研究院聘请香港教育考评局总监罗冠中教授担任学术顾问,指导监测工作。
(记者 李伦娥)