二、 标准参照考试(criterion Reference Test):主要目的不是对考生进行排序,而是评估考生基于某标准而言知道的或能做的水平。该类考试是根据考生在某个标准确定的目标上的表现水平来评估考生。对于学业测验而言,这个标准通常是课程标准。[4]
三、 在我国,中考是标准参照测验和常模参照测验综合的测验;而高中学业水平考试高考,其成绩只是标准参照测验,一般不采用常模参照考试。其中,某些地区把高中的学业水平测试成绩也算入高考总分,其中,高中学业水平考试属于常模参照考试。 [5]
第三节 形成性评价、终结性评价、中间性评价
一、 形成性评价:大多数的课堂评价都是形成性评价。目的是监控教学,以便确定教学是否要继续进行、是否需要修改或者是否有必要停止。形成性评价的中心就是鉴定学生是否会做某件事,因此需要进行标准参照的解释。形成性评价的主要内容包括笔试和对档案袋作品的评价,以及教师的正式观察和提问。[6]
二、 总结性评价:是发生在教学之后,通常包括单元测试、期中和期末考试、活动项目或其他单元的作业。总结性评价通常涉及的领域为常模参照的、一般性的、或全面性的知识和技能领域。[6]
三、 中间性评价:即中间性测验,指的是介乎形成性评估和总结性评估之间的评估,它在实施规模的大小及实施周期的长短上都介乎上述二者乏间。中间性评估可以评估某个课程标准主题,例如一元二次方程,施测时长一般是由学校或学区规定好的,而不像形成性评估那样由教师自定的,并且中间性评估的结果可以进行有意义的加总,这也是和形成性评估的区别之一。中间性评估以为课堂教学、学校或学区的决策提供信息为目的。 [6]
第四节 信度和效度
一、 信度:在测量学中,信度指的是多次测量结果的一致性和可靠性,人们一般用内部一致性的高低作为判断某测验的信度高低的依据。信度系数越高则可以认为该测验的结果越稳定与可信。其中,系统误差对信度并没有很大的影响,因为系统误差一般不会导致不一致。但是随机误差是有可能导致测验结果的不一致性,从而降低信度的。[7]文献综述
二、 效度:是一种程度,是某测量工具或方法能够测出被测量物的准确程度。也可以说效度是只测量结果的有效性,测量结果与要考察的内容的贴合度越高,则说明效度越高。心理测量界将效度分为三种类型:内容效度、校标效度和结构效度。[8]
第二章 中国教育评价理论发展历程
第一节 传统评价理论发展历史
教育中的评价历史在我国可谓是历史悠久。《学记》中有相关记载:在公元前11世纪至公元前771年的西周时期,我国就早早的出现了以选拔人才为目的的“选考”和“考校”制度。隋、唐时期出现的、在此后逐步发展与成熟的科举制度将我国的考试评价制度推上了一个新的高度,并达到了一定的规模和层次。后来,与此类似的考试评价制度体系慢慢的流传到了西方。[9]
大约在1900年,在美国等若干个西方国家诞生了一场通过纸笔测验的方式来检测学生的记忆知识的能力以及其它学习能力的教育测验,即“Educational Testing”。那一次改革对标准化测验这一评价手段的广泛运用起到了直接促进作用。[10]