首页 如何改进考试的分数报告

如何改进考试的分数报告

如何改进考试的分数报告作者简介 � 韩宁, 美国麻省大学教育学博士, 教育部考试中心数据处理与研发中心研究员。北京, 100084。考试研究 2009 年 10 月第 5 卷第 4 期 Exam ination sR esea rch O c.t 2 0 0 9 V o .l 5, N o. 4如何改进考试的分数报告韩 � 宁 �摘 � 要 � 分数报告是实现教育考试功能的重要环节,考试机构应该树立把考生作为消费者的观念,提供尽可能准确、充分、易于理解的分数信息服务。本文指出了考试分数报告中的常见问题,介绍了...

作者简介 � 韩宁, 美国麻省大学教育学博士, 教育部考试中心数据处理与研发中心研究员。北京, 100084。考试研究 2009 年 10 月第 5 卷第 4 期 Exam ination sR esea rch O c.t 2 0 0 9 V o .l 5, N o. 4如何改进考试的分数报告韩 � 宁 �摘 � 要 � 分数报告是实现教育考试功能的重要环节,考试机构应该树立把考生作为消费者的观念,提供尽可能准确、充分、易于理解的分数信息服务。本文指出了考试分数报告中的常见问题 ,介绍了 AERA /APA /NCME行业标准对考试分数报告的要求, 并讨论分数报告设计的基本原则,同时还对几个技术细节问题进行详细探讨, 在题目映射、垂直量表、诊断性分数报告等几个环节介绍了具体可行的做法。 �关键词 � 分数报告 � 题目映射 � 垂直量表 � 诊断性分数报告 �中图分类号 � G424. 74� �文献标识码 � A �文章编号 � 1673- 1654( 2009) 04- 0068- 011 传统上,考试与测验最重要的功能是排序,将考生贴上三六九等的标签。近些年来,考试的另一功能即 !诊断功能∀越来越为教育工作者所重视。所谓诊断, 指除提供总分之外, 还要根据考生在考试中的反应推断出他 /她更加具体的长处和不足,为其今后的改进和学习指出方向。在心理测量中, 诊断是一个比较常见的名词,心理学家们要花费大量的时间和精力仔细研究以数据形式出现的测量结果究竟在心理科学范畴内反映什么问题。在教育测量中, 这一问题以往却长期被忽视。通常考试组织者们把绝大部分的投资都花费在命题和考试组织环节,考试的结果却基本上就是一个总分 # # # 录取或没被录取、及格或没有及格 # # # 然后考试的整个过程就结束了。这种现象在近几年来得到改观, 几乎一夜之间,很多考试开始提供 !成绩 68 如何改进考试的分数报告报告单 ∀。相比以前,这是一个巨大的改进, 体现了教育部考试中心戴家干主任所呼吁的 !从考试到评价 ∀和 !服务 ∀的思想。一些技术和服务意识领先的考试机构已经走得更远,如教育部考试中心面向社会的一些考试, 如计算机等级考试 NCRE、公共英语等级考试 PETS,除考试的总分和是否及格外,已经开始提供考生在几个主要的考查目标上的具体表现、考生的长处与缺陷、考生相对于其他人的具体位置、每个题目的难易等等, 其目的正是根据考生在考试上具体的答题情况为考生的进一步学习和提高提供诊断性的反馈信息。这种分数报告,已经开始真正地在 !改造我们的考试 ∀, 使考试的功能不仅仅是给考生贴上三六九等的标签,而是对促进考生的发展起到更进一步的作用。然而,利用考试信息、发挥考试的诊断功能在技术上是一个颇具挑战性的任务,绝不像报告考生的小分那么简单,如果对其中的技术环节没有妥善的解决方案,甚至会对考生产生误导。本文对考试的分数报告所涉及的具体技术问题进行一些基本探讨, 介绍国外关于分数报告的研究状况, 提出在改进分数报告时应该注意和研究的问题,供实际工作者在改进大规模社会化考试的分数报告时参考。一、考试分数报告的现状我们首先看一下美国的行业标准对分数报告的要求。AERA、APA和 NCME考试标准 ( AERA, APA, & NCME, 1999)有两处提到了分数报告。该标准第 5. 10款说: !当发布考试信息时,考试机构应该负责提供关于考试分数的正确解释。∀考试机构提供的信息应该包括考试的内容范围、分数的通俗含义、分数的精确性、常见误解、合理的用途等等。第 13. 14款说: !分数报告应该伴随着对每个分数点或分数等级的测量误差范围的清楚的描述, 同时还要提供关于如何解释分数的信息。∀ 但令人吃惊的是,与等值、IRT、计算机化考试等研究分支相比, 国外考试理论界对分数报告的研究也不多。著名测量学家 Ronald Hambleton说: !如果忽视了考试的分数报告, 那先前的所有努力就都是白费。∀ ( Hambleton, 2008) 改进考试的分数报告需要解决的主要问题是, 相对于它的主要受众来 69 ∃考试研究 %第 5卷第 4期说,它所涉及的技术环节和技术名词太复杂,以至于考试主办者和大众之间难以实现有效的信息沟通。以我们在中国能够见到的一些国外的考试 ( TOEFL、GRE )和国内的考试 ( PETS)为例, 很多涉及等值、百分位、百分等级、正态分布等概念。对专业技术人员来说, 这不是什么大的问题, 但是, 考试分数的直接使用者中的大多数人不具备足够的数学、统计知识。前几年高考的标准分改革夭折就与此有直接关系, 当时的标准分转换的宣传以正态分布为基础,可是, 以 13亿人口之多,有多少人懂得正态分布呢? 分数报告的另外一个常见问题是考试机构很少去主动说明应该如何正确使用考试分数以及如何避免误用,英语四、六级考试曾因分数被普遍地误用被斥为 !假秤 ∀, 以至测量学家谢小庆不得不借助于 ∃中国青年报%澄清 !秤是真的但用错了 ∀ (谢小庆, 2005)。在考试分数报告中常见的问题还包括分数信息太少或太多,须知过与不及都是不合理的;没有提供对分数的误差的估计和说明,尤其在国内,以笔者浅陋, 还没有看见过在分数报告中提供误差估计的考试,一分之差定终身其实在很多情况下是随机误差定终身;没有提供诊断信息或提供诊断信息的技术手段不可靠, 诊断性分数报告正在成为考试的技术热点, 但是目前绝大多数考试的技术处理手段都值得探讨和改进。二、分数报告单的实例为避免矛盾和争议,本文中涉及的例子将隐去考试的具体名字。下图是两个数学考试的实际使用的分数报告单的截图。图 1的第一列为考试的内容范围,第二列为考生在每一部分题目总数中答对的题目数, 第三列为考生在各部分答对比例的图示。图 2的上半部分的第一列是考试的内容范围,第二列是考生答对比例,第三列是及格考生的答对比例, 后三列分别是该考生和及格考生的优劣对比 (弱、相当、强 ), 下半部分是根据不同题目类型将考生和及格考生作的对比。仔细列举这两个图片,是因为它们反映了大多数考试的技术处理水平。然而, 根据 AERA /APA /NCME标准, 这两个分数报告单的设计都是不符合技术标准的。它们都没有提供考试的分数误差估计, 也没有提供对分数的具体解释, 虽然试图提供诊断信息但无法确保考试中出现的题目能够代表每个内 70 如何改进考试的分数报告图 1� 分数报告单例一图 2� 分数报告单例二容范围。因此,如果以此推断考生的长处和缺陷, 将对考生的学习起误导作用。这两个例子都来自国外,我们国内的很多考试则甚至连这种水平都很少能达到。三、分数报告的总体设计 HowardW a iner等 (W a iner, H amb leton, & M eara, 1999)曾提出考试分数报告设计的四条原则: ( 1)我的分数是多少? ( 2 )我和别人比起来怎么样? 71 ∃考试研究 %第 5卷第 4期 ( 3)我的分数的稳定性。 ( 4)我的分数的具体含义。这四项原则是 AERA / APA /NCME标准的具体化, 应该成为设计分数报告的出发点。分数报告的设计者首先要做到的是心里要有明确的对象, 要想明白哪些人是考试分数最主要的使用者和考试分数主要是在哪种情况下使用。然后, 根据考试的功能和分数的使用对象,将考试的分数报告分为两部分内容: 一部分为主要内容, 一部分为支持内容。这样做的目的是强调考试最重要的功能和最主要的发现,把枝节因素和主要因素分开,同时又能最大程度地发挥考试分数的功能。如 TOEFL分数的最主要功能是在北美申请大学和研究生院, 使用者是大学的招生官员, TOEFL分数首先要传递两个重要的信息: 一个是考生在整个申请群体中的位置信息,一个是他们绝对的英语水平。实践中,第一个目的是其主办机构通过建立分数常模来实现的, 而第二个目的则通过考试分数的年度间等值来实现,这是分数报告的主要内容。但是,对于没有被录取的考生, 他们可能需要继续学习来达到要求,诊断信息对他们来说是有益的, 因此可以作为支持内容。分数的报告最好采用不止一种方法,对数字最好通过简单的图示来表示,要使用文字做说明。在对分数的解释部分, 要包含有考试的目的、对分数的描述、分数应该如何被使用、分数应该避免被如何使用、分数所包含误差,至少要用一个例子来说明应如何理解和使用误差。分数报告应该包含对考试内容的具体的描述,最好能提供反映特定考生水平的例题。分数报告的方案确定后,要针对不同的考生样本进行试验, 听取不同的意见, 及时加以改进。要尽量尝试不同的方案,根据试验结果对不同方案进行比较, 同时尽量避免使用专业化的词汇, 如百分位、量表、等值, 如果确实需要应该使用通俗的说明或加以定义。四、分数报告的技术细节本文的剩下部分将介绍分数报告中几个比较复杂的技术细节问题。 1. 题目映射 ( Item mapp ing) 题目映射可以使考试分数的意义更加明确和具体。利用题目映射,懂得教育测量理论的教师或其他专业人员可以更密切地把考生的水平和题目的难易联系起来,从大体上估计出某个特定水平的考生答对某个特定难度的题 72 如何改进考试的分数报告目的概率,从而更加有效地组织教学。题目映射最初在拉什模型 ( R asch model)的研究中提出。拉什模型把题目的难度和考生的水平放在一个共同量表上, 把他们视做一个问题的两个方面。因此拉什模型的使用者通常用一根垂直的竖线表示考试的 �量表,即考生的能力或题目的难度 (在拉什模型中,考生的能力和题目的难度是同一个问题的两个方面 ) ,把所有的题目和考生得分分别按他们的难度或能力得分值分别绘制在竖线两边。Rasch模型的商业化软件W instep和 Conquest目前都具备此功能。通过这个图形, 我们可以发现不同题目间的难易关系、考试的整体难度和考生群体的水平是否合适、任何一个给定水平的考生正确做答每一个题目的概率等多种信息。图 3� 题目映射表 (单参数模型 ) 73 ∃考试研究 %第 5卷第 4期如果采用单参数之外的模型,则一般不绘出考生图形而只绘出每个题目的题目特征曲线 ( ICC ), 图 4是一个示意,其中的阿拉伯数字是每个题目的编号,横轴是能力, 纵轴是答对概率。根据这张图,我们可以很容易地查出任何一个给定能力的考生对任何一个题目的答对概率。如果希望和 Rasch模型对应, 则也可以将考生总体的能力分布描绘在图形的 X轴下方。图 4� 题目映射表 (三参数模型 ) 2. 垂直量表 ( Vertica l Sca ling) 一些成系列的等级考试, 如大规模的英语考试, 有些会将几个不同等级的考试所测量的同一心理特质按从低到高的水平用一个统一的量表来表示, 使每个特定考试级别上的考试分数都是这个统一量表中的一个点。例如, 某英语考试共有四个级别,规定级别一的分数范围为 0~ 200, 级别二的分数范围为 201~ 400,如此持续下去使考试的总的分数范围为 0~ 800分。这样就产生一个问题, 202比 190高吗? 排除测量标准误差的因素,从逻辑上看, 答案也是非常可疑的。因为参加级别一考试的考生往往不能同时参加级别二, 74 如何改进考试的分数报告而他 /她的得分受级别一的分数范围的限制无法突破 200。对此,一种技术处理手段是进行所谓 Vertica l Sca ling。其实从技术环节来看, Vertica l Sca ling和 Equating(等值 )目前只是名词上的不同而在技术处理细节上和算法上并无二致。然而,值得指出的是, 当对两个考试进行 V ertical Sca ling时, 它们基本上是不符合等值所要求的假设和条件的,因为这种等值计算的误差不能不引起注意。目前已有很多研究证明, Vertica l Scaling的结果一般只对整个分数区间的中间一段才有参考价值而在两端的误差非常大。同时, 不同级别的考试所测量的心理特质是否能够保持一致也是一件非常可疑的事情。因此,采用统一量表需要非常谨慎,如果不是十分需要,就不要热衷于构建横跨多个年龄段或能力层次的统一量表,至少需要以大量的研究为基础。 3. 诊断性分数报告 ( D iagnostic sco re report) 与诊断性分数报告有关的研究领域可以细分成两个方向:一是所谓认知诊断理论, 如 F isher提出的 L inear log istic mode l、Tatsuoka提出的 Ru le space mode l、S tout提出的 Fusion mode l等等,这些模型目前还没有在大规模考试中进入实用阶段 ( ETS曾在 TOEFL中尝试但结果很失败 ) , 因为他们大都寄希望于将基于考生的反应估计出来的某种心理特征再进一步分解成更次一级的特质,如策略、技能等等,这种分解除非对于某些非常简单的心理特质几乎都是假设多而证据少,因此可以先不作为实际工作者的目标而留待理论工作者的技术突破。另一个方向就是假设考试的考查目标可以细分为若干个子目标, 同时又假设每个试题只贡献于一个子目标, 而着眼于报告考生在每个子目标上的得分。这一方向在美国 NCLB教育改革之后各州建立的水平考试之中已经有不少成功的经验。前面曾经提到如果提供诊断性分数报告的技术手段不可靠则这种信息反而会起误导作用,这主要出自两个原因:第一个原因是流行的考试和测量理论大都假设考试是单维的, 在这种假设下却声称可以报告次一级的得分, 显得有点自相矛盾。对这个问题的解释只能是努力去自圆其说。如 IRT中的 !单维性∀是一种统计上的单维性, 从数学上看, 一般只要第一主成分和第二主成分之比大于四比一,且第一特征值占总特征值的 25%以上就认为是单 75 ∃考试研究 %第 5卷第 4期维的。因此在一个考试中某些题目和另一些题目具体的考查方向不尽一致是允许和确实存在的。W ainer, Vevea, C am acho, Reeve, Rosa, Ne lson, Swyger,t and Th issen( 2000)说 !世界是复杂的, 资源是有限的, 因而用于排序的考试有时不得不用于诊断∀。第二个原因是理想情况下对考生进行诊断要求在每一个子目标上的题目的量要足够大。我们都知道, 只有题目的量足够大,一个考试才能具备足够高的信度,题目量越大, 信度越高。一般来说, 就整个考试而言,目前国内的大规模社会化考试的信度是能够达到要求的。但是,如果我们还要在若干个次级考查方向上分别报告考生的分数, 那每一个考查方向上题目的量就肯定不够了, 简单地依据这些题目上的表现作出的诊断报告就是不可靠的。这时,我们不得不借助于更加复杂的统计模型。以下是几个在美国大规模教育考试中应用比较多的模型, 这些模型的共同特点或基本逻辑是它们都借助于考试的整体信息来改进其局部信息的精确性。 Bock, Thissen, & Zimow sk i ( 1997)建议使用 IRT得分来报告子目标分数。他们对考试整体信息的应用体现在当进行 IRT参数校准时,其他部分的题目对给定子目标的参数估计也作出了贡献。如题目 1到 6考查子目标一, 而题目 7到 14考查子目标二, 在基于考生在题目 1到 6的表现估计考生的能力参数时其实题目 7到 14也是参与计算的。他们在模拟研究中比较了以简单地计算考生在题目 1到 6上的得分总和作为考生在子目标一上的得分和用对应的 IRT得分来作为考生在子目标一上的得分,结论是 IRT得分更为准确。 W ainer et a.l ( 2000) 使用了贝叶斯方法来估计子目标得分。即使是简单地介绍其方法也需要大量篇幅,对此有兴趣的可以直接阅读原著。 Y en ( 1987) 和 Y en, Sykes, Ito, & Ju lian ( 1997) 将 IRT方法和贝叶斯方法结合了起来。前文只适用于 0- 1记分考试而后文则适用于同时含有 0- 1记分和多级记分的所谓混合题目考试。他们将 IRT分数作为先验分布, 假设这个先验分布服从贝塔分布, 又假设子目标分数服从两项分布, 则后验分布也是一个贝塔分布,这个后验分布的均值和标准差就可以作为子目标分数和其标准误的估计值。 76 如何改进考试的分数报告还有一些模型,使用多维 IRT、MCMC等复杂的理论模型或算法,不适合在大规模教育考试中使用。 Shin ( 2007)曾对以上模型进行了对比研究, 结果发现W ainer方法所获得的子目标得分的信度最高而 Y en方法所获得的 95%置信区间最窄。影响子目标得分的计算精度的因素包括每个子目标的题目数、各个子目标之间的相关、主观题和选择题的个数的比 (原文如此, 笔者怀疑应为选择题和主观题的个数的比 ) ,当这些因素的数量增加时, 子目标得分的信度增加。只有每个子目标的题目数影响该子目标得分的 95%置信区间的宽度。近些年来,从传统考试到现代的评价成为国内考试机构和教育工作者的呼声和努力方向,分数报告从以往的只关注录取或通过与否到提供更多关于考生的特长,不足和今后发展方向是这种努力中重要的一环。改进考试的分数报告,一方面需要考试机构更新观念,保证考生作为消费者的合法权益; 另一方面,需要研究考试和教育、社会乃至人的发展的关系, 寻求更多有力的技术手段,这一经历无论从理论还是实际应用上都仅仅是开始,期待理论和实际工作者的进一步努力。参考文献 [ 1]Am erican Educat ionalR esearch Association, Am erican PsychologicalAssociation, & N at ion alCoun cil on M easu rem ent in Educat ion. ( 1999 ) . S tanda rds for edu ca tiona l and psych olog ica l testing. W ash ington, DC: Au thor. [ 2]H am b leton, R. K. ( 2008, Ap ril) . A n ew ch allenge: m ak ing score reports m ore unders tandable and u sefu.l Paper p resen ted at the annualm eeting of the Nat ionalC ouncil ofM easurem en t in Educat ion. New Y ork, NY. [ 3] Sh in, D. ( 2007 ) . A com parison of m ethod of estim ating sub scale scores for m ixed - form at tests. Unpub lished docum ent. Pearson. [ 4]W ain er, H. , H am bleton, R. K. , and M eara K. ( 1999 ) . A lternat ive D isp lays for Commun icating NAEP Resu lts: A Red es ign and Valid ity S tudy. Journa l of Edu ca tionalM easurem en t, Vo.l 36, N o. 4 (W in ter, 1999 ), pp. 301- 335. [ 5 ]Wa iner, H. , Vevea, J. L. , C am acho, F. , Reeve III, B. B. , Rosa, K. , N elson, L. , Sw ygert, K. A. , & Th issen, D. ( 2000 ) . Augm ented scores - ! borrow ing strength∀ to compu te scores b ased on sm all num bers of item s. In D. Th issen, & H. W ainer ( Ed. ) , Test scoring. ( pp. 343 - 387 ) . 77 ∃考试研究 %第 5卷第 4期 H illsdale, NJ: E arlb aum A ssociates. [ 6]Y en, W. M. ( 1987 ) . A Bayesian / IRT ind ex of objective p erformance. Paper p resen ted at the annua l m eet ing of the Psychom etr ic Society, M ontrea,l Queb ec, C anada, June 1- 19. [ 7] Yen, W. M. , Sykes, R. C. , Ito, K. , & Ju lian, M. ( 1997 ). A B ayesian / IRT index of objec tiv e p erformance for tests w ith m ix ed - item type s. Paper presented at the annual m eet ing of the Nat iona l Coun cil onM easurem en t in E ducation in Ch icago. [ 8]戴家干,从考试到评价 # # # 教育改革的时代任务 [ J],中国高等教育. 2007 ( 13 /14 ) . [ 9]谢小庆,四六级考试的 !菜刀现象 ∀ [N ],中国青年报, 2005. 3. 18. How to Improve Score Report of Exam inations H an N ing N ational Education Exam inations Authority, B eijing, 100084 Abstract: Score report is one of themost impo rtant issues to ach ieve the functions of educationa l tests and exam inat ions. It is a du ty o f the exam ina tion board to prov ide accurate, su fficien,t and understandable score in formation if the exam inees are greatly considered to be consum ers. This paper po ints out some w ide ly ex isted problems regarding score report and introduces the re lated t itles in AERA /APA /NCME standard. Some principles on score report design ing and detail techn ica l issues including item mapp ing, vert ical scaling, and d iagnostic score report are d iscussed and operational suggestions are g iven. Key words: score report � item mapp ing � vertica l scaling � diagnostic score repor.t 78

                    本文档为【如何改进考试的分数报告】，请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑，
                    图片更改请在作品中右键图片并更换，文字修改请直接点击文字进行修改，也可以新增和删除文档中的内容。 
 该文档来自用户分享，如有侵权行为请发邮件ishare@vip.sina.com联系网站客服，我们会及时删除。

                    [版权声明] 本站所有资料为用户分享产生，若发现您的权利被侵害，请联系客服邮件isharekefu@iask.cn，我们尽快处理。

                    本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权，请谨慎使用。

                    网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传，仅限个人学习分享使用，禁止用于任何广告和商用目的。
                

下载需要：免费已有0 人下载

立即下载

如何改进考试的分数报告

你可能还喜欢