首页 大规模教育考试命题的基本理论和常用技术

大规模教育考试命题的基本理论和常用技术

举报
开通vip

大规模教育考试命题的基本理论和常用技术 大规模教育考试 命题的基本理论和常用技术 盐城市新课程中 考命题培训材料 一、大规模教育考试命题与学校教育的关系; 二、大规模教育考试开发的基本问题; 三、考试内容规范和试题规范的设计; 四、试题背景材料的选择; 五、考试的难度; 六、选择题的编撰; 七、主观题的编撰; 八、国家关于初中学业考试和中考命题改革的有关要求。 第一部分 大规模教育考试命题与学校教育的关系 一、教育考试的考试大纲与课程标准的关系 课程标准是考试机构制定考试大纲的基本依据,是教育考试命题的基本依据,但其不能替...

大规模教育考试命题的基本理论和常用技术
大规模教育考试 命题的基本理论和常用技术 盐城市新课程中 考命题培训材料 一、大规模教育考试命题与学校教育的关系; 二、大规模教育考试开发的基本问题; 三、考试内容 规范 编程规范下载gsp规范下载钢格栅规范下载警徽规范下载建设厅规范下载 和试题规范的设计; 四、试题背景材料的选择; 五、考试的难度; 六、选择题的编撰; 七、主观题的编撰; 八、国家关于初中学业考试和中考命题改革的有关要求。 第一部分 大规模教育考试命题与学校教育的关系 一、教育考试的考试大纲与课程标准的关系 课程标准是考试机构制定考试大纲的基本依据,是教育考试命题的基本依据,但其不能替代考试大纲的作用。考试大纲是教育考试命题的直接依据,也是考试与考生联系的唯一渠道。 国家课程标准是国家对学生在某一方面或领域应该具有的素质所提出的基本要求,是一个面向全体学生的标准。每门课程的课程标准均包括以下基本内容: (1)本门课程的性质、目标和内容框架; (2)指导性的教学原则和 评价 LEC评价法下载LEC评价法下载评价量规免费下载学院评价表文档下载学院评价表文档下载 建议; (3)不同阶段学生在知识与技能、过程与方法、情感态度与价值观方面应该达到的基本要求。 课程标准体系具有三个方面的基本特征: 在课程目标上,要求从知识与技能、过程与方法、情感态度与价值观等多方面设计具体的课程。 在课程内容上,注重密切联系学生的生活和社会经验以及社会、科技发展的现实,强调学生经验、学科知识和社会发展三个方面内容的整合。 在课程要求上,课程标准不仅仅结合 知识点 高中化学知识点免费下载体育概论知识点下载名人传知识点免费下载线性代数知识点汇总下载高中化学知识点免费下载 明确具体的结果性目标,每个学科还结合本学科的特点,明确提出了一系列过程性目标、体验性目标,以期学生在获得知识的同时,学会学习,形成正确的价值观。 新的课程标准体系对教育考试命题具有决定性影响。 首先,它在理论上确定了教育考试的测量目标,这是任何一个考试研究和开发都必须考虑的首要问题。测量目标的设定决定了教育考试命题必须为学校教育服务,反过来又受到学校教育的影响。 其次,它确定了教育考试的内容范围和选择试题背景材料的基本出发点,即试题背景材料应该与学生的生活和社会经验相联系,必须与社会、科技发展的现实相联系。 第三,试题的设计应该考虑学校教学方法的改进,应该考虑学生学习方法的改善。 考试大纲在教育考试命题中具有其不可替代的作用。 首先,课程标准规定的培养目标不一定都是可测的;即使是可测目标,因为受纸笔考试的形式所限,也不一定都是可测的。大规模教育考试只能测量其可测的培养目标。 教育考试只能测量知识与技能、过程与方法、情感态度与价值观的前两个方面的部分目标,而不是全部目标,比如物理、化学、生物学科的一些实验的过程与方法要求,纸笔考试就不可能测量。至于情感态度与价值观方面的目标几乎完全不能测量。我们不排除能够命制出一些好的考查考生情感态度与价值观的试题,但这种试题测量的结果只能作为判别考生在情感态度与价值观方面的认知能力的依据,不能真实地推断考生本人的情感态度与价值观。 其次,教育考试的质量标准要求教育考试的每一个测量目标,都必须有相应的行为目标或标准,教育考试根据这些行为特征来判断考生培养目标的达成度。从现已出版的课程标准看,并非所有科目的课程标准都规定了明确的培养目标的行为特征目标。可以说,没有这些行为特征目标,人们就有足够的理由怀疑考试结果是否有足够高的效度。因此,教育考试命题研究和开发人员在命题前,必须制定明确的培养目标的行为特征目标。告诉考生将以什么标准来判断考生培养目标的达成度。 第三,教育考试是抽样考试,抽样的内容受考试的时间、地点和形式等限制。因此,教育考试不可能考查课程标准规定的所有内容,教育考试所涉及的内容只可能少于课程标准规定的内容。学校、教师和考生对教育考试的内容是十分敏感的。因此,必须通过考试大纲告诉学校的教师、考生,甚至考生家长考试的内容领域和范围。 第四,教育考试有其自身的质量评价标准。为了达到这些质量标准,命题时必须考虑采用哪些题型,对不同题型的比例做出规定。因此,必须通过考试大纲告诉考生,考试将如何测量考生是否达到课程标准规定的目标。 此外,教育考试还必须对考试时间、分值、难度要求等做出规定,课程标准不可能包含这些内容,也需要通过考试大纲向考生传递这些信息。 二、教育考试与学校教材的关系 教育考试的开发、命题的基本依据只能是统一的课程标准,而不是具体的这种或那种教材。 课程标准中规定的基本素质要求是教材、教学和大规模教育考试的灵魂,也是整个基础教育课程的灵魂。教材编制、教学设计必须遵守课程标准确定的目标和内容标准。 教材的编制是对课程标准的一次再创造、再组织。不同版本的教材可以有不同的编写体例、切入视角、呈现方式、内容编排及图表选择。 三、教育考试的方法与学校教学活动的关系 学校教学活动的形式和学习训练的方式不需要与考试的测量方法完全相同。考试的直接目的和教学的直接目的不同,考试采取的形式与其达到目的的质量要求有关;教学训练方式也要考虑达到教学目的的主要质量要求。 大规模教育考试通常是纸笔考试,考试以试题为基本的测量单元,试题具有不同的形式,即题型,如多项选择题、匹配题、填空题、简释题、问答题、材料分析题等。考试中采用不同的题型,并且每种题型保持一定的数量比例,尤其是主、客观题的比例,以达到考试的效度和信度的平衡。 学校的教学活动是课程学习的基本“单位”,是课程学习的“细胞”。学校教育各个层次的知识和技能、过程和方法、情感态度和价值观目标,最终都主要通过教学活动的开展来实现。教学活动的形式应该与教学活动的目的相适应,同时应该符合学生发展的心理特点和学习的心理规律。 有效的教学必须以各类知识的获得条件和规律为依据。例如,陈述性知识、程序性知识和策略性知识的获得条件和规律各不相同:陈述性知识一般通过理解记忆获得;程序性知识需要在明确操作步骤的基础下进行变式练习来获得;策略性知识需要结合具体的学习内容,在明确其使用条件和操作步骤的基础上,通过有意识的练习来获得。 学生的学习除了听教师讲解外,还可以通过自主学习、合作学习和探究、研究性学习来展开。三种学习各有其不同的基本程序,也反映了三种不同的价值取向。自主学习强调的是培养学生主动、独立的学习能力,为学生自主发展和适应社会奠定基础。合作学习强调的是协作、分享精神,为学生能够在社会群体中的适应和发展做准备。研究性学习强调培养学生探究未知世界的能力,为学生能够创造出更多的新思想奠定基础。 学校教育的目的和课程标准的培养目标也决定了学校的学习训练方式应该多样化,有针对性。学习训练的方式除了通常的解题外,还应该有观察、实验、思辨、探究、调研、阅读、整理、倾听、交流、协作等。一般说来,学习训练的方式包括:书面训练,如解题、写论文等;操作训练,如实验、制作等;课题训练,如专题研究、项目设计等;论辩训练,如演讲、辩论等。学校教学应该根据不同的教学内容,不同年龄段的学生,选择不同的训练方式,让训练方式为教育和教学的目标和内容服务。 但是,在观察初、高中,尤其是毕业班的教学活动过程中,我们发现,教学活动和学习训练大体上是相同的:教师的满堂讲解,大量的与中考或高考相同题型问题的训练。更有甚者,在数学、物理、化学、政治和历史等科目的教学中,很多教师将训练的题目分成若干种问题类型,将每种类型题目的解题套路作为教学重点,即所谓的“分类型,记结语,套解题模式”。 四、教育考试的内容与学校教育内容的关系 从总体上看,学校教育的内容要比教育考试的内容宽泛得多,即使从单个学科的角度看,其教学内容也比学科考试内容广得多。由于受各种条件的限制,大规模考试不可能像学校教学那样采用灵活、多变的形式。学校决不能因为教育考试的内容比学校教育的内容少,就减少学校的教学内容。这样做,只会导致学校教学内容的狭窄化,学校教育功能的弱化,最终降低了学生的培养标准。 很多学校发现考试只考实验知识,不考实验操作,因此就“黑板上画实验”,“课堂上讲实验”,“课下背实验”,或者完全用实验录像来代替学生亲自实验。这样即使学生在考试中得了高分,但由于未受到实验操作、科学方法、科学精神的训练,他们的实验能力是低的,学校教育中强调的情感、态度和价值观教育就很难融于学科教育和教学之中。 第二部分 大规模教育考试开发的基本问题 大规模教育考试开发必须考虑的基本问题一般包括:考试的目的、考试的测量目标、考试的内容领域、考试的方法或题型、试卷结构、考试测量的局限性。 一、考试的目的 大规模教育考试的目的主要在于两个方面:一是对学生进行选拔,如高考、中考这样的考试;二是确定学生是否达到合格要求,如会考以及目前很多省市正在准备推行的学业水平考试。此外,大规模教育考试还有另一个重要的用途,那就是对某些教育项目的效果进行评估,如对某种课程标准以及配套的教材、教学方法等实施效果的评估等。 根据参考标准的不同,教育考试结果可以用两种不同的方法进行解释。如果以某一考生群体的表现为参照标准对考试分数进行解释,可以称为常模参照解释。相反,如果以某一特定的能力水平和能力领域对考试分数进行解释,可以称为标准参照或者领域参照解释。按照这两种方式进行解释的考试就分别称为常模参照考试和标准参照考试。我国的高考、中考等大规模教育考试一般都是属于常模参照考试,人们通常所说的学业水平考试、熟练水平考试属于标准参照考试。 常模参照的大规模教育考试测量目标必须与学校教育执行的课程标准的培养目标保持一致;其考试分数的误差也需要小于选拔区分的分数最小单位,如果高考、中考考试分数的1分就可能决定考生的归宿的话,那么考试的分数误差就应该小于1分;考试也应该具有比较高的有效性,即效度;也应该对学校的教育教学有良好的影响。 标准参照的大规模教育考试主要是检查学生学习是否达到了课程标准设定的基本要求,是否达到了合格标准。命题中必须充分考虑试卷的内容覆盖面,以及能力水平的差异,特别要注意合格与不合格水平的区分,在合格与不合格的临界线附近的考试分数的误差要尽可能小。 二、考试的测量目标 考试测量目标包含两个层面含义,一是理论层面的目标,称之为测量目标。过去,考试是以知识立意,人们理解的考试的测量目标就是考查考生掌握了学科的哪些知识和基本技能。现在考试是以能力立意,人们理解考试的测量目标是考查考生的能力。通俗地说,考试就是考察考生的知识与技能、方法和能力。 考试命题前,必须明确考试命题要根据考生在考试中的哪些行为来做出推测,这就是测量目标的第二个层面含义,即行为目标或行为标准。显然,行为目标必须是具体的,可以观察的,可以测量的。 教育考试的测量目标一般来源于课程标准,尤其是像高考、中考以及学业水平考这样的考试,测量目标只能来源于课程标准。为了获得考试的测量目标而对相关学科的课程标准进行研究,应该关注的内容包括: (1)分析课程标准的总目标中,哪些内容是在特定的考试环境中可测的,哪些内容是在该环境中不可测的。只有那些在特定的考试环境中可测的内容才能够作为考试的测量目标。 (2)分析课程标准中列出的分阶段目标中,哪些内容可以作为具体的行为目标,这些行为目标能否与确定的测量目标相联系。行为目标必须是具体的、系统的,必须有反映行为类型和水平的动词对行为进行尽可能详细的描述,这样可使考试机构内部和外部人员对行为目标的内涵有确切无疑的了解。 三、考试的内容领域及行为目标 考试的内容领域和行为目标是考生复习备考的依据,是命题教师命题的基础,也是考试效度进行检验的基本内容标准。描述大规模教育考试学科的内容领域是为了明确地定义考试的内容领域的范围、内容领域的结构,即内容领域不同方面知识的比例,以及相关的行为目标。教育考试的内容领域及其行为目标是由相关学科的课程标准确定的. 每个内容领域都有以下特征:第一,内容领域具有范围,或内容领域是由确定的内容组成的。只有位于内容领域范围内的试题才能够用来有效地测量考生在该内容领域方面的表现水平。第二,内容领域具有结构,即内容领域由分为不同类型的内容组成,不同类型的内容有一定的比例。第三,内容领域每一类型的内容都具有测量的行为目标。 例:高考地理内容领域描述 1.测量的地理内容领域:高中课程标准确定的知识与技能、方法与能力。 2.地理内容领域的内容类型: A.自然地理和地图 C.中国地理 (1)宇宙中的地球 (1)中国的疆域和行政区划 (2)大气 (2)中国的民族 (3)海洋 (3)中国的地形和气候 (4)陆地 (4)中国的河流和湖泊 (5)地图 (5)中国的区域差异 B.人文地理 (6)北方、南方、西北地区 (1)人类的生产活动 (7)青藏地区 与地理环境 (8)香港特别行政区、澳门 (2)人口与环境 特别行政区和台湾省 (3)人类的居住地—聚落 (9)中国的国土整治和开发 (4)人类活动的地域联系 D.世界地理 (5)文化景观 (1)世界地理概况 (6)旅游活动与环境 (2)世界地理分区续发展 (7)世界政治经济地理格局(3)世界主要国家的地理特征 (8)人类面临的环境问题与可持续发展 3.不同类型内容比例 A.自然地理和地图 30%~35% B.人文地理 30%~35% C.中国地理 15%~20% D.世界地理 15%~20% 四、考试的题型 确定题型对考试设计有着非常重要的意义。 首先,题型与考试的效度和信度有相当强的关系。题型不同,测量的行为目标可能有所不同,产生的效果可能不完全相同。题型不同,测量结果的可靠性也可能不相同,分数的误差也可能不相同,信度也就不相同。 第二,大规模教育考试的题型对学校的教学方式和教学训练方式有明显的影响,它既可能促进也可能阻碍学校的课程和教材改革;既可能促进也可能阻碍教师教学方式的改善以及学生学习方式的改善。 第三,从经济的角度看,大规模教育考试题型对评分的成本也有很大的影响。 从我国大规模教育考试实践看.常用的题型包括多项选择题、是非题、匹配题、填空题、简答题或简释题、材料分析题、问答题、作文题或小论文题。我国考试机构通常按照评分的方式,将上述题型分为客观题和主观题两类。一般用机器阅卷的题型称为客观题,将需要由人工阅卷的题型称为主观题。 题型选择应该遵循下列原则: (1)题型的选择要考虑试题测量的行为目标、涉及到的内容领域以及需要的条件,即题型应该与测量的行为目标要求一致。这反映了考试的效度为第一考虑的观点。 (2)题型的选择要保证考试结果达到预先设定的信度要求,即必须考虑不同题型试题的比例。这反映了考试结果的高信度是考试高效度前提的认识。 (3)题型的选择要有利于学校课堂教学方式和学生学习方式的改善,题型要反映高质量的教学活动和学习活动。 五、试卷的结构 试卷结构包括试卷的长度或题量、题型以及不同题型试题的比例、不同难度试题的比例等。 许多人都知道试卷的长度与考试的时间长短有关,但很少有人将试卷的长度与考试结果的误差大小或考试结果的信度联系起来。教育考试的设计者在设计和开发教育考试时,应该从控制考试结果误差,保证考试结果信度的角度来考虑试卷的长度。 在大规模教育考试设计中,必须根据考试信度要求或者误差控制要求设置试卷乃至试卷每一部分的最佳题量,保证考试结果的信度或将误差控制在限制的范围内,满足考试目的的需要。同时,在考虑改变试卷的题型结构时,要考虑由此造成的试卷或试卷某些部分长度的变化,以及由此产生的信度的变化。 不同题型试题以及不同难度试题对考试结果信度的影响是不同的。因此,从控制测量误差的角度看,不同题型试题和不同难度试题的多少,对考试结果的信度和误差会产生明显的影响。考试的设计者和开发者应该确定合适的不同题型试题和不同难度试题的比例。 六、考试测量的局限性 考试测量的局限性主要表现在两个方面,一是对测量目标定义方面的局限性,另一个是命题以及评分方面的局限性。 1.对测量目标定义的局限性 考生在教育考试中的表现受到很多因素影响,诸如考试的条件、试题的类型、考试的时间、考试时考生的精神状态和生理状态、考生的个性特征等。当然,在教育考试中,影响考生表现的最重要因素是考生的相关能力,如英语语言能力、数学能力等,因为这些是教育考试的测量目标,设计考试就是为了测量考生的这些能力。 为了有效地测量考试要测量的能力,必须对测量的能力进行定义。定义包括两个层面,一是理论层面,一是操作层面。对能力的行为特征目标的定义都存在至少两个方面的问题:一是行为特征目标的定义都具有一定的主观性,不一定能够完全反映考生的相关能力;二是定义的行为特征目标都可能会受到考试不要测量的其他能力或其他因素的影响。由于定义相关能力的行为特征目标的局限性,在考试设计和命题时,要尽可能排除或降低其他因素对考试要测量的能力的影响。 2.命题和评分的局限性 命题和评分方面的局限性主要起因于这样的事实:所有对人的能力的测量都是间接的、不完全的、不精确的、主观的和相对的。 间接性 考试是对考生心理特质——能力的间接测量,它与对人的生理特征的测量完全不同。即使测量是以考生在一次甚至几次考试中的表现为基础,但仍然将考试分数解释为稳定的心理特征——能力的标志。不完全性 教育考试依靠试题来引导考生表现出期望的行为,并且根据这些行为,推测考生具备某种能力的程度。教育考试只是根据考生的部分行为特征来对考生的能力做出推测。在考试中观察的考生的行为只是考生能力表现的一个样本。 不精确性 理论上分数等级越多,评分量表往往越精确。然而,实际评分过程中,只有评分教师能够清楚地区分不同的分数等级,评分结果才能够有足够高的精度。因此,即使能够定义一个具有十个分数等级的评分量表,如果评分教师只能区分三个比较宽泛的分数等级,那么如果坚持使用十个分数等级的评分量表,只会给评分教师和考试分数的使用者产生非现实的精度的假象。 对客观题来说,试题数越多,样本的代表性就越高。如果试题的难度与考生的能力水平不相适应,考试分数的精度就会降低。考试工作者的任务是通过考试研究和命题研究,尽可能使考生应答少受其他能力和因素的干扰,试题的难度尽可能与考生的能力水平相一致。 主观性 教育考试从考试设计到评分,很多方面都具有主观性。考试设计中考试的开发者根据课程标准确定考试的测量目标以及相应的行为特征目标时,要做出主观决策;命题者在命题时从选择材料,到设问方式等都具有主观性;考生在应试时也是凭借主观的理解进行应答,除了客观题评分外,主观题的评分也具有很强的主观性。对考试中考生的表现的正确性或考生的能力水平的解释可能也是主观的。 相对性 教育考试的另一个局限性就是考生能力表现水平的相对性。教育考试是根据考生在考试中的具体行为表现来推测考生的能力水平的。然而,是否具备某种能力是不能绝对定义的。如果一个考生完全没有做出测量某种能力的一组试题,该考生在这组试题上得零分,则假定考生不具备所测量的能力,但这并不意味考生真的完全不具备这种能力。同样,如果考生在这组试题上得了满分,也不意味着该考生完全具备这种能力。 第三部分 考试内容规范和试题规范的设计 考试设计产生的大纲或 说明 关于失联党员情况说明岗位说明总经理岗位说明书会计岗位说明书行政主管岗位说明书 还不能直接作为指导命题教师进行命题的依据,还必须根据考试大纲的总体框架,对每次考试进行具体设计,这个设计的产物就是考试内容规范(表)和试题规范(表)。 一、考试内容规范(表)的内容和类型 1.考试内容规范(表)的内容 考试内容规范(表)一般包括以下四个方面内容: (1)考试的测量目标和行为目标; (2)考试涉及的内容领域; (3)题型; (4)题量,包括每一测量目标或内容领域的题量。 考试的测量目标和行为目标是考试内容规范的必需内容。考试涉及的内容领域也是内容规范(表)常见的内容之一,但其并非是必需的内容,主要视学科而定。如果学科考试与教学内容联系不紧密,如语文、英语等学科,则内容规范(表)可以不包含内容领域。反之,如果学科考试与教学内容联系非常紧密则必须要包含内容领域。在考试内容规范(表)中包括内容领域的最主要目的是保证考试所测内容领域具有代表性,即我们常说的考试内容覆盖面。 无论教育考试试卷覆盖的内容范围有多么广,它只能是所有可能的内容领域的一个样本。通过样本,应该尽可能多地了解考生对概念、原理、过程、方法的知道和理解的情况,尽可能多地了解考生在各种情景中应用概念和原理解决问题的能力。所选的有限样本必须尽可能代表整个学科的内容领域。 题型和题量是考试内容规范中必须出现的内容,但两者不一定同时出现。在有些考试机构设计的内容规范中,题量以题数的形式出现;而在另一些考试机构设计的规范中,题量以分值的形式出现,或者以题数或分值的百分数形式出现。 2.考试内容规范(表)的类型一般常见的内容规范(表)有两类: (1)单维内容规范表。这种表一般只需列出考试测量的行为目标。 (2)双维(双向)内容规范表。这种表一般同时列出考试测量的行为目标和考试采样的内容领域。 一般像语文、英语的阅读理解部分的内容规范表即可以采用单维规范表的形式。 在英语听力和阅读的命题中,只要在考试的内容规范表中列出一系列欲考查的行为目标以及每一行为目标上试题的数量和题型,再加上对语篇材料选择的规定,就足以说明命题的内容了。尽管每次考试听的、阅读的语篇材料会发生变化,但所测量的能力目标却是相当稳定的。 英语听力和阅读理解部分内容规范表 Sheet1 测量的技能 试题数 题型 听力部分 1.获取重要的事实信息 10 多项 2.理解话语中隐含意思 5 选择题 3.归纳话语的主旨大意 5 阅读理解部分 4.识别语篇中的细节 10 5.根据上下文理解词义和句子 8 6.辨别文中表述的关系 8 7.归纳语篇的主旨大意 4 8.推测语篇隐含的意思 6 试题总数 56 测量的能力目标 内容领域 题 型 现代文 文言文 认读、理解能力 5 6 多项选择题 分析、综合能力 6 4 填空题 鉴赏、评价能力 4 2 简答题 总题数 15 12 Sheet2 Sheet3 某地语文学科阅读理解部分内容规范表 Sheet1 测量的技能 试题数 题型 听力部分 1.获取重要的事实信息 10 多项 2.理解话语中隐含意思 5 选择题 3.归纳话语的主旨大意 5 阅读理解部分 4.识别语篇中的细节 10 5.根据上下文理解词义和句子 8 6.辨别文中表述的关系 8 7.归纳语篇的主旨大意 4 8.推测语篇隐含的意思 6 试题总数 56 测量的能力目标 内容领域 题 型 现代文 文言文 认读、理解能力 5 6 多项选择题 分析、综合能力 6 4 填空题 鉴赏、评价能力 4 2 简答题 总题数 15 12 Sheet2 Sheet3 某地物理考试双维内容规范表 Sheet1 测量的技能 试题数 题型 听力部分 1.获取重要的事实信息 10 多项 2.理解话语中隐含意思 5 选择题 3.归纳话语的主旨大意 5 阅读理解部分 4.识别语篇中的细节 10 5.根据上下文理解词义和句子 8 6.辨别文中表述的关系 8 7.归纳语篇的主旨大意 4 8.推测语篇隐含的意思 6 试题总数 56 测量的能力目标 内容领域 题 型 现代文 文言文 认读、理解能力 5 6 多项选择题 分析、综合能力 6 4 填空题 鉴赏、评价能力 4 2 简答题 总题数 15 12 力学 电学 热学 光学 小计 能力目标 物理学 物理学 观察实验能力 1 3 1 1 1 7 理解判断能力 3 3 1 1 8 分析综合能力 2 1 1 1 1 6 获取处理信息能力 2 2 1 1 1 7 总题数 8 9 2 3 4 2 28 Sheet2 Sheet3 二、考试内容规范表设计 制作考试内容规范表一般包括以下六个步骤: (1)列出考试测量的行为目标;(2)列出考试的内容领域以及每一内容领域的行为特征;(3)确定每一内容领域的行为特征与考试测量的行为目标的对应关系;(4)以考试测量的行为目标为一维,以考试的内容领域为另一维,制作考试内容规范表底表,将每一内容领域与行为目标相应的行为特征填入两个维度交叉的单元格中;(5)确定每个单元格的采样数(试题数)以及题型; (6)将每个单元格的行为特征去掉,保留试题数,如果有必要则加上题型要求或说明。 例:1.地理基础知识 (1)掌握地球的基本知识。 (2)能初步说明地形、气候等自然地理要素在地理环境形成中的作用,以及对人类活动的影响;初步认识人口、经济和文化发展的区域差异,以及发展变化的基本规律和趋势。 (3)知道世界、中国和家乡的地理概貌,了解中国与世界的联系;初步学会根据一个国家或一个地区的地理信息,归纳其地理特征。 地理学科部分内容领域和行为特征 Sheet1 内容领域 行为特征 地球与地图 地图 ●运用地图辨别方向、量算距离、估算海拔与相对高度。●识别等高线地形图上的山峰、山脊、山谷等。●在地形图上识别五种主要的地形类型。●根据需要选择常用地图,查找所需要的地理信息。●知道电子地图、遥感图像等在生产、生活中的用途。 世界地理 气候 主要气候类型 ●在世界气候分布图上说出主要气候类型的分布地区。●举例分析纬度位置、海陆分布、地形等对气候的影响。●举出日常生活中的实例,说明气候对生产和生活的影响。 中国地理 经济与文化 经济发展 ●运用资料并联系实际,说出我国农业分布概况,并举例说明因地制宜发展农业的必要性。●运用资料说出我国工业的地理分布。用实例说明高新技术产业在工业发展中的作用。●比较不同交通运输方式的特点;运用地图说出我国交通运输网络的大致分布格局。 文化特色 ●知道我国民居、服饰、饮食的地方特色,并举例说明自然环境对文化的影响。●结合有关资料,说明我国地方文化特色对旅游业发展的影响。 Sheet2 Sheet3 地理考试内容规范表制作过程 注:MC为多项选择题; SR为简答题; BF为填空题。 Sheet1 内容领域 测量目标(1) 测量目标(2) 测量目标(3) 地球与地图 地图 ●运用地图辨别方向、量算距离、估算海拔与相对高度。(MC)●识别等高线地形图上的山峰、山脊、山谷等。●在地形图上识别五种主要的地形类型。●根据需要选择常用地图,查找所需要的地理信息。●知道电子地图、遥感图像等在生产、生活中的用途。(MC) 世界地理 气候 主要气候类型 ●在世界气候分布图上说出主要气候类型的分布地区。(MC) ●举例分析纬度位置、海陆分布、地形等对气候的影响。(MC)举出日常生活中的实例,说明气候对生产和生活的影响。(SR) 中国地理 经济与文化 经济发展 运用资料并联系实际,说出我国农业分布概况,并举例说明因地制宜发展农业的必要性。(BF) 运用资料,说出我国工业的地理分布。(SR)运用地图说明我国交通运输网络的大致分布格局。(MC) 文化特色 知道我国民居、服饰、饮食的地方特色,并举例说明自然环境对文化的影响。(SR)结合有关资料,说明我国地方文化特色对旅游业发展的影响。 Sheet2 Sheet3 虚拟的地理考试内容规范表(部分)(表中数字为试题数) Sheet1 地理知识 题型 测量目标(1) 测量目标(2) 测量目标(3) 地球与地图 地图 2 MC 世界地理 气候 主要气候类型 1 2 中国地理 经济与文化 经济发展 1 2 文化特色 1 SR 小计 3 4 2 Sheet2 Sheet3 一般可以从八个方面对考试内容规范表进行检查。 规范表是否包含了考试设计中所有的测量目标和行为目标?规范表是否包含了考试设计中所有的内容领域? 每一内容领域的行为特征是否都表示了出来?每一内容领域的行为特征与测量的行为目标是否都一致?每一单元格内是否都确定了试题数目和题型?每一单元格内试题数目与课程标准中相应内容领域权重是否大体一致?试题数量的分布与考试要做的推论(考试的测量目标)是否一致?从总体上看,规范表的试题数量分布是否会对学校教学产生不利影响? 三、试题规范(表)的主要内容 一般试题规范表包括八个方面的内容: (1)学科 (2)考试的测量目标和行为目标 (3)内容领域或内容要求* (4)题型 (5)题干的限制条件或要求 (6)对迷惑项的要求* (7)正确应答 (8)样题 ( 其中,标有“*”的内容不是必需的,可视实际需要而定。) 学 科:地理 测量目标:地理知识 行为目标:对地理基本概念、基本原理和基本规律的理解 内容领域:天体系统。考生应该理解地球上发生的事件与地球、月亮、太阳以及其他天体运动的关系。 题 型:选择题、简答题 材料选择:材料应该选择考生都比较熟悉的地理现象。 题干特点:试题可以采用反映天体的性质的图表、图片、简图等。 迷惑项要求:迷惑项应该是与正确选项属于同一地理现象。 应答特点:应答可以是文字、图表等。 选择题样题: 早期的宇宙学家们认为地球是宇宙的中心,所有的天体都围绕地球旋转。哥白尼和其他的宇宙学家们提出证据证明:地球在椭圆形轨道上绕太阳旋转。下列哪种地球的特征看起来是太阳自东向西绕地球旋转? A.地球的自转 B.地球的自转轴倾斜 C.地球的球形形状 D.地球绕太阳的轨道 简答题样题: 地球表层存在各种各样的生物。地球的很多因素综合在一起,造就了地球上生命的多样性。月亮与地球到太阳的距离相差不大。为什么月亮不能像地球一样产生出纷繁复杂的生命系统? 正确应答: 生命的产生需要能量,需要化合物不断由简单形式向复杂形式的转变。月亮上没有大气,无法保存来自太阳的能量。月亮没有大气,因而月亮上不能发生自然状态的能量循环,也不能发生物质的循环,如水循环、碳循环、氮循环等,这样就不能使化合物从简单形式向复杂形式转变,因此也无法产生生命。 学 科:化学 测量目标:化学知识 行为目标:理解基本的化学概念和原理 内容领域:化学反应速率和化学平衡 题 型:单项或多项选择题、分析问答题 材料选择:材料可以选择考生都比较熟悉的化学现象,也可选择学术性的材料,但不要过于复杂。 题干特点:试题可以用图表、文字等表示。 迷惑项要求:迷惑项应该是理解过程中可能发生的错误结果,不要与分析过程完全无关。 应答特点:应答可以是文字、图表等。 选择题样题:(略) 分析问答题题样:把镁条投入盛有盐酸的敞口容器中,产生H2的速率可由右图表示。根据这个结果,分析影响镁条在盐酸中反应速率的因素。 分析解答: 镁条的表面有一层氧化膜。镁条投入到盐酸中时,随氧化膜的不断溶解,镁条与盐酸的接触面积不断增大,产生H2的速率加快。该反应是放热反应,反应的进行会使溶液温度升高,温度越高,产生H2的速率也越快。随着反应的进行,溶液中H+的浓度不断减少,反应速率逐渐减慢。因此,影响镁条在盐酸中反应速率的因素主要有:盐酸的浓度、镁条的表面积和溶液的温度。   第四部分 试题背景材料的选择 大规模教育考试命题最为重要的任务,一是选择合适的试题背景材料,二是根据背景材料的内容设计合适的问题。 一、为什么要对试题背景材料选择加以规定 首先,我国的大规模教育考试参考人数很多,分布地域很广,不同的地域之间存在很大的差异。即使在同一地域中,不同的家庭之间,这些方面也会存在不同程度的差异。其次,从我国的现状来看,在一定的范围内,学校有好差之分,导致学生学习、生活经历的差异。第三,考生的个人兴趣、爱好的发展是有差异的,这种差异对考生在其他方面的差异会产生影响,其中最重要的影响是考生在高三阶段的选考科目的选择。 例如2002年全国高考上海卷语文作文题是:面向大海。显然这个命题有很强的地域性,在上海可以要求考生写这样的命题作文,如果作为全国卷的作文题显然就可能产生试题的功能偏差。因为,许多内地的考生连大海都没有见过,很难想象他们面对这样的命题作文,能够写出真实情感,写出真实的思想来。 二、试题背景材料选择的基本考虑 最重要的应该考虑下列因素: 1.背景材料应该与考试的测量目标以及试题欲测量的行为目标相关。理想的情况是选择的背景材料将考试的内容领域与行为目标有机地结合起来. 2.背景材料应该与考生的学习经历和生活经历相适应。考试中试题所使用的材料应该是各类考生群体能够理解的材料,材料本身一般不会成为阻碍某一或某些群体展示其能力的因素。对这种取自教材的背景材料我们要进行修改。 3.背景材料提供的信息类型。 当背景材料中包含有新知识的信息时,要考虑的一个重要问题就是考生的现有知识在深度和广度方面的局限性,他们能否理解这些新知识,能否将新知识构建到现有的知识体系中;另一个问题是新知识的构建能力是否包含在试题要考查的行为中,如果不包括在其中,应考虑不要因为考生的现有知识的局限性而影响其考试成绩。 4.背景材料的信息量。 如果试题不是用来考查考生选择和处理信息的能力的话,一般背景材料中不要给考生冗余信息或不足信息。如果在试题中,要给考生过多的信息,让其进行选择和剔除,就需要考虑试题所要测量的行为目标的类型和完成考试任务的时间限制。 5.背景材料提供的信息与应答间的关系。 试题背景材料的信息与考生应答之间的关系主要包括两个方面,即关系的范围和关系的直接性。 关系的范围指的是完成试题的应答必须加工、处理的信息的数量。一般要求考生加工处理的信息量大的背景材料不要太多,太多了可能难以避免考生处理背景材料的能力对试题测量能力类型的影响。 关系的直接性是指期望的应答对所提供的信息的依赖程度,或者考生是否必须依赖其本身的背景知识来完成任务,包括直接关系和间接关系。直接关系指考生只需要依赖提供的信息就可完成应答。间接关系指背景材料只提供了一部分考生完成任务所需的信息。 6.背景材料的呈现方式应该多样化 试题的背景材料有很多种类,最常见的是文字材料,此外图片和图表材料也是经常使用的背景材料,如各种数据示意图、原理图、结构图、地图、数据表格等。试题的背景材料应该多样化,也不要都是图示材料或图表材料。这样一方面可以使试卷卷面更加活泼、美观,增加考试的亲和性,提高考生应该的兴趣,使考生不至于因阅读大量文字材料感到疲劳、乏味,而影响水平的发挥。更重要的是以不同形式出现,可以使某个方面偏强的考生不会太讨巧,某些方面偏弱的考生有机会弥补其薄弱环节。 有时,同样的材料既可以用文字形式表示,又可以用图示形式表示,而且不同形式的材料都可以很好地服务于试题测量的行为目标,且材料都为考生所熟悉,那么最好选择对材料加工要求最低的材料,如果对材料信息的处理能力不是试题要测量的行为目标的话。 7.对背景材料的修改应该以正确、简明、与测量目标相关性更大和模糊材料来源为原则 修改材料应该使其更加简明;在有错误的情况下,应该对其进行更正;修改材料应该使其与测量目标相关性更大,以达到试题的测量要求。对材料的修改应该尽量让考生看不出材料的原始来源,以防止材料来源部门进行不必要的炒作。 三、如何对试题背景材料的选择作出规定 可以在两个阶段对试题背景作现规定,第一是编写考试大纲或考试说明阶段,对试题背景材料作出比较宏观的规定,可以刊登在考试大纲或考试说明中,目的是让考生、学校以及社会了解有关考试的基本信息,力求保证大规模教育考试的公平和公正。第二是编写试题规范阶段,作出的对试题背景材料选择的指导意见,是考试机构对命题教师选择试题背景材料的具体要求,目的是使命题的教师才能知道这些要求。 现以某英语国家研究生招生英语考试中对阅读理解部分试题背景材料选择的规定为例。 1.材料来源:学术书刊、论文、书评、报刊等与学术主题有关的文章。材料的学科性不要太强,不要使不熟悉该主题的学生处于不利的境地。所有的语段应该能够为所有学科的学生所理解。必要时,应该提供技术术语。 2.文体: 四篇阅读语段中,一篇应该是关于生命科学的,一篇是关于物理科学的,另两篇是关于社会科学的。四篇阅读材料应该尽可能文体各异。例如,一篇可以是学术论文的引言,一篇可以是研究述评,一篇是研究结果的描述,另一篇是研究结果的讨论。 3.材料总体上应该有趣而不令人沮丧。应该避免最近发生的一些灾难和悲剧。 4.注意事项:语段材料应该是真实的,但是可以对其做出小的修改,如做出简化,或对一些小的语法错误进行更正。 5.所有语篇的单词总数应在2500到3000之间。 四、根据课程标准对试题背景材料类型作出规定 选择材料的一个基本原则就是能够贴近学生的学习经历、贴近学生的生活经历。然而,学生的学习经历、生活经历与其就读的地区、学校和家庭密切相关,材料的选择很难同等程度地贴近每一考生亚群体。在这种情况下,比较明智地是以课程标准提出的学习经历的要求为原则,选择背景材料,以最大限度地保证所选材料的公平和公正。 例:全国语文课程标准必修课部分,对与阅读与鉴赏相关的学习经历的要求如下: 1.能阅读理论类、实用类、文学类等多种又本。根据不同的阅读目的,针对不同的阅读材料,灵活运用精读、略读、浏览、速读等阅读方法,提高阅读效率。 2.学习鉴赏中外文学作品,具有积极的鉴赏态度。 注重审美体验,陶冶性情,涵养心灵。能感受形象,品味语言,领悟作品的丰富内涵,体会其艺术表现力,有自己的情感体验和思考。努力探索作品中蕴涵的民族心理和时代精神,了解人类丰富的社会生活和情感世界。 3.在阅读鉴赏中,了解诗歌、散文、小说、戏剧等文学体裁的基本特征及主要表现手法。了解作品所涉及的有关背景材料,用于分析和理解作品。 4.学习中国古代优秀作品,体会其中蕴涵的中华民族精神,为形成一定的传统文化底蕴奠定基础。学习从历史发展的角度理解古代文学的内容价值,从中汲取民族智慧;用现代观念审视作品,评价其积极意义与历史局限。 5.阅读浅易文言文,能借助注释和工具书,理解词句含义,读懂文章内容。了解并梳理常见的文言实词、文言虚词、文言句式的意义或用法,注重在阅读实践中举一反三。诵读古代诗词和文言文,背诵一定数量的名篇。 根据以上的要求可以对语文必修课部分考查内容的选择至少可以作出以下规定: 阅读材料既可以是文学类作品,也可以是实用类和理论类的作品;既可以是本国作品,也可以是外国的作品;既可以是现代文,也可以是文言文。 文体除了常见的记叙文、论说文外,还可以是诗歌、散文、小说、戏剧。 对规定阅读过的文学作品可以包括相关的背景知识。 选择的文学作品应该蕴涵丰富的民族心理和时代精神,蕴涵着人类丰富的社会生活和情感世界。 选择的古代优秀作品应该蕴涵中华民族精神、民族智慧。 第五部分 考试的难度 通常所讨论的难度是指考试的相对难度,即考试或试题的得分率。难度一般用难度系数来表示,难度系数越大,表示考试或试题越容易;难度系数越小,表示考试或试题越难。 一、常模参照考试的难度设计 常模参照考试的主要目的是对考生的能力作出区分,为教育决策,如选拔升学等提供依据。因此常模对照考试命题设计要使试卷的区分能力最大化,使对全体考生作出的教育决策的误差尽可能地小。一般认为,将考试的难度系数设置在0.5左右时比较好。在我市中考命题时,考虑到对学校教育教学的正确导向作用,引导学校减轻学生的学习和复习负担,设计的难度一般为0.65左右。 难度系数对考试的影响 考试的难度系数对考试的影响主要表现在下列方面: 1.对分数分布的影响。如果将试卷的难度系数设置在o.5左右,考生的成绩将大致呈正态分布。 正态分布有以下几个特征: 考试的平均分位于正态曲线的最高点处,这一点也是发布的中位数和众数,既多数考生成绩分布在平均分附近; 考生人数分布对于平均分是对称的; 考试成绩的标准差确定了曲线的宽度,标准差越大,曲线越宽、越平,说明考生人数分布越分散; 考生人数分布有一定的规律:68.26%的考生成绩分布在平均分正负一倍的标准差范围内,如平均分为75分,标准差是20分时,68.26%的考生成绩将在55分到95分之间。此时,考生成绩在平均分两侧分布最分散。因此,依据考试成绩对考生进行选择决策时,发生决策误差的人数会最少,分数线划分最为理想。 2.对招生中选择决策的影响 考试要尽可能降低决策误差的概率。发生选择决策误差主要取决于两个因素,一是大规模考试分数的误差,二是选择决策时划分的分数线的误差。分数线应该尽量远离考试的平均分。如果难度系数偏小,虽然分数线的信度比较高,但可能会加重考生的复习负担,也可能会导向学校加重下一届考生的学习负担;如果过高,将不利于各类学校的录取。难度系数越高,依据考试分数作出的决策误差就越大。 试题的难度设计 将大规模常模参照教育考试的难度控制在0.5到0.6之间,是指试卷的平均难度,而不是指每个试题的难度。对大规模教育考试而言,考生群体差异是比较大的,命题要考虑考生群体的这种差异,试题难度应该由易到难呈现变化。经典的测量理论认为,常模参照考试试题的难度设置在0.2到0.8或 0.85之间是比较合理的。 根据经验,每相邻年份,考生的能力分布差异不会太大。因此,前一年参加考试的考生能力分布,以及试题的难度分布可以为第二年命题的难度设置提供参考。 我市07年的中考仍然具有这两种考试的功能,在难度设计时要准确掌握并完成合格和区分的双重任务,这是非常困难的,又是必须面对的一对矛盾。 二、标准参照考试的难度 大规模标准参照的教育考试(校标性考试)的主要目的是考查学生达到课程标准规定的培养目标的程度。原则上只要是课程标准规定的、考生应该达到的,应该掌握的内容,且考试能够测量的目标和内容,都应该考,无论其难度如何。 标准参照考试命题的基本原则是:试题的难度是平行的,它包括两层含义,一是测量同一行为表现水平的试题难度是平行的,二是测量不同行为表现水平的试题难度也是平行的,而且测量每一行为目标的试题都应该达到一定的数量。 标准参照的大规模教育考试的主要目的是对学生进行学习水平类型划分,如确定学生是合格还是不合格,是优秀还是良好等;或者是等第A还是等第B、C等。这一目的决定考试结果在不同类型分界处应该具有最高精度,即划界分数的误差应该最小。在命题时,在划界分数处集中比较多的难度与划界分数相应的试题,非常有利于提高根据考试结果对学生进行类型决策的信度。 第六部分 客观性试题(选择题)的编撰 一、选择题的基本特征 选择题通常是由一个问题和一组备选答案组成,在很多情况下,一道或多道选择题共有一段情景材料。选择题的问题可以是一个直接提问,也可以是一个不完整的陈述,它们就是选择题的题干。备选答案可以是文字、数字或符号等,备选答案中一般有一个或一个以上是正确的或最好的,其余的备选答案又称为干扰项或迷惑项。情景材料可以是文字、图、表、符号等,含有考生应答需要的相关信息。 在我国的教育考试的选择题中,直接提问形式的题干和不完整陈述形式的题干,都很常见。一般直接提问形式的题干,问题呈现得比较清楚明确,不容易产生歧义;不完整陈述形式的题干更加简明,如果题干撰写得好,也能够比较清楚明确地呈现问题。但如果题干撰写有缺陷,就有可能产生歧义。 二、选择题的主要测量功能 1.测量对知识的记忆和理解 (1)测量对一般事实性知识的记忆水平 例1.1909年,一位35岁的科学家荣获该年度的诺贝尔物理奖,被后人誉为“无线电之父”,这位科学家是 A.马可尼 B.贝尔 C.西门子 D.赫兹 这种试题比较死板,在命题中还可以采用比较、分类、归纳或概括等形式考查考生对一些重要的事实性知识的记忆水平。 例2. (比较) 在NH3、HNO3、H2S04的工业生产中,具有共同特点的是 A.使用吸收塔设备 B.使用尾气吸收装置 C.使用H2作原料 D.使用催化剂 例3. (分类) 下列各组国家中,都属于典型移民国家的是 A.美国、德国 B.南非,埃及 C.日本、澳大利亚 D.加拿大、新西兰 例4 . (归纳)学习明、清史后,有四位同学分别就下列主题作了演讲,你认为其中哪一个概括了这段历史的全过程? A.帝国的彷徨 B.中华的荣耀 C.东方的曙光 D.王朝的振兴 (2)测量对一般事实性知识的理解水平 例5.北京人遗址中发现许多石片、石块,考古界认为有些是北京人创造的工具,最有力的依据是: A.数量很大,约有10多万件 B.出土集中,可能有意堆放 C.形状多样,有些还有锋刃 D. 便于使用,留有打制痕迹 (需要理解的知识在题干中) 2.测量对基本原理的理解和应用能力 测量考生对基本原理的理解和应用能力,关键在于让考生在一种类似的或新的情景中,通过鉴别基本原理,应用基本原理来解释问题。命制这种测量功能的选择题重要的在于两个方面,一是设计好两种不同的情景——类似的和新的情景;二是要求考生解释的问题,如分析各种关系、解释因果关系、根据条件作出推论、对事物作出评价等。 例6.(鉴别原理)2003年我国人均GDP首次超过l 000美元,人们的消费需求开始升级换代,对住宅、汽车、环境等方面的需求越来越高。这说明 A.消费具有生产功能 B.生存消费的比重逐步增大 C.消费结构归根结底是由生产发展水平决定的 D.消费结构的变化推动了生产结构的进步 例7. (分析关系)在含有Cu(NO3)2 、Mg(N03)2和AgNO3的溶液中加入适量的锌粉,首先置换出的是 A.Mg B.Cu C.Ag D.H2 3.测量基本技能的掌握水平 教育考试中,许多学科都要对考生的一些基本技能进行考查,例如数学中的基本运算技能,语文和英语中的基本阅读技能,许多学科中的阅读各种图、表的技能。选择题在考查这些技能中也有用武之地。 例8.(阅读数据表)某同学进行一项实验,研究将盐加到水中是否影响水的冰点。他准备了五份水样,每份水样的质量和温度相同,向每份水样中加入不同质量的盐,并使盐完全溶解,将水样同时放人冰柜中,记录下每个水样结冰所需要的时间,结果如下表: Sheet1 加入盐的量(克) 样本结冰的时间(分) 0 48 1.25 68 2.5 75 3.75 88 5 实验时间内未结冰 Sheet2 Sheet3 下列哪一个结论能够正确地解释该同学获得的实验结果? A.由于最后一个水样未结冰,无法得出结论 B.水样中盐的含量增加一倍,水样结冰的时间也增加一倍 C.水样中盐的含量增加,结冰所需时间缩短 D.水样中盐的含量增加,结冰所需时间增加 4.测量辨别、选择、使用和评价过程或方法的能力 例9 (使用过程或方法) 在研究光照强度对某种鸟呜叫次数的影响中,下列设计不符合研究要求的是 A. 记录一天内不同时间同一地点该种鸟呜叫次数 B.记录同一时间不同天气该种鸟呜叫次数 C.记录繁殖季节该种鸟雌鸟和雄鸟呜叫次数 D.记录不同季节同一地点该种鸟鸣叫次数 例10 (选择过程或方法) CuS和Cu2S都能溶于硝酸,它们高温灼烧的产物相同。以下鉴别CuS和Cu2S两种黑色粉末的方法合理的是 A.将两种样品分别溶于硝酸,区别所产生的气体 B.将两种样品分别溶于硝酸,区别溶液的颜色 C.取两种同质量的样品分别在高温中灼烧,区别残留固体的质量 D.取两种同质量的样品分别在高温中灼烧,区别残留固体的颜色 三、选择题的优缺点 选择题有两个基本的优点:(1)应答一般不受考生应答倾向的影响,如果考生不知道答案,一般不会选择某一特定的选项;(2)干扰项的使用,使得考试结果具有一定的诊断功能,学生对错误选项的选择,可以揭示出其对问题理解上的错误,或者揭示出学校教学上存在的问题。 1.与是非题相比 选择题的最大优点是:学生必须知道不仅什么是错误的,而且知道什么是正确的,才能作出有效的应答。 是非题: 中华人民共和国全国人民代表大会和中国人民政治协商会议都是代表人民行使国家权力的组织。 选择题:中华人民共和国全国人民代表大会和中国人民政治协商会议都是 A.实现社会主义民主的重要途径 B. 国家政权机关 C.代表人民行使国家权力的组织 D.通过选民选举产生其成员 其次,选择题不一定需要有错误选项,在这种情况下,只要考生选出最佳答案即可,如最好的方法、最有说服力的证据、最好的解释等。而是非题的陈述要么正确,要么错误,以使考生能够作出是或非的判断。 选择题的考试结果信度比较高。一般选择题的选项至少四个,有的甚至有五个或六个,选项越多,作出正确猜测的概率就越小,因此选择题中对正确答案的猜测概率比是非题要小得多。由于正确猜测的概率降低;考试结果的信度应该相应地增加。 2.与匹配题相比 与匹配题相比,选择题的优点在于其不需要同质的材料。命制匹配题时,需要寻找一系列的同质材料,分别形成前提项和匹配项很多情况下,要想获得足够的同质材料比命制选择题难得多。选择题不存在这个问题,因为选择题只对一个问题进行考查,命制这样的试题要容易得多。 3.与填空题相比 选择题一般不易出现填空题中经常出现的歧义和含糊不清的缺点,因为选项可以使得选择题问题情景不易产生歧义或含糊不清。 “万家灯火闹春桥,十里光相照。舞风翔鸾势绝妙。可怜宵,波间涌出蓬莱岛。香烟乱飘,笙歌喧闹,飞上玉楼腰。”作品描写的是传统节日( )的盛况。 “万家灯火闹春桥,十里光相照。舞风翔鸾势绝妙。可怜宵,波间涌出蓬莱岛。香烟乱飘,笙歌喧闹,飞上玉楼腰。”作品描写的是哪个传统节日的盛况? A.元宵节 B.端午节 C.中秋节 D.重阳节 选择题也存在一些明显的不足: 首先,选择题测量的是当学生面对一个问题情景时,他也许知道或理解要做什么,但不是一定能够做什么。 其次,选择题要求考生从若干选项中选出一个正确或最佳答案,它不太适合测量考生解决问题的实际能力,也不太适合测量考生的思想、观点的组织能力和表述能力。 第三,设计出好的选择题干扰项往往比较难。设计选择题干扰项的基本要求是:干扰项应该似是而非,不能迷惑真正掌握了的学生,而要将没有真正理解的考生迷惑倒。 四、编撰选择题的基本要求 1.题干本身应该有意义,并以明确的问题形式呈现 编撰选择题时应该保证题干中包含一个明确的问题,这个问题即使在没有备选项情况下也有意义,同时,备选项具有比较好的同质性,以降低可能的猜测概率。 下例中,试题题干没有明确的问题,意义不完整。 下列说法正确的是 A.光的干涉和衍射现象说明光具有波动性 B.光的频率越大,波长越大 C.光的波长越大,光子的能量越大 D.光在真空中的传播速度为3.00 X l06m/s 2.题干中不要包括无关的内容,选项中相同的内容应尽可能置于题干中与考生应答无关的内容不会对考生答题有任何帮助,只会增加考生阅读时间,甚至会干扰考生的应答.如果设计的试题不是专门考查考生选择相关材料的能力的话,题干中应该删去这些无关的内容。 例: 2003年3月,在北京举行了十届全国人大一次会议和全国政协十届一次会议。(这一句可以不要)人民代表大会和人民政协都是 A.实现社会主义民主的重要途径 B.国家政权机关 C.代表人民行使国家权力的组织 D.通过选民选举产生其成员 3.应答所要求的思维过程不要过于复杂 所有的客观题都是通过考生思维的结果对考生的能力和思想品质进行测量,如果思维过程过于复杂,既有比较强的分析要求,又有比较复杂的计算等过程,则考生应答错误时,就很难判断考生究竟是在哪一个环节上出现了问题。 4.所有的干扰项都应该似是而非设置干扰项的目的是要迷惑那些没有真正掌握测试内容的考生。对这些考生而言,干扰项与正确选项的迷惑力几乎是相同的。如果所有的干扰项与正确选项看起来都很相似,即所有的选项都是同质的,那么干扰项会更显得似是而非,测量效果就会更好,但是干扰项不应该迷惑真正掌握了测试内容的考生,否则这样的干扰项可能有问题。 编制有质量的迷惑项的某些方法:1.用学生经常或易于犯的错误作为迷惑项。 2.迷惑项尽可能与题干某些部分相关,使得每个迷惑项看起来都是可能的。 3.利用教材上的语言或真理性的措辞作为迷惑项。4.尽可能使迷惑项与正确选项保持同质或相似。 5.所有选项在形式上与题干保持平行,语法上与题干保持一致。如都是短语或句子等。 6.所有选项本身在长度、结构和内容复杂程度上基本一致或相似。 5.避免题干与正确选项之间存在语言联系,以免阅读能力比较强的考生从中获得有用的线索 如果迷惑项的表述看起来或听起来与题干存在语言联系,可以增加迷惑项的迷惑能力,使得那些想依靠记忆和语言联系获得答案的考生上当,则未尝不可。 例: 1955年,周恩来总理在万隆会议上说,中国代表团不是来吵架的,“是来求同而不是立异的”。为此,他代表中国政府阐述了 A.亚非国家的革命策略 B.社会主义的发展目标 C.第三世界的南南合作 D.和平共处的五项原则 6.使正确应答随机分布在选项中,以防止考生觉察出正确选项的分布规律 有些命题教师喜欢将正确选项安排在中间,正确选项出现在A或D或E选项中的可能性较小,这样做易于为聪明的考生提供线索。 第七部分 主观题的编撰 一、主观题的主要类型 主观题是指必须要通过人工阅卷,评分教师根据对评分标准的理解,进行评分的试题形式。教育考试中经常出现的主观题包括:填空题、材料分析题、简答题以及问答题或小论文题,这里的问答题是广义的问答题,包括数学学科中的解答题,物理、化学和生物等学科中的实验设计题等。 二、主观题的主要测量功能 主观题的最大优势是能够测量各种比较复杂的行为目标。包括:(1)辨认或汲取相关信息的能力和表达相关信息的能力;(2)分析归纳或分析说明材料的能力,包括文字、图表、数据和关系材料;(3)解释各种关系的能力;(4)应用概念或原理解决问题的能力;(5)提出、组织和表达观点的能力或用事实、资料支持观点的能力;(6)陈述推理的能力;(7)设计实验或调查程序的能力;(8)提出假设的能力以及对资料进行分析支持或驳斥假设的能力;(9)对论点或观点进行评价的能力。 例1 (简答题) 一个珊瑚礁是一个复杂的生态系统,其中有许多不同的生物。海藻独立生活在珊瑚虫中进行光合作用。许多鱼和软体动物依靠海藻或者更大的植物生存,而这些鱼和软体动物依次又成了其他鱼和无脊椎动物的食物。最终,这些有机物死亡,分解成基本的分子。推测如果从珊瑚礁系统中将海藻消除掉,那么珊瑚礁生态系统将会发生什么变化? 例1考查的是考生陈述推理的能力。 例2(问答题)中国共产党十六届三中全会提出了“坚持以人为本,树立全面、协调、可持续的发展观,促进经济社会和人的全面发展”的科学发展观。 (1)坚持以人为本,就是要以实现人的全面发展为目标,从人民群众的根本利益出发谋发展、促发展,让发展的成果惠及全体人民。请运用政治常识的有关知识,阐述党提出“坚持以人为本”的重要意义。(2)当前,我国还存在教育、科学、文化、卫生、就业和收入差距等方面的社会发展问题,社会发展与经济发展尚不协调。请运用经济常识的有关知识,论述在经济发展的基础上,应如何促进社会发展。 第(1)小题考查考生提出、组织和表达观点的能力,第(2)小题考查考生解释经济发展和社会发展关系的能力。 如果从认知过程的角度,将以上这些经常测量的行为目标进行分解,可以发现这些能力表现行为主要涉及到以下11种认知过程:观察、比较、解释、分类、概括、推测、分析、综合、假设、预测、评价。对每一个认知过程都可以从不同的角度或要素,可以用一系列专门的动词来设计问题。 三、主观题评分标准 主观题编制出来后,尚未施测前制定比较详细的评分标准,一方面是为了完成主观题的编撰任务,更重要的是可以通过制定评分标准,对试题进行进一步的反思,从而使试题的表述更加清晰,有利于使学生明白试题要求其作出的反应,作出合适的应答。同时,告诉考生试题评价的标准也可以增强考试内容的相关性,使学生对试题作出适当的反应和应答。 制定评分标准一般应考虑下列因素: 1.选择最合适于试题和评价目的的评分方法 评分方法可以分为两类:总体评分法和分析评分法,选择的评分方法不同,制定的评分标准或评分量表也不相同。 总体评分法是基于对考生行为的总的判断。总体评分法效率比较高,易于评分,多数教师比较习惯于这种评分方法。一般而言,这种评分方法应该用于考查的行为特征比较单一,试题分数等级或分值不高于10分的试题。 分析评分法具有诊断价值,但评分效率较低,多数教师不习惯于这种方法。一般如果试题考查多个行为特征,且分值比较高,如高于10分,易于采用分析评分法。采用分析评分法要求评分教师对考生的应答从不同的行为特征方面作出区分,同时根据行为特征将比较高的分值分解为不同的方面,有利于降低评分的误差,提高考试结果的信度。 2.评价的行为特征应该与测量的行为目标相一致 试题考查的行为特征只是测量的行为目标的一种表现方式,在制定评分标准阶段,检查试题考查的行为特征是否反映了测量的行为目标,有助于提高考试的质量,提高考试结果解释的效度。 3.在分析评分法中,每个评分项目一般应只包含一个独立的行为特征 如果一个评分项目中包含多个独立的行为特征,实际上这部分评分就又变成了局部的总体评分,在很多情况下可能要用不同的动词描述行为特征的等级,如果每个评分项目中包含多个独立的行为特征,使得对行为特征等级的定义困难加大,同时,导致评分的不可靠性加大。 4.要明确评价的行为特征等级数 一般评分标准中行为特征的等级数不超过7个,最多不超过 9个。具体评分标准中行为特征的等级数应该根据评分方法、试题的分值等作出具体的判断,不是一定要达到7到9个等级。 5.对评价的行为特征和标准中的每个等级应该进行清楚的定义 许多评分误差起因于评价的行为特征的模糊和标准中评分等级定义的不清,对评价的行为特征和量表中的每一个等级进行清楚的描述、定义,有助于克服这种误差。这样既可以对标准中的每一个等级作出解释,也可以对要评价的行为特征作出解释。 例 (简答题——总体评分法)二十多年来,中国老百姓的生活发生了巨大变化,新华社记者用“大起来的住房、多起来的私人轿车、低下来的食品支出比重、高起来的文化程度、热起来的假日旅游、快起来的通讯方式”等词语来描绘这些变化。请简述消费结构由低层次向高层次转化的一般趋势。(本题l0分) 评分标准: (1)生存消费的比重逐步缩小,享受消费和发展消费的比重相应增大。 (2)实物消费的比重逐步缩小,劳务消费的比重相应增大。 (3)自给性消费的比重逐步缩小,商品性消费的比重相应增大。 本题评分标准的主要问题是:(1)评分标准的等级数与试题赋分不一致。(2)考生的应答肯定是五花八门的,不可能与给出的三条标准完全相同,这样就需要标准对每一个等级给出清楚的定义描述,但标准并没有对任何一个等级给出任何定义描述。 示例 NAEP主观题书面应答整体评分标准 1 应答的信息与主题基本无关。 2 对主题作出了应答,但没有展开,应答笼统、混乱、相互之间缺乏联系。 3 对主题应答初步展开了,但应答简单、含糊且有点令人迷惑不解。 4 对主题应答展开了,应答包含了必需的要素,但有些部分展开得比较开,比较详细;有些部分则没有。5 对主题应答完全展开了,应答很详尽,不但包含了基本的要素,且有所拓展。 6 应答广泛、详尽,表现出对书面表达各种要素的娴熟的驾驭能力。 四、编撰主观题的基本要求 1.如果测量的行为目标能够用客观题来测,就尽量不要用主观题 2.挑选的材料应该与学生学习经历过的材料有类似性或是全新的材料3.设计的试题应该能够测量相关的行为目标并且与某一内容领域相关 4.应该用清晰、明确的语言表述背景材料和问题 5.对材料分析题而言,设计试题应该对材料进行分析和解释6.设计的试题数应该与背景材料的长度相匹配7.对试题的赋分应该合理 8.对每个问题给以适当的完成时间 第八部分 国家关于初中学业考试 和中考命题改革的有关要求 一、国家教育部关于基础教育课程改革实验区初中毕业与普通高中招生制度改革的指导意见(教基2005 年 2号文件摘要) 指导意见分四个部分:初中毕业学业考试;初中毕业生综合素质评价、普通高中招生录取、实施保障等。涉及初中毕业生学业考试的内容有以下六条。     1.初中毕业生学业考试(以下简称学业考试)是义务教育阶段的终结性考试,目的是全面、准确地反映初中毕业学生在学科学习方面所达到的水平。考试结果既是衡量学生是否达到毕业标准的主要依据,也是高中阶段学校招生的重要依据之一。 2.学业考试应在课程内容结束后由当地教育行政部门统一组织。要减少考试科目,考试科目由省级教育行政部门确定或提出指导性意见。同时,学校还应对学生在综合实践活动等方面的学习情况进行考查,并体现在初中毕业生综合素质评价中。  3.学业考试的命题应根据学科课程标准,加强试题与社会实际和学生生活的联系,注重考查学生对知识与技能的掌握情况,特别是在具体情境中综合运用所学知识分析和解决问题的能力,杜绝设置偏题、怪题。  4.学业考试的方式要多样化。可根据考试的具体内容采用纸笔测验、听力测试以及口试、实验操作等多种形式;纸笔测验也可采取闭卷、开卷或开闭卷结合等不同形式。  5.要明确命题、审题和阅卷的程序和要求,建立命题、审题和阅卷制度,加强命题、审题和阅卷人员的队伍建设,要注意发挥教育统计专业人员的作用。   成立以骨干教研员和优秀教师为主的命题、审题小组,审题人员和命题人员必须分开。命题、审题人员应充分了解新课程的改革目标并准确把握相关学科课程标准的要求。    阅卷人员必须是当地在职的骨干教师。应确保阅卷工作的客观、公平和公正,特别要加强对主观题阅卷质量的管理,如在作文阅卷中要认真落实三人独立阅卷的要求。要建立阅卷质量的过程监测制度。   有条件的地区应进行试测;鼓励进行联合命题或委托命题等多种尝试,以降低考试成本。要对命题、审题、阅卷过程中的保密保卫等工作进行督查。  6.学业考试的成绩应根据各学科课程标准的基本要求确定合格标准,提供普通高中录取用的学业成绩应以等级的形式呈现,等级数和等级标准应由各地根据考试结果,并结合当地优质高中资源的实际情况确定。任何单位和个人不得以任何形式根据考试成绩给地区、学校和学生排队或公布名次。 二、2005年国家基础教育课程改革实验区文(理)科初中毕业学业考试命题指导的主要精神    命题的指导思想主要有4个方面:1.凸显文科各学科共同的核心理念和价值观,促进学生自由全面的发展。2.全面关注学生,引导学生建立科学的学习态度和方式,立足于促进学生的终身发展。3.全面测量文科教学的课堂教学质量,有效推动初中文科各科课堂教学改革的深入。4.全面反映初中毕业生的综合素质,为高级中学综合评价、择优录取考生提供支持。 考试主要以笔试测验的形式,测验可采取闭卷考试或开卷考试或开卷与闭卷相结合的形式。     《命题指导》提出了6条命题原则是:1.依据《课程标准》确定考查内容与重点,注重学科内容的融合。 2. 合理确定试题的形式和难度。3.注重“三维目标”,侧重能力考查。4.联系社会实际和学生生活,注重情感态度价值观的考查。5.鼓励命题技术的改革和创新。6.强调试题科学、合理、规范。     考查内容的依据是“课程标准”,课程标准所规定的知识与能力的要求,过程、方法、情感态度和价值观方面的目标原则上都在考查内容的范畴之列。试题不应照搬教科书,而应当在课标的指引下,设计创造出新的命题情景与内容。文科应保持各科内容结构的比例的平衡。试卷还应重视课程目标所规定的知识与能力、过程与方法、情感态度与价值观的考查,应以知识为载体,将知识的考查与能力、过程与方法和情感态度价值观的考查结合在一起。     (一)命题原则与要求 理科学业考试的命题应遵循以下原则:    1.要注重对基础知识、基本技能的考查,杜绝超过课程标准要求的拔高。应灵活多样地考查基础知识和基本技能,引导教学促进学生的有意义学习。    2.要注意从实际中选取素材,考查学生在实际情境中提取信息、分析和处理问题的能力,引导教学联系学生生活实际和社会实际、关注科学技术的发展。 同年,教育部发布了《2005年国家基础教育课程改革实验区理科初中毕业学业考试命题指导》。     3.要注意对科学探究能力的考查,引导教学注重探究过程和方法,注重培养学生科学地认识事物、分析现象和把握规律的能力。    4.试题内容应科学、正确,表述应清晰无误;试卷的题量要适中;试卷结构要科学、合理,难易程度要适当;试卷形式要规范。     (二)考查内容与考试形式 1.考查内容    初中毕业理科学业考试应根据课程标准的要求,考查各学科课程中基本的、核心的内容,并注意学科内各部分内容的合理分布。    对科学探究的考查,应以课程标准所设定的基本要求为依据,避免将科学探究分解为生搬硬套的知识和按部就班的程序进行考查的偏向。实验能力作为进行科学探究所需的重要能力,在理科学业考试中应得到足够的重视。实验能力既包括实验操作能力,也包括实验 方案 气瓶 现场处置方案 .pdf气瓶 现场处置方案 .doc见习基地管理方案.doc关于群访事件的化解方案建筑工地扬尘治理专项方案下载 设计、实验数据分析处理等方面的能力。   情感态度与价值观方面的目标,可渗透在科学知识和技能的考查中落实,要避免贴标签和形式化。   2.考试形式  理科学业考试的形式以闭卷笔答为主。考试时间、试卷题量要适当。提倡在有一定研究基础的情况下,积极探索多样化的考查形式。例如,通过学生亲手操作的实验考试考查学生的某些科学实验能力。 (三)试题类型及命题建议     理科学业考试应选择适当的试题类型,并注意题型结构的合理性,以实现检测功能上的互补,有利于整体考查目标的实现。     理科学业考试常用的试题类型有选择题、填空题、简答题、计算题、综合型试题等。 命题建议(略) 三、2005年4月,教育部中考改革项目负责人就提高中考命题质量回答了记者的采访 问:根据2004年的经验,2005年命题时应当注意哪些环节?   答:在知识技能方面,应依据课程标准,重点考查学科知识的核心内容和基本技能;学业考试的内容不得超出课程标准的范围,也不能拔高或降低对学习水平的要求;在过程与方法方面,应重点考查学生运用所学知识分析解决问题的能力;在情感态度价值观方面,不宜采用直接设题赋分的办法,应渗透在前两方面的考查内容中。此外,对不同性质的考查内容,应采用不同的考试形式。例如,采用口试考查英语口语交际能力,利用实验操作考查学生实验能力等。    问:进一步提高命题质量的关键环节是什么?学业考试改革应当按照哪些方面的要求来进行呢? 答:保证命题的质量,除了技术上的问题,关键是观念的转变。一是在继承好的传统题型的基础上,应积极探索新的题型。当然,新的题型应保持相对稳定。二是试题素材不应拘泥于教材中的内容,应加强与学生生活实际的联系,与当地生产实际的联系,与学科发展的联系。三是鼓励设计主观性试题。四是题目应更多地指向本学科的一些核心能力。        问:传统题型与新型题型的关系如何处理?  答:新的题型一般是主观题,可能从内容到形式都是新的,具有一定的难度,对学生来说完全是陌生的。如果新的题型太多,学生可能会不太适应。题目的形式是为内容服务的,因此,不应当刻意追求新题型,新题型的数量、难度应当把握在一定的量上。        问:主观题与客观题的比例如何把握?过去的比例在这次改革中有变化吗?    答:主观题与客观题各有一定的功能和局限性,在学业考试中要相互搭配,至于各占多少比例,要根据学科特点、本地区学生学习状况等因素而定。不管编制什么类型的试题,需要注意以下两方面的问题:第一,个别试题与整体试卷的关系,学业考试需要命好每一道试题,但也要注意整卷的整体效果。个别试题可能很好,但放在一起就不一定构成一张有效的试卷,而个别试题的区分度可能不是很高,但在整卷之中却能发挥一定的作用。        问:题目的难度如何把握?如何体现各学科课程标准所强调的核心内容、核心能力,而不能在繁、偏以及技巧上做文章?      答:试题应确保大部分考生达到及格标准,并能在核心能力方面区分出优秀、良好和及格水平。试题的难度要形成合理梯度,能反映不同层次学生的真实水平。在整张试卷中,允许一部分试题难度较低,另一部分试题难度较高。而难度较高的试题应体现各学科课程标准所强调的核心内容、核心能力,而不能在繁、偏以及技巧上做文章。     问:难度、信度、效度如何把握?   答:公正、公平首先反映在命题上,应当特别注重对命题科学性的把握,考虑考试的内容、方法、测查的重点等,是否能反映课程标准的要求,是否着眼于学生的发展。因此,应当介入专业力量,对命题人员进行审核和培训,依据课程标准,运用教育测量学技术科学命题。命题后要进行试测,通过这一系列措施,保证命题的公正与公平。     问:考试方式将有哪些变化? 答:学业考试的方式多样化,将根据考试的具体内容采用纸笔测验、听力测验以及口试、实验操作等多种形式,纸笔测验可采取闭卷、开卷或开闭卷结合等不同形式。比如,有的实验区英语考查情境对话、朗读短文、看图说话、口头作文;体育有规定项目,还有选择项目;美术既有知识与技能的考查,也有作品赏析的考查。还有的实验区物理、化学实行开卷考试,语文可以查字典,数学可带计算器进教室,实验操作考试由三科全考变为三科任选一科。这些都是有益的探索,值得提倡。 本讲座参考文献: 雷新勇 2005年著《大规模教育 考试命题与评价》
本文档为【大规模教育考试命题的基本理论和常用技术】,请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑, 图片更改请在作品中右键图片并更换,文字修改请直接点击文字进行修改,也可以新增和删除文档中的内容。
该文档来自用户分享,如有侵权行为请发邮件ishare@vip.sina.com联系网站客服,我们会及时删除。
[版权声明] 本站所有资料为用户分享产生,若发现您的权利被侵害,请联系客服邮件isharekefu@iask.cn,我们尽快处理。
本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用。
网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
下载需要: ¥11.9 已有0 人下载
最新资料
资料动态
专题动态
个人认证用户
北溟愚鱼
暂无简介~
格式:ppt
大小:295KB
软件:PowerPoint
页数:0
分类:医药卫生
上传时间:2018-10-01
浏览量:54