心理学与生活中文版FreeKaoYan10智力与智力测验

心理学与生活中文版FreeKaoYan10智力与智力测验智力与智力测验 10 在古代简单的社会，你会通过一种稳定的途径完成从学徒工到熟练工，再到大师的转变。也就是说，你会通过自然途径成为一名深得信任的工匠。你不必担心为了得到证明，你得用2号铅笔来填写机读答案；在心理学测试中，对“我喜欢高个子的女性”等陈述进行“是”或“否”的判断。不，一名铁匠之所以成为铁匠是因为他就是铁匠，就如同杂货商要卖东西，车匠要锻造车轮一样。但是，在今天这个超理性的后工业时代，为了得到信任可以挣钱的机会，我们信任数字胜于经验，从律师到房屋装修者再到泥瓦匠，都会被要求参加考...

智力与智力测验 10 在古代简单的社会，你会通过一种稳定的途径完成从学徒工到熟练工，再到大师的转变。也就是说，你会通过自然途径成为一名深得信任的工匠。你不必担心为了得到证明，你得用2号铅笔来填写机读答案；在心理学测试中，对“我喜欢高个子的女性”等陈述进行“是”或“否”的判断。不，一名铁匠之所以成为铁匠是因为他就是铁匠，就如同杂货商要卖东西，车匠要锻造车轮一样。但是，在今天这个超理性的后工业时代，为了得到信任可以挣钱的机会，我们信任数字胜于经验，从律师到房屋装修者再到泥瓦匠，都会被要求参加考试。为了准确地考察雇主和职业组织是如何招聘雇员和成员的，当然，顺便也为了确定我自己除了成为理性化的、从根本上说是前工业时代的自由作家之外，是否还能胜任其他工作，我参加过31次正式的或模拟的考试。这些考试包括应聘酒吧服务员、邮车机械师、播员员、旅行代理人、成瘾专家、地理学家、驻外国办事处官员和FBI代理商。我的考试结果并不好：我只通过了三次考试。评论家亨利·奥尔福德(Henry Alford,1993）在他的文章“在这个小镇上你不能再喂狗（You'll never groom dogs in this town again!）中，描述了他所经历的几次求职考试。任何一个曾在的工作中的日子中排徊的人，都会很熟悉奥尔福德采用幽默的方法所描述的过程。雇主们会用大量的测验来确定每一个应聘者可能的“潜力”。有时候很难看出在测验和职业之间有什么联系，但是总有一些专家使公司确信，测验能够测量出候选人之间的不同。如果你生长在美国，那么你的“潜力”很可能在进入人才市场之前就已经被测量过了：多数学校的老师和校长在你很小的时候，就已经测量过你的智力。通常，这种测量的目的是使学生与课堂教学相配合，以达到某种要求。但正如你观察观察到的，人们在课堂外的生活也经常受到智力测量的影响。在这一章里，我们将要考察智力测验的起源和应用，回顾心理学家在理解智力的个体差异方面所做的贡献，讨论人们在解释这些差异时不可避免的争论。我们关注于智力测验如何发挥作用，测验有用的标准是什么，为什么人们总是无法从事他们想做的工作。最后，我们将对心理测量在社会中的应用做一个个人化的总结。让我们从回顾心理测量的实践开始。什么是测量心理测量（psychological assessment）是用来检测人们的能力、行为和个性特质的特殊的测验程序。心理测量通常是指对个体差异的测量，因为多数测量都是确定在某一特定维度上，某人与其他人如何不同或相似。在学习心理测验的基本特性之前，让我们首先回顾一下测量的历史，这会帮助你们理解测量的应用和局限，并有助于理解当今的有关争论。测量的历史在西方心理学中，正式测验的发展和测量程序是一个较新的领域，在20世纪初才得到广泛应用。但远在西方心理学开始编制测验来评价个体之前，测评技术在古代中国就已经很普遍了。实际上，在4000多年前，中国就采用了复杂的文职人员考试制度。官员们需要在每三年进行一次的口试中表现出他们的竞争力。在两千年之后的汉朝，笔试的科举考试制度已应用于法律、军事、农业和地理等行业。在明朝，公职官员的选拔是根据他们在三个客观选择阶段的成绩决定的。第一阶段进行地区考试；其中有4%的人进入第二阶段的考试--对名作名篇进行述评，共持续九天九夜；通过这一阶段的人（占%）可以参加在首都举行的最后阶段的考试。在19世纪初，英国的外交官和传教士们对中国的科举选拔制度进行了观察和描述。经过修改，这一制度很快被英国、其后被美国等用于文职官员的选拔（Wiggins,1973）。西方智力测验发展中的的关键人物是英国上层社会的弗朗西斯·高尔顿爵士（Sir Francis Galton）。他在1869年出版的著作《遗传的天才》极大地影响了其后有关测验的方法、理论和实践的思想。高尔顿是查理斯·达尔文的堂兄弟，他试图将达尔文的进化论应用于人类能力的研究中。他对于人们在能力上的不同及其原因很感兴趣，比如为什么有些人和他一样聪明、事业成功，而其他人则不是。高尔顿是第一个提出有关智力测量的四个重要思想的人。第一，智力的差异可以根据智力的程度来定量。也就是说，可以对不同人的智力水平数量化。第二，智力的个体差异成钟型曲线，或者称做正态分布。在钟型曲线上，多数人的智力值在中间，只有少数人是天才和智力迟滞。第三，智力，或叫做心理能力，可以由客观测验测得，测验中每一个题只有一个“正确”答案。第四，两套测试成绩之间的相关程度可以由相关的统计分析来确定。事实证明，高尔顿的这些思想具有长久的价值。但另一方面，高尔顿还提出了许多相当有争议的思想。例如，他相信天才是遗传的。根据他的观点，天才或是出众的人会出现在同一个家族内，教育对于智力只有很小的影响。而且他认为，智力与达尔文的物种适当论（species' fitness）相关，因而从根本上与人的道德价值相关。高尔顿试图将公共政治建立在人天生下来就分上等人和下等人的观点上。他发动了优生运动，鼓吹通过应用进化理论，鼓励生物上的优行人进行异种交配，阻止生物上的劣等人群生育后代，以达到提高人类物种的目的。高尔顿写道，“存在一种与‘使下等种族逐渐灭绝’的观点相抵触的情绪，但这种情绪大部分是不合理的”（Galton,1883/1907,p.200）。这些具有争议的思想后来被许多人认可并加以扩展。他们强烈宣称，智力优等人群应该大量繁殖，而不用去管那些下等人群。美国心理学家高达德（Goddard）和特曼（Terman）就是鼓吹这些思想的人，我们将在后面部分讲述他们的理论。当然，鼓吹这些思想的还包括纳粹独裁者阿道夫·希特勒。在这一章节的后面，我们将会看到这些优等人思想在今天仍被提出。高尔顿开创了现代智力测量的工作。现在让我们来看看正式测量的特点。正式测量的基本特点为了有效地界定个体或选择具有特定特质的人，正式测量（formal assessment）程序应该满足三方面的要求，即信度、效度和标准化。如果测量在这几方面没有达到要求，那我们很难确定测量的结果是否可信。虽然这一章将重点讲述智力测验，但正式测量的程序适用于所有的心理测量。为了保证你们对这些原则的广泛应用有所理解，我们将地智力测验和其他心理测量分别举例。信度信度（reliability）是指某一测量工具能够得出一致分数的程度。如果你在同一个早晨，在浴室内进行了三次体重测量，但有三个不同的读数，那么这一测量并没有达到目的，你可以称之为不可信，因为你没有得到一致的结果。当然，如果你的两次量体重期间吃了一顿套餐，那么你就不应该期望其结果是一样的。也就是说，测量工具是否可信，与测量对象是否保持一致有关。检测一种测验是否可信的直接方法之一是计算重测信度（test-retest reliability），即对于同一个人、同一个测验，在两种情况下所测结果的相关程度。相关系数最高可达到+1.00。这就意味着在不同的时间点上，得分的模式是相同的。第一次测验时得到最高分和最低分的被试，在重新进行测验时，会有相同的结果。完全不可信的测验的相关系数为0，即第一次测验和第二次测验的分数之间没有任何联系。如某一个人在第一次测验时得到了较高的分数，但在第二次测验中的得分完全不同。相关系数越高（趋近于1），测验的可信度越高。还有两种方法可以用来检测可信度。一是采用变化了的平行信度（parallel forms），而不是同一测验进行两次。采用平行测验可以减少测验的练习效应、对测验问题的记忆，以及被试力求两次测验表现一致的愿望。可信的测验在平行测验中的成绩与原始成绩相当。另一种方法是对单个测验进行内部一致性（internal consistency）检验。例如，对奇数项目和偶数项目的成绩进行比较。在可信度较好的测验中，这两部分成绩相当，这时可称为内部一致性较好，具有分半信度（split-half reliability）。在多数情况下，不仅测量工具本身要可信，运用工具的方法也要可信。如果研究者希望观察在教室里的孩子们的不同攻击性水平，他们就需要制定编码方案，以使他们进行适当的区分。这一方案要可信，要使所有观察到同一个孩子的同一行为的人都会给予相似的评分。这也是为什么在精确的心理测量实施之前，要对主试进行相当多的训练的原因之一。他们必须学会以一种可信的方式、采用同一个区分系统来施测。效度测验的效度（validity）是指测验能够测得的它所要测定的东西的程度。对智力的有效测验可以检测智力的特质，预测人们在智力参与十分重要的情境下的表现。创造力的有效得分应该是反映了人们真实的创造力，而不是绘画能力或是情绪等。一般来说，有效性反映了测验对行为或结果（与测验目的或设计相关）进行准确预测的能力。有三种重要的效度：表面效度、效标效度和结构效度。第一种效度是建立在测验的表面内容之上的。如果测验项目看起来与感兴趣的特性直接相关，那么测验具有表面效度（face validity）。表面有效性的测验是很直接的--它们通常是问测验者想知道的问题：例如，你感到有多焦虑？你是否具有创造力？此时测验者希望参加测验的人能够准确而真实地回答问题。但是，表面效度并不能保证测量的准确性。首先，人们对其自身的知觉并不准确，或者他们不知道在与别人的比较中他们应该怎样评价自己。第二，如果一种测验对于某些特性的测量太明显，会使被试操纵他们希望造成的印象。一个经典的例子是，当精神病院的病人不想离开他们所熟悉的环境时会怎么做。我们如何知晓？病人操作了精神病医生的测量医护人员会询问这些慢性精神分裂症病人的症状和障碍。当对他们进行迁移访谈，以评价是否可以将他们移到开放的病房时，这些病人通常会给予正性的自我评价。但是，如果访谈的目的是评价他们出院的可行性，病人则会给予更多的负性自我评价，因为他们不想出院。对访谈获得数据进行评估的精神科医生，如果没有意识到由于访谈目的不同所引起的实验变异，就会认为那些有更多负性自我评价的病人的障碍更严重，并建议他们不要出院。因此病人达到了他们想要的评价结果。精神科医生的评价还会受这样一种想法的影响，即那些想留在医院的人的障碍更严重（Braginsky & Braginsky,1967）。这个例子清楚地表明，测验编制者不能只依赖具有表面效度的测量，让我们来考察其他类型的效度，它们能够克服上述的一些缺陷。为了评价效标效度（criterion validity，也称为预测效度,predictive validity），心理学家要将某一个人的测验成绩与他或她在其他标准（与测验相关）上的成绩相比较，例如，如果测验是为了预测人们在大学中是否成功，那么大学成绩就是合适的标准。如果测验成绩与大学成绩高度相关，那么这一测验就具有效标效度。测验设计者的主要任务之一就是找到合适的、可以测量的标准。一旦效标效度可以由测量工具测得，研究者就会很有信心用这一工具进行进一步的预测。这就是大学入学考官问你SAT考试成绩等一类问题时采用的逻辑。在过去，SAT成绩与人们在大学时的一些表现成正相关。基于此，管理者会采用它来对你的大学生活进行预测。一种测验是否有效的条件是特定的，因此很重要的一点是，对一种测验要考虑“基于何种目的它是有效的”。知道一种测验与其他测验是否相关，会对人类行为的测量、结构和复杂性提供一些新的信息。例如，如果你设计了一个测验来测量学医的学生应对应激的能力，然后你发现，测验的分数与学生应对课堂压力的能力很相关。你假定你的测验与学生处理医院急诊的能力也相关，也就是说，你的测验在某些情境下是适用的，但不同的应激类型有不同的结果。你会改编你的测验，以使它能说明在医院急诊室中的特殊应激源。让我们来考虑一下信度和效度之间的关系。信度是某一测验与其自身（在不同时间，或采用不同的项目测定）的相关程度，而效度是测验与外部（另一个测验、行为标准或评价者的评分等级）的相关程度。通常，不可信的测验也没有效度，因为不可能预测自己的测验也不能预测其他。例如，如果你的班级今天进行了攻击性测验，其得分与明天的平行测验之间没有相关（表现为不可信），那么这两天的成绩都不可能预测在一周的时间里，哪一些学生更可能打架或急论更频繁。毕竟这两个测验分数不能得出相同的预测！另一方面，很可能具有较高信度的测验没有效度。例如，你可能想像我们决定用你的成人身高来评价智力。你是否看出了为什么它是可信的，但不是有效的？常模和标准化我们已有了可信而有效的测验，但是我们仍需要采用常模来解释不同的测验分数。例如，你可以想像在测量抑郁程度时，你得了18分。它说明了什么？你是轻度抑郁，还是完全不抑郁，或是中等抑郁？为了说明你所得分数的意义，你会将你的成绩与其他学生的典型的分数、或是统计常模（norm）做比较。通过查看测验的常模，你会知道分数的大致范围，以及在你的年龄和性别范围内的平均数是多少。这会给你提供一些线索来解释你的抑郁分数。你可能在收到你的能力测验分数，如SAT时，见过测验常模。常模会告诉你，与其他人的成绩相比，你的成绩如何，这会有助于评价你在正在人群中的相对位置。当进行比较的组中有很重要的个体信息，如年龄、社会地位、文化和经验时，组的常模对于解释个体成绩非常有用。为使常模有意义，每个人必须在标准情境下参加同一测验。标准化（standardization）是指在同一条件下对所有人、以同样的方式实施测验。标准化的必要性看起来是很明显的，但在实践中并不总能做到。一些人会比其他人有更多的机会对指导语有清楚和详细的解释，他们可以提问题，或得到测验者的激励以做得更好。来看一下作者之一的经历：作为一名耶鲁大学的研究生，我进行了一个测验来评价小学班级里的孩子们的焦虑程度。在开始前，一名教师告诉她的学生：“我们将从这种新的问题游戏中得到乐趣。这个年轻人会同你们一起进行这个游戏。”在准备同一测验时，另一个班的老师则提醒学生：“这名耶鲁大学的心理学家将要给你们进行一个测验，看你们正在想什么。我希望你们好好表现，以显示我们班有多么好！”（Zimbardo,个人交流，1958）你能够将这两个班级的“同样测验”的成绩直接进行比较吗？回答是“不行”，因为测验没有在标准化的情境下实施。在这个例子中，第二个班的学生在焦虑测验中得分较高。当实验程序不包含明确的关于测验实施方法的指导语，或是对结果计分的方法，那么就很难解释一个测验的分数究竟说明了什么，如何与其他组相比较等。我们已经回顾了研究者在编制测验时的一些考虑，而且知道它是否的确测试了他们想测的东西。他们必须使他们自己确信测验是可信的、有效的。他们必须确定实施测验的标准条件，以使结果的常模有意义。因此，对任何测验，你应该根据测验的信度和效度、操作的常模以及测验环境的标准化程度来评价测验分数。我们现在准备转向对智力的测量。小结心理测量关注于个体差异，它所检测的是个体与其他人的相似和不同之处。测量的形式在古代中国就已发展起来。在西方，弗朗西斯·高尔顿爵士是智力测验的理论和实践的先锋。不幸的是，他也相信生物意义上的“上等人”和“低等人”的荒诞说法…… 合适的测量既是可信的--即对同一个人在不同时间施测得到相同的分数，也有有效的--即他们对于想测量的结果提供准确的信息。测验实施的标准化、测验分数与相关人群常模的可比性也很重要。智力测量你或你的朋友的智力水平如何？为了回答这一问题，你必须首先定义智力（intelligence）。这并不是一项容易的任务，但52名智力的研究者同意如下定义：“智力是一种一般的心理能力，与其他事物一样，包含推理、计划、问题解决、抽象思维、理解复杂思想、快速学习和从经验中学习等能力”（Gottfredson,1997a,p.13）。由于有这么多方面的能力，你会立刻明白为什么争论总是围绕着智力如何测量这一问题。理论家们定义智力和高级心理功能的方式，极大地影响着他们试图去测定它的方法（Sternberg,1994）。一些心理学家相信人类的智力可以定量并归结为一个分数；另一些人认为智力具有多种成分，可以分别测量；还有一些人认为依据不同的经验范围，实际上人具有几种不同的智力。在这一节里，我们将描述智力测验与这些关于智力的不同概念是如何交织的。让我们首先从对智力和智力测验初次产生兴趣的历史背景谈起。智力测验的起源 1905年，第一次出版了关于可实施的智力测验的出版物。阿尔弗雷德·比奈（Alfred Binet）对法国教育部长的建议--对发育迟滞儿童采用更有效的教学方法--做出回应。比奈和他的同事西奥菲勒·西蒙（Theophile Simon）相信，测量儿童的智力能力对于上述建议的计划和实施是必要的。比奈试图编制一个客观的智力测验，以用来将发育迟滞儿童与正常学龄儿童区分开来。他希望这种测验可以使学校减少对更为主观的、甚至可能是带有偏见的老师评价的依赖。为了定量地测量智力水平，比奈设计了与年龄相当的问题或测验项目，以使可以将孩子们的反应进行比较。测验通常为选择题，这样就可以客观地评价正确与错误，测验的内容可以有所变化，也不受孩子们所在环境不同的影响，而且测验评定的是判断和推理等能力，而不是机械记忆能力（Binet,1911）。他们对不同年龄的孩子都进行了测量，这样不同年龄的正常儿童的平均分数被计算出来。然后每个孩子的成绩与同龄孩子的平均成绩相比较。测验的结果以达到某一特定分数的正常儿童的平均年龄来表示，这被称之为心理年龄（mental age）。例如，当一个孩子的成绩与一组5岁孩子的成绩相当，那么他的心理年龄是5，而不管他的生理年龄（chronological age）是多大。比奈的方法有4个重要特点。首先，他将测验的分数解释为对当前操作的估计，而不是对天生智力的测量。第二，他想使测验分数应用于确认需要特殊帮助的孩子，而不是污蔑他们。第三，他强调训练和机会可以影响智力，而且他也在寻找可以帮助弱势儿童的方法。最后，他用经验编制他的测验--他收集了数据看它是否有效--而不是试图根据一种特定的智力理论来编制。比奈的智力测验的成功发展对美国有很大影响。美国特殊的历史事件和社会-政治力量相结合，使美国人对心理能力的测量产生了兴趣。在20世纪初，美国是一个混乱的国家。经济、社会和政治全球化的结果是数百万的移民涌入了美国。新的全民教育法使学校挤满了学生。这时，需要有一些形式的测量来识别、记录和区分移民的成人和儿童（Chapman,1988）。当第一次世界大战爆发时，数百万名志愿者在征募行列。招聘人员需要知道哪些人有能力学得更快，可以从特殊的领导训练中获益更多。新的、以非词为材料的、成组实施的心理能力测验被应用于170多万名志愿者中。在这种战时紧急状态下，一组优秀的心理学家，包括刘易斯·特曼（Lewis Terman），爱德华·桑代克（Edward Thorndike），罗伯特·耶基斯（Robert Yerkes），仅用了一个月的时间就设计了这些测验（Lennon,1985）。这一大规模的测验计划的后果之一是，美国公众开始接受这样一种观点，即智力测验可以根据领导能力及其他社会重要特性来区分不同的人。这使得测验在学校和工厂被广泛应用。测量被看做是在混乱的社会中注入了秩序，是采用经济的、民主的方法来区分那些能够或不能够从教育和军队领导训练中受益的人。为了推动智力测验的大规模应用，研究者努力开发更有应用性的测验程序。 IQ测验虽然比奈在法国开始了智力能力的标准测量，但美国心理学家很快便领先了。他们也发展了IQ，或是智商。IQ是一种数量化的、对智力的标准测量。有两种个体测量的IQ测验至今还在广泛应用：斯坦福-比奈（Stanford-Binet）测验和韦克斯勒（Wechsler）测验。斯坦福-比奈测验斯坦福大学的刘易斯·特曼以前是一位公立学校的校长，他很肯定比奈测定智力的方法的重要性。他对美国的学龄儿童采用了比奈的测验题，对测验进行了标准化，并通过对成千上万名儿童的测量得到了与年龄相关的常模。他在1916年发表了比奈测验的斯坦福版本，通常被称为斯坦福-比奈测验（Terman,1916）。在特曼的新测验中，他提供了智商（intelligence quotient）的概念，即IQ（由Stern在1914年定义）。IQ是心理年龄与生理年龄的比率乘以100（以去除小数）之后的值。 IQ=心理年龄/生理年龄x100 如果一个8岁的孩子所测得的心理年龄为10，那么他的IQ值为125（10/8x100=125）。而同一生理年龄的孩子如果只完成了6岁孩子的任务，那么他的IQ值为75（6/8x100=75）。那些心理年龄与生理年龄相当的个体的IQ值为100，因此，100是平均的IQ值。新的斯坦福-比奈测验很快成为临床心理学、精神病学和教育咨询中的标准工具。斯坦福-比奈测验包括一系列的分测验，每一个分测验适合一个特定的心理年龄。在1937、1960和1972年，研究者对这些分测验进行了一系列小的改动，以达到以下三个目的：（1）扩大施测范围，以便可以测定很小的孩子和很聪明的成年人的IQ值；（2）更新已不适应社会发展的语词项目；（3）更新常模或年龄相适应的平均分（Terman & Merrill,1937，1960，1972）。更近一些的时候，斯坦福-比奈测验的第四版（Thorndike et al.,1986）进一步提高了测验的信度。最新的斯坦福-比奈测验对正常人群、发育迟滞者和天才人群都提供了准确的IQ估计（Laurant et al.,1992）。注意IQ值不再是个体的心理年龄除以生理年龄。如果你今天做这个测验，你的分数会被加起来，直接和同年龄组其他人的分数相比较。IQ值为100是“平均值”，也就是说有50%的同年龄人比你的分数低（见图10.1）。90-110之间被称为“正常”，IQ大于120为“优秀”。当18岁以下的个体的有效IQ得分为70-75，或者更低，则他们被归为心理迟滞（mental retardation）。但是，如表10.1所示，被认为的心理迟滞的个体还必须适应性技能等方面表现出缺陷（American Association on Mental Retardation，AAMR，1992）。在较早的年代，采用IQ值将心理迟滞者分为轻度、中度、重度和严重（见图10.1）。但是现在的观点强调适应性技能，这使得专家们放弃旧有的定义，取而代之的是更为准确的描述，如果“心理迟滞的人的社会技能和自我指导方面需要广泛的支持”，或是“心理迟滞的人在交流和社会技能方面需要有限的支持”（AAMR,1992，p.34）。韦克斯勒智力测验纽约贝尔维尤医院的大卫·韦克斯勒努力使成人智力测验不再依赖于语词项目。他在1939年发表了韦克斯勒-贝尔维尤智力测验。这一测验包括语词和非语词（操作）测验。这样除了总的IQ值，人们还可以分别估计语词和非语词的IQ值。在经过一些修改之后，在1955年这一测验被叫做韦克斯勒成人智力测验（WAIS），现在为WAIS-R（Wechsler,1981）。 WAIS-R中有6个语词分测验：知识、语词、领悟、计算、相似（指出两个东西的相似之处）和数字广度（重复主试所说的一系列数字）。这些测验包括书面和口头表达两种。5个操作分测验是对测验材料的操作，很少或没有语词形容。例如在木块图测验中，被试要用木块拼出卡片上的图形。数字符号测验是给出9个符号与9个数字分别匹配的规则，被试在另一张纸的符号下面写出相匹配的数字。另一些测验包括填图、图片排列和图形拼凑。如果你来做WAIS-R的这11个分测验，你会得到3个分数：语词IQ值、操作IQ值和总的IQ值。表10.2提供了一些WAIS-R中的例子。表10.2 与WAIS-R相似的问题语词分测验知识 The Great Gatsby 是谁写的？理解当人们说“物以类聚”时是什么意思？计算如果你用8.50美元买了一张电影票，用2.75美元买了一桶爆米花，你可以用 20美元找回多少钱？相似飞机和潜艇有什么相似之处？数字广度请重复以下数字：3 2 7 5 9 词汇仿效是什么意思？操作分测验数字符号主试给出将数字和符号匹配的一个原则，如1、2、3和Φ、Ξ、△，被试依据这个原则用所给的数字或符号完成测验。图画填充被试观察图片，说出图形的哪一部分缺失（如马没有鬃毛）木块图被试将方块排成给定的图案。图片排列被试将一系列卡通图片按顺序排好，使它们能说明一个故事。图形拼凑主试给被试一些卡片碎片，被试将它们拼成一个完整的图形 WAIS-R适于18岁及以上的人群，但也有针对儿童的相应测验（见图10.2）。韦氏儿童智力测验第三版适于6至17岁的儿童；韦氏学前和初级智力量表修订版适于4至6岁半的儿童。近来对这两个量表的修订使得测验材料更有色彩，更有现代气息，对儿童更有吸引力。实验证明它们都有较好的信度和效度。 WAIS-R、WISC-Ⅲ、WPPSI-R组成了智力测验家族，它们可以提供所有年龄段的语词IQ值操作IQ值和总的IQ值。它们还提供了可比较的分测验值，这样研究者可以追踪特定智力能力的发展。由于这一原因，在对同一被试的不同年龄进行施测时，韦克斯勒量表具有特别的价值，例如，它可测定教育方法对孩子的影响。小结现代智力测验起源于阿尔弗雷德·比奈，他试图区分出那些学校里需要特殊帮助的学生。比奈认为，可以根据心理年龄对每一个孩子进行区分。IQ值是心理年龄除以生理年龄的函数。刘易斯·特曼和大卫·韦克斯勒发展了新的IQ测定方法。智力理论到现在为止，我们已经知道了几种测定智力的方法。你会问自己：这些测验是否包含了智力的所有内容？这些测验是否包含了自己智力的所有能力？为了帮助你思考这些问题，我们现在回顾一下智力的理论。当你读到每一种理论时，考虑一下支持这一理论的人是否也以IQ作为测量智力的方法。智力的心理测量学理论与IQ测验相似，智力的心理测量学理论也起源于哲学氛围。心理测量学（psychometrics）是心理学的一个领域，主要是对心理能力进行全方位的测量，包括人格评定、智力评估、和能力测量。因此，心理测量学与测验方法有内在的联系。这些理论在不同的能力测量中寻找统计相关，如WAIS-R的11个分测验，然后基于这些关系得出有关人类智力本质的结论。这一技术统常被称为因素分析（factor analysis），即可以在很多独立变量中，检测出一些小的维度、聚类或因素的统计方法。因素分析的目的是对研究的概念寻找基本的心理维度。当然，统计程序只能找出统计规则，需要由心理学家来对这些规则做出解释。查理斯·斯皮尔曼（Charles Spearman）在智力领域中较早地应用了因素分析，对后人的影响较大。斯皮尔曼发现个体在不同智力测验上的成绩高度相关。他从这一模式得出结论，认为存在一般智力因素，或称为g因素，这是所有智力操作的基础。每个维度还与其特殊智力相关联，即斯皮尔曼定义的s。例如，人们在语词或算术中的操作都依赖于他或她的一般智力和特定范围的能力。雷蒙德·卡特尔采用更为先进的因素分析方法，将一般智力分为两个相对独立的成分，他称之为晶态智力和液态智力。晶态智力（crystallized intelligence）包括一个人所获得的知识以及获得知识的能力，它由语词、算术和一般知识测验来测定。液态智力（fluid intelligence）是发现复杂关系和解决问题的能力，它由木块图、空间视觉等测验来测定，在这些测验中，所需要的背景信息是很明确的。晶态智力使得人们很好地面对自己的生活和具体问题，而液态智力帮助你处理新的复杂的问题。吉尔福德采用因素分析方法检验了许多与智力相关的任务。他的智力结构模型定义了智力任务的三个特性：内容或者信息类型、产品或信息表征的形式、操作或心理活动表现的类型。如图10.3所示，这一模型中有5个内容：视觉、听觉、符号、语义和行为；6种产品：单元、分类、关系、系统、转换和提示；5种操作：评价、聚合、发散、记忆和认知。每一智力任务都包含这三个维度。而且，吉尔福德相信每一个内容-产品-操作的结合（模型中的每一个小立方体）代表一个独立的心理能力。例如，如图10.3所示，语词测验可以测定你的语义内容的认知单元；另一方面，学习一个舞蹈动作需要行为系统的记忆。这一理论模型与化学的周期元素相似。根据这一系统框架，智力因素可以像化学元素一样，在它们被发现之前就被假定。当吉尔福德1961年提出这一模型时，有近40种智力能力已经被确认。现在研究者已经发现了超过100种的智力。由此可见，吉尔福德的智力概念具有预测价值（Guilford,1985）。斯腾伯格的智力三因素理论罗伯特·斯腾伯格（Robert Sternberg）（1985，1988）在他的更为一般的智力理论中，也强调了在问题解决中认知过程的重要性。斯腾伯格提出了智力的三因素理论，认为智力包括三个部分--成分、经验和情境，它们都代表有效操作的不同方面。成分性智力（componential intelligence）是指思维和问题解决等所依赖的心理过程。斯腾伯格认为，有三种成分对信息加工是至关重要的：（1）知识获得成分，可以利于学习新的事实；（2）操作成分，作为问题解决的策略和技巧；（3）元认知成分，用于选择策略、监控认知过程以达到成功。为了考察你的成分性智力情况，请试着做表10.3的练习。你会怎么做这个字谜呢？要完成这些字谜，你通常需要使用操作成分和元认知成分。操作成分可以使你在脑中操作字母，而元认知成分则使你采用策略找到解决的办法。来看一下T-R-H-O-S，你是如何进行心理转换使之成为SHORT的？一个较好的策略是寻找英文中可能的辅音聚合，如S-H和T-H。选择策略需要元认知成分，执行它们则需要操作成分。请注意，一种好的策略有时也会失败。看一下T-N-K-H-G-I，大多数人觉得这个字谜比较难的原因是K-N不像是一个词的开头，而T-H比较像。在看这个字谜时，你是不是也试着以T-H开头？通过将许多任务分解为不同的成分，研究者就可以找出区分不同IQ个体的操作过程。例如，研究者发现，与低IQ学生相比，高IQ学生的认知成分使得他们可以选择不同的策略来解决特定的问题。这种在策略选择上的不同，可以说明为什么高IQ学生有较高的问题解决能力。表10.3 成分性智力的运用以下是字谜游戏。请尽快找出每个字谜的解决办法（Sternberg,1986）。 1.H-U-L-A-G ________ 2.P-T-T-M-E ________ 3.T-R-H-O-S ________ 4.T-N-K-H-G-I ________ 5.T-E-W-I-R ________ 6.L-L-A-O-W ________ 7.R-I-D-E-V ________ 8.O-C-C-H-U ________ 9.T-E-N-R-E ________ 10.C-I-B-A-S ________ 经验智力（experiential intelligence）是指人们在两种极端情况下处理问题的能力：新民的或常规的问题。例如，让我们假定一组人在发生事故之后陷入了困境，你会认为那个能最快帮助人们回家的人很聪明。但在另一种情况下，你会认为能够自动完成常规任务的人很聪明。例如，如果一组人日复一日地重复同一种工作，你会对那些能够成功完成任务且毫无怨言的人印象最为深刻。情境智力（contextual intelligence）反映在对日常事物的处理上。它包括对新的和不同环境的适应，选择合适的环境以有效地改变环境以适应你的需要。情境智力有时被人们称为小聪明（street smarts）或商业头脑（business sense）。研究表明，没有较高IQ的人，也可以具有较高的情境智力。我们如何知晓？在赛马比赛中的情境智力研究者试图通过寻找赛马比赛的规则，来研究IQ与成功障碍赛马比赛之间的关系。30个男性首先预测哪些马会在赛马比赛中胜出，依照预测成绩，将他们分为专家组与非专家组。虽然两组人的平均IQ值相似，都高于100，但在IQ值与专家与否之间几乎没有相关性。专家组有93%的机率正确选择了头马，而非专家组则只有33%的机率。研究者进而发现，专家们是通过类似于统计程序的方式做出正确判断的（Ceci & Liker,1986）。因为每匹马是不同维度因素的组合（生长速度、生长收入、跑道条件、骑师的能力和其他），专家们的成功不能仅归因于对熟悉环境的重复。相反，他们对于这一环境有发达的直觉能力。斯腾伯格的三因素智力理论认为，IQ测验并不能涵盖智力行为的全部内容，他希望不仅仅将个体以高IQ或低IQ进行归类。例如，假定研究者认识到，“不聪明”的人是因为不能编码所有的相关信息，所以他们在完成特定的任务时有困难，那么，如果他们对特定的成分进行练习，就可能以一种“聪明”的方式来进行操作。这时成分性智力可以被加强。同样的，斯腾伯格相信，人们可以提高经验智力和情境智力（Sternberg,1986）。通过对行为中成分性过程的适当理解，研究者能够采用一些技巧，使每个人的操作都“看起来聪明”。加德纳的多元智力理论和情绪智力霍华德·加德纳（Howard Gardner,1983,1999）也提出了一个超出IQ测验定义的理论。加德纳确定了涵盖人类经验范围的许多智力。每一种能力依据某一社会对它的需要、奖赏以及它对社会的作用，在不同的人类社会中的价值也不同。如表10.4所示，加德纳归纳了8种智力。加德纳认为，西方社会促进了前两种智力的发展，而非西方社会对其他智力更为注重。例如，在西太平洋岛群的卡罗琳岛，船员们必须能够在没有地图的情况下，仅仅依靠他们的空间智力和身体运动智力航行很长一段距离。在那个社会中，这种能力比写出一篇学期论文更重要。在巴厘岛，艺术行为是日常生活的一部分，因而流淌在优美舞步中的音乐智力和潜力更为宝贵。与美国等个性化的社会相比，日本这样的群体社会更强调合作行为和公众生活，因而人际间智力更为重要（Traindis,1990）。评价这些智力不仅仅需要纸笔测验，也不能简单地定量。加德纳的智力理论认为，应该对个体在许多生活情境下的行为进行观察和评价，并将传统的智力测验视为生活的一个很小的缩影。近年来，研究者开始探讨另外一种智力--情绪智力--它与加德纳的人际间智力和心智力的概念相关（见表10.4）。情绪智力（emotional intelligence）可定义为4个主要成分（Mayer & Salovey,1997;Mayer et al.,2000）：准确和适当地知觉、评价和表达情感的能力。运用情感、促进思考的能力。理解和分析情感、有效地运用情感知识的能力。调节情绪，以促进情感和智力发展的能力。这一定义反映了情感在智力功能中起正性作用的新观点--情感可以使思维更聪明，人们可以聪明地思考他们和其他人的情感。让我们设想这样一种情境，老师在班上提问“伊斯坦布尔的原名是什么”。汤姆虽然看到帕梅拉举起了手，他还是将答案脱口而出：“君士坦丁堡。”你会理解帕梅拉为什么会生气，因为汤姆夺走了她的荣誉。我们可以给汤姆一个高IQ分，但不会给他高EQ分--情商（Goleman,1995）。我们对帕梅拉情感的理解是EQ的一种表现。研究者已编制了一些测验工具，并希望它们有较好的信度和效度。我们如何知晓？测定EQ 一组503名成年人和229名青少年完成了多因素情感智商（Multifactor Emotional intelligence Scale）的测定。这一量表要求被试对一系列情感问题提出解决方法，如确定一种情境会产生何种情绪。参加者的回答由专家和所有完成量表的人来评价。在成年人和年轻人中，EQ值与IQ值只是略有相关，这提示我们，EQ所测的是与传统IQ不同的能力。而且成年人的得分较年轻人高，说明EQ有重要的环境成分。最后，在这个新的情绪智力的量表中，女性的情绪知觉显著优于男性（Mayer et al.,1999）。为什么女性比男性的EQ值要高？你是否认为这是天生的--女性是为某种角色而做进化上的准备？还是和后天培养有关--女性的社会化对情绪更为敏感？（Brody,1997;Eisenberg et al.,1998;LaFrance & Banaji,1992。）我们对于智力测验和理论的论述，为使智力问题具有如此争论性的社会环境的煽动性讨论创造了条件。小结查理斯·斯皮尔曼相信智力由一般智力（g）和特殊智力（s）组成。其他心理测量研究者试图对智力进行更细的区分。斯腾伯格提出人们有三种智力：成分性、经验性和情境性智力。加德纳扩展了智力的范围，认为有8种智力，这超出了传统IQ测验的范围。情绪智力反映了个体有效运用和思考情绪的能力。智力的政治我们已经看到，现代智力的概念抛弃了将IQ值与人的智力相联系的狭窄认识。即使这样，IQ测验在西方仍是对智力最常用的测量。因为IQ测量的盛行，以及IQ值的可用性，根据平均IQ来比较不同组变得很容易。在美国，这种对种族人群的比较常常作为他们天生就是下等人的证据。我们将简要介绍这一采用IQ测验来标记人群的历史，然后我们来看一下关于智力与IQ成绩的先天和后天的证据。你会发现这是一个在心理学中最具政治敏感性的话题之一，因为移民额度、教育资源分配和其他公共政策都依赖于对组IQ值的解释。组间比较的历史早在20世纪初，心理学家亨利·高达德（Henry Goddard）就提倡对所有移民进行心理测验，并严格排除那些有“心理缺陷”的人。这种观点的出现是因为美国国内有一种反对移民群体的社会气氛（Cronbach,1975;McPherson,1985;Sokal,1987）。的确，国会通过的1924移民限制法案，使得移民在到达纽约港和埃利斯岛时进行智力测验成为一项国家政策。根据IQ测验的得分，众多犹太人、意大利人、俄罗斯人和其他民族的移民被称为“低能者”。一些心理学家将这些统计发现解释为：与欧洲北部和西部的人相经，从欧洲南部和东部来的移民天生是下等人（Ruch,1937）。但是这些“下等人”对于IQ测验中的主流语言和文化最不熟悉，因为他们是最新近移民来的（经过几十年，IQ测验中的这种组间差异已完全不存在，但是智力的天生种族理论仍然存在）。高达德和其他人在解释低IQ值与种族遗传和起源之间的联系上走得更远。他们将低IQ值与没有道德、心理缺陷和不道德的社会行为等相联系。他们的观点来自于对两个不著名家族的个案研究：尤克（Juke）家族和卡利卡克（Kallikak）家族。他们宣称这些家族被追踪了好几代，研究显示家族基因中就有不好的成分，因而不可避免地生出了有缺陷的后代。我们如何知晓？ “天生下等”的家族在纽约州，研究者追踪了有“尤克血液”的2000多个家族成员（至1875年），因为这一家族有发育迟缓、行为不良和犯罪的记录。在这些家族成员中，458人发育迟缓，171人有犯罪记录，还有数百名亲戚是“乞丐、放纵者和妓女”。这一研究得出的结论是，遗传在这个声名狼籍的家族的不良发展中起主要作用。高达德对卡利卡克的个案研究也得出了相同的结论。卡利卡克的家族树中有“好的种子”，也有“不好的种子”（在高达德的研究中，他称这一家族为卡利卡克，是取希腊语好-坏的意思）。马丁·卡利卡克是一名解放战争中的战士，他的一个儿子是他与一个有发育障碍的女子的私生子。他们的后代共有480人。高达德认为，这些人当中只有46人是正常的，另有143人有身心缺陷，而其他成员普遍有犯罪、酗酒、心理障碍和违法行为。相反，马丁·卡利卡克后来娶了一个“好女人”，他们的后代有496人，只有3个有身心缺陷。高达德发现这种高质量结合的后代很多都很“优秀”（1914）。高达德开始相信，遗传决定智力、天才和优秀等方面。在负性方面，他列举了行为不良、酗酒、浮荡和发育不良，甚至贫穷（麦克弗森，1985）。高达德的遗传劣等的论点得到了以下事实的支持：在第一次世界大战时的军队智力测验中，美国黑人和其他有色少数民族的成绩低于大多数白人。在帮助收集美国有色少数民族的相关数据时，促进美国IQ测验发展的路易斯·特曼对此进行了不科学的评论：他们的迟钝看起来是有色的……现在看起来不可能使社会相信他们不应该生育，但从优生学的观点来看，他们的多产带来了很大的问题。现在名称改变了，但问题仍旧存在。在今天的美国，美国黑人和拉丁美洲人在标准智力测验中的平均分数要比亚裔美国人和白人低。当然，在所有的组中都有极高IQ值和极低IQ值的个体。对于这种IQ得分的组间差异应该如何解释？美国和英国的传统是将这种差异归因于遗传低下（天生论）。当我们讨论了IQ的基因差异的证据之后，我们还要考虑第二种可能性，即环境（教育）对IQ的重要影响。任何一种解释或其联合外的有效性，都有重要的社会、经济和政治后果。遗传与IQ 研究者如何确定智力在多大程度上由遗传决定的？任何回答都需要研究者找到一些测定智力的方法。因此，在抽象意义上的“智力”如何受遗传影响的问题，在多数情况下变成了智力在同一家族中是否相似的问题。为了回答这个更为局限的问题，研究者需要将基因和环境的影响区分开来。一种方法是比较同卵双生子、异卵双生子和其他基因有重叠的亲戚的功能。图10.4表示了根据基因关系形成的个体IQ值的相关程度（Plomin & Petrill,1997）。如你所看到的，基因越相似，其IQ值越接近。（你会注意到在这些数据中，环境的作用也被显示出来，因为被一同抚养的人的IQ值极其相似。）研究者试图运用这种方法所得的结果来评价IQ的遗传性。某一特质的遗传性评价（heritability estimate），如智力，是指基于这一特质的得分可归因于遗传因素的变异比例。在一组给定的人群中（例如，大学生或精神病人），对所有测验得分进行变异计算，然后确定总变异的人），对所有测验得分进行变异计算，然后确定总变异的多少比例是由于遗传或天生的因素。通过比较有不同基因重叠人群的成绩，可得出上述结论。有研究者对IQ遗传性的研究进行了综述，他们得出的结论认为，大约有50%的IQ变异是由于基因造成的（Grigorenko,2000;Neisser et al.,1996;Plomin & Petrill,1997）。但更为有趣的是，遗传性随年龄而增长：在4-6岁时遗传性为40%，到了成年为60%，到了老年为80%！许多人认为这一结果很奇怪，因为看起来随着年龄的增长，环境因素的作用更大而不是更小了。研究者是这样解释这一反常的结果的：“很可能基因的规划使得环境促进了我们的基因特质，因而使遗传性变大”（Plomin & Petrill,1997,p.61）。让我们来看一下使基因分析变得有争议的部分：在美国黑人和白人之间的得分差异。在几十年前，他们的IQ差异为15，但随着时间的流逝，现在这一差距大约为7-10。虽然差距变小提示了环境的影响，但持续存在的差异仍然使很多人认为，在人种之间有不可逾越的基因差异。但是，即使IQ是高度遗传的，这种差异是否是由于在低分人群中的个体基因低下造成的？回答是不。遗传性是对于一个组内的估计，它不能用于对组间比较的解释，不论在客观测验中的组间差异有多大。遗传性估计只与给定的个体人群的平均值相关。例如，即使我们知道身高的遗传性很高（大约为90%），你还是不能确定你的身高有多少可以归因于遗传的影响。同样的论述适用于IQ。即使有高的遗传性估计，我们也不能确定与个体IQ或是组的IQ值相关的特定基因的贡献。一组有色人种的IQ得分低于另外一组，并不意味着这种差异是天生的，即使在同一组内的IQ得分的遗传性估计较高。遗传性不能解释全部组间差异的另一个原因与差异的相对大小有关。尽管有平均数的差异，但各个组的得分分布有很大的重叠：与每个组内的个体差异相比，组间差异要小得多（Loehlin,2000;Suzuki & Valencia,1997）。一般来说，不同种族基因的组间差别，比同一组内不同个体的基因差别要小（Gould,1981,Zuckerman,1990）。而且在美国，种族更多的是一种社会结构，而不是生物结构。来看一下著名的年轻高尔夫运动员泰格·伍茨，虽然他的真实出身非常复杂（他的祖先有白人、黑人、泰国人、中国人和本土美国人），但他常被歧视性地称为美国黑人。社会判断并不依据生物的真实性，对此伍茨是一个很好的例子。同样地，将IQ差异与社会地位等相联系是很危险的，似乎这些差异是基于生物基础的（Suzuki & Valencia,1997）。研究者已找到一些方法，通过测试来确定黑人是白种人或欧洲人的出身。在美国，由于异族结婚，“黑人”群体中大约有20%-30%为欧洲人。如果“黑人”有或多或少的欧洲人基因，那么在IQ得分上是否有差异？基因论者认为是这样。但结果显示，有欧洲祖先的程度与IQ值的相关度很低（在许多实验中只有0.15）。的确只是将皮肤颜色或血液作为种族融合的指标。德国孩子由美国黑人GI或是美国白人GI抚养，其IQ值没有差异。而且，如果母亲是白人，混血儿的IQ值要高出7个百分点。这种差异可能是由于母亲对孩子智力的社会化贡献大于父亲。当然不能归因于任何基因因素，因为每个父母对孩子的贡献是相同的（Loehlin,2000;Nisbett,1998）。可以肯定，基因在个体IQ测验中起着相当大的作用，如同它对其他物质和能力的作用一样。但是，我们反对用基因来解释不同种族人群的IQ差异。它是我们理解这种操作差异的必要条件，但不是充分条件。现在，让我们转向关于环境在IQ差异中所起作用的论述。环境与IQ 由于IQ的遗传性估计小于1.0，因此我们知道，遗传并不是单独作用于IQ，环境也一定影响着IQ。但是，如果评价环境的哪些方面对IQ有重要影响呢？在你所处的环境中，是什么特性影响着你IQ测验得分的潜力呢（Beiser & Gotowiec,2000;Ceci,1999;Rowe,1997;Suzuki & Valencia,1997）？环境是在多种维度上变化的复杂刺激的组合体，它既是物理的又是社会的，其接受作用的方式也不同。即使在同一家庭中的孩子也不是分享同一种心理环境。回想一下你在家庭中的成长经历。如果你有兄弟姐妹，他们是否得到了父母同样的关注；同否随时间不同，感到的家庭压力也不同；是否家庭的财源有所变化，是否父母的婚姻状况有所变化？很明显，环境包括很多成分，这些成分总是处于动态关系和变化之中，因此对于心理学家来说，很难说清楚是哪些环境条件，如注意力、压力、健康和战争等等，真正影响着IQ。研究者总是关注于更为一般的对环境的测量，如家庭的社会经济状况。例如，在对26 000多名儿童进行的大规模纵向研究中，对4岁孩子IQ值的最好预测器是家庭的社会经济状况和母亲的教育水平。对美国黑人和高加索儿童的调查也得到了相同的结果（Broman et al.,1975）。相似地，图10.5表示了社会地位对IQ的总体影响。为什么社会地位会影响IQ呢？富裕和贫穷在许多方面能够影响智力能力，其中对健康和教育资源的影响是最明显的。孕期健康状况不好和出生时低体重，对于孩子的心理能力低下是较强的预测因子。出生在贫穷家庭的孩子们通常没有很好的营养，许多孩子饿着肚子去上学，因而无法将精力集中在学习上。不仅如此，他们还缺少书、本、计算机和其他心理刺激物。父母的“生存导向”，尤其是在单亲家庭，会使他们没有时间和精力陪孩子们玩，用智力刺激孩子们，而这会对标准IQ测验中的操作造成负面影响。最后，如同世界上的多数国家，在我们的社会中，生活在贫穷条件下的人们是受歧视的，即使在日本这样的种族一致的社会中也是如此。例如，布拉卡明是日本社会最低阶层的成员，他们的IQ值要比其他日本人低15%（Ogbu,1987）。这种社会耻辱会对个体的自我完善起负面影响，也会影响他们的考试成绩和在校表现。如果真是这样，我们应该可以看到丰富环境对孩子们的正性作用。我们如何知晓？环境对IQ的影响一名研究者研究了从2岁起由中等阶层白人家庭抚养的两组孩子（Moore,1986）。一组9个孩子的双亲都是黑人；另一组14个孩子的父母，一个是黑人，一个是白人。在7-10岁时采用WISC测定每个孩子的IQ值。双亲均为黑人的孩子的平均IQ值为108.7，另一组孩子的平均值为107.2.如图10.6所示。这些IQ值都比美国黑人的IQ平均值高（Lynn,1996）。需要强调的是，造成IQ差异的并不是种族，而是在我们的社会和大多数国家中，与种族有关的经济、健康和教育资源。在某种意义上，研究者在20世纪的后30年试图发挥社会的作用。1965年开始的由联邦政府资助的领先计划（The Head Start Program），旨在强调“低收入儿童的身体健康、发展、社会、教育以及情绪的需求，并通过强有力的和支持性的服务，提高家庭抚养孩子的能力”（Kassebaum,1994,p.123）。领先计划的思想不是使孩子们进入优越的环境，而是发送他们出生后的生长环境。孩子们接受特殊的学前教育，接受每天的美餐；他们的父母接受抚养健康孩子和其他方面的建议。对领先计划效果的早期评价只是集中于IQ和其他成就测验成绩的提高上。事实上，孩子们参加这一计划仅几个星期，他们的IQ分就提高了10个点。不幸的是，当他们完成这一计划后，这些IQ分数的增长又消退了（Barnett,1998;Zigler & Muenchow,1992;Zigler & Styfco,1994）。这一模式有两点启示：IQ受环境影响；但丰富的环境要保持。后来，领先计划的效果评估已不仅仅是测定IQ。来自经验的文献……提供了好的和坏的消息。坏消息是，不论是领先计划还是其他学前计划都不能使孩子们摆脱贫穷的影响。早期干预不足对抗窘迫的日常条件、营养不足、缺乏健康关怀、角色模式和非正规学校的影响。但好的计划可以使孩子们为上学做好准备，而且很可能帮助他们发展更好的应对和适应技能，以使他们今后更好地--尽管不是极好地--生活（Zigler & Styfco,1994,p.129）。如果我们采用更为宽泛的智力定义，而不仅仅是IQ测验中的语词和操作任务，环境的影响就更清楚了。丰富的、充满支持的环境对于成功的、充满智慧的、烦琐的、适应情境的操作是一种很好的预测器。文化与IQ测验的有效性如果IQ值的预测功能不强的话，人们对它也不会如此关心。深入的研究表明，IQ得分可以很好地预测人们在学校中的成绩，包括从小学到大学，以及职业状况和许多工作中的表现（Brody,1997b,Gottfredson,1997b）。这些结果提示，IQ成绩对于测量智力能力是有效的，这些智力能力是通向西方文化所认可的成功的基础和重要因素。通过IQ所测得的智力水平直接影响着成功。通过改变某人的动机和信念，IQ差别也可以间接地影响其学术和工作成绩。那些有高IQ得分的人很可能在学校时有更多的成功经历，因而会变得更主动地学习，拓展成就方向，并对他们的做事能力持乐观态度。而那些IQ得分较低的人会在学校、班级和各项计划中都被冠以低能，从而降低学生的自我竞争感。从这点来看，IQ可以受环境影响，反过来，IQ也可以为孩子创造新的环境--有一些更好，有一些更差。因而IQ测量变得很有命运感，而不管孩子隐含的智力天资如何。虽然IQ测验的主要用途被证明是有效的，但观察者仍对它是否可以在不同文化和种族中进行比较提出疑问（Greenfield,1997,Samuda,1998,Serpell,2000）。许多形式的测验和测量都与智力的文化观点或适当的行为不相匹配。让我们来看一看在教室中所发生的负性评价：当拉丁美洲移民的孩子走进教室，他们被告之理解重于谈话，尊重老师的权威胜于表达自己的意见，这导致了负性的理论评价……因此，尊重地倾听在这种文化中是有价值的交流模式，但在以大胆说话为有价值的交流模式的社会中则被冠以负性评价。（Greenfield,1997,p.1120）这些移民的孩子必须学会在美国的教室中如何表现，以使老师相信他们是聪明的。对IQ测验的一个普遍的考虑是，它们对不同文化的人们具有某些偏见：批评者认为，IQ的组间差异是由于测验问题的系统误差造成的，这使IQ测量对于少数民族而言是无效而不公平的。但是，即使测验能够做到更为“文化公平”，仍存在种族间的差别（Neisser et al.,1996）。实际上，测验的情境要比测验的内容存在更多的问题。克劳德·斯蒂尔（Claude Steele,1997;Steele & Aronson,1995,1998）争辩说，人们在能力测验中的成绩受刻板印象威胁（stereotype threat,又称为定势攻击，steretype vulnerability）的影响，即某一组人冒着受负性定势影响的威胁。斯蒂尔的研究提示，在一些情况下，负性定势的信念可以带来较差的操作。我们如何知晓？刻板印象威胁的影响在一项研究中，黑人和白人大学生都努力回答研究生入学考试中很难的语词问题。一半学生被引导着相信他们的成绩是对他们智力能力的诊断；另一半则只被告只，实验所关心的是在问题解决中的心理因素。刻板印象威胁理论提示，在情境中受到刻板印象威胁影响的人表现比较差，如在智力能力诊断组的黑人。如你所看到的图10.7的A部分，结果证实了这一假设。当黑人学生相信实验成绩可以用来检验他们的智力时，他们做得较差（Steele & Aronson,1995）。刻板印象威胁的逻辑可以应用到任何具有低成绩定势的群体。例如，定势提示女性在数学能力上不如男性。如图10.7的B部分所显示的，在一次较难的数学测验中，只有当学生被告之会有性别差异时才有差异（Steele,1997）。也就是说，在测验之前，性别差异组的学生被告知过去这一测验有性别差异，结果他们的成绩也一样有了性别差异。注意，在第一项研究中，重要的是测验实施者如何定义情境。只有当人们相信这一情境与定势相关时，例如，人们相信测验可以测量智力时，定势的知识才会影响表现成绩。你是否认为在没有刻板印象威胁时也有可能测定IQ？如果不可能，研究者也就不能确定“真正的”操作了。最后来考虑一下智力和文化。从整体来看，美国有一种倾向于用基因来解释个体差异的文化偏见。哈罗德·史蒂文森和他的同事（1993）花了几年的时间来追踪中国、日本和美国儿童的数学能力。在1980年，亚洲儿童的成绩均高于美国孩子。在1990年，这种差异仍旧存在，“只有4.1%的中国儿童，10.3%的日本儿童的成绩与美国儿童的平均成绩一样低”。是否亚洲儿童先天优秀呢？事实上，对此问题的回答美国人更有可能说“是”。当史蒂文森和他的同事要求亚洲和美国的学生、老师和家长比较“努力学习”和“天生聪明”的重要性时，亚洲人更强调努力工作，而美国人的回答则强调天生的能力。你是否明白这种观点是如何导致美国人认为亚洲人在数学能力上具有先天优势？因为这样的认识有公共政策的意义：如果美国人不可能在数学上领悟更多，应该花多少钱用于数学教学？在智力方面哪些可以改变，哪些不可以，这方面的深入研究很重要。小结高达德帮助开创了宣称一些有色人种先天低等的不幸传统。行为遗传学的分析表明，IQ有很大的基因成分。但是IQ的测量经常是有政治性的，因为在IQ测量中有种族差异。研究者确认环境对IQ有重要作用。虽然IQ对于人们学校和工作生涯的成功有很好的预测作用，但是对不同种族和文化群体的IQ进行比较是无效的。例如，当对一些人群进行智力测验时，他们受到刻板印象威胁的影响。创造力在我们结束有关智力及其测量的内容之前，我们希望转向创造力的话题。创造力是指就特定环境而言，个体产生新异的和合适的思想和产品的能力（Sternberg & Lubart,1999）。来想一下车轮的发明。东西是新异的，因为从前没有人见过对圆形物体的应用。由于新物体的用途很清楚，因而它是合适的，否则新思想和新物体通常会被认为是奇怪的和不相关的。我们之所以把对创造力的讨论放在智力这一章，是因为许多人相信，在智力和创造力之间存在很强的相关。为了确定这是否是事实，我们需要首先测定创造力，然后确定创造力和智力之间的关系。因此，我们先讨论判断思想和产品是否具有创造力的方法，再看它与智力的关系。下一步，我们会研究特殊创造力的情境，评价创造力和疯狂之间的关系。我们将会看到，你会从那些具有特殊创造力的人们身上学到什么。评价创造力及其与智力的关系你如何评价个体相对而言有没有创造力？许多方法集中于发散思维（divergent thinking），即对于一个问题可以产生许多不寻常的想法的能力。检测发散思维的问题使测验编制者有机会明确液态（敏捷）和灵活的思维方式（Torrance,1974;Wallach & Kogan,1965）：命名所有你能想到的正方形的物体。在3分钟之内，说出尽可能多的白色、可食用的物体。列举你所能想到的砖的用途。可以对答案按照以下维度给分：流畅性，即独特想法的总数；特别性，即在适当的例子中，没有被别人说到的想法数；非普通性，例如少于5%的人给出的想法数（Runco,1991）。以这样的方式对创造力进行评价，测验就提供了一种行为指标，使它可以和其他测验进行相关分析。在许多情况下，研究者关心发散思维测验与IQ测验的关系。通常会出现以下的模式：当IQ值为120左右时，两种测验之间的相关性很小或中等；如高于120，则其相关程度下降（Sternberg & O'Hara,1999）。为什么会这样呢？一名研究者指出，“智力在某种程度上使创造力能够施展，但并不促进它”（Perkins,1988,p.319）。也就是说，一定水平的智力会使人有机会进行创造，但人们通常不利用他或她自己的这种机会。创造力的研究者通常认为，发散思维测验与传统的智力测验和IQ测验本身都太接近（由此可以解释在IQ值为120范围内的相关性）（Lubart,1994）。另一种判断某人是否有创造力的方法是，要求他们提供有创造力的作品，包括绘画、写诗和写短的故事，然后评判者对每一件作品进行创造力的评价。如图10.8所示，这里有两张照片，你认为哪一张更有创造力？你可以解释一下为什么会这样想吗？你认为你的朋友是否同意你的观点？研究发现，当评判创造力的等级时，其一致性相当高。人们可以被可靠地确定为高创造力者或低创造力者。特殊创造力与疯狂有一些特殊的个体在创造力测定中明显偏离正常。当你被问到谁有特殊的创造力时，你会想到谁？你的回答部分依赖于你的专长领域和你的喜好。心理学家会提名西格蒙德·弗洛伊德。对美术、音乐或舞蹈感兴趣的人会提到帕勃罗·毕加索、伊戈尔·费多尔洛维奇或是玛莎·格雷厄姆。是否有可能发现这些人的人格或背景，以预测他们特殊的创造力？霍华德·加德纳选取了一些特殊能力与我们以前所讲的八种智力相关的人，包括弗洛伊德、毕加索、费多尔洛维奇和格雷厄姆。加德纳的分析使他产生了一个有极度创造力的人的生活肖像，他把她叫做E.C.： E.C.发现她对对某未知一领域的问题有特殊的兴趣，这是一个极度兴奋的时刻。在这一点上.上E.C.与她的同辈们无法交流，她必须独自工作。她感到自己正在突破的边缘，虽然她对此还不甚了解。奇怪的是，在这个关键时刻，E.C.渴望认知和情感上的支持，从而使她可以保持她的方向。没有这些支持，她可能会深刻地体会到某种形式的崩溃（Gardner,1993,p.361）。在这篇文章的最后，加德纳暗指了一种非常普遍的对创造者的定势：他们生活在疯狂的边缘，或包括对疯狂的体验。有这样一种思想，最早可以追溯到柏拉图时期，认为伟大的创造力和疯狂有内在的联系（Kessel,1989）。近代社会的克雷佩林认为，患有“躁狂-抑郁症”，也就是双向障碍的人，在其不正常的阶段会有思维自由飞翔的过程，这会促进创造力的产生。如我们在第15章所讲的，癫狂以一个阶段的持续性兴奋为特征，个体通常做事豪爽，感到喜气洋洋。不可怀疑，很多艺术和人类的伟大作品都与这种情绪紊乱有关。但是研究者如何确定个体的正常思维是否受到其心理疾病的影响呢？我们如何知晓？创造力和疯狂为了回答这个问题，创造力的研究者罗伯特·韦斯伯格考察了作曲家罗伯特·舒曼的艺术作品，这位艺术家患有双向障碍。一些数据看起来与疯狂和创造力之间的预想联系是一致的，舒曼在躁狂的年代的作曲数目（平均12.3）要比他在抑郁状态时（平均2.7）的多很多。但是当韦斯伯格对其作品质量进行分析后，这种联系就不存在了。在躁狂年代作品不比在抑郁时的质量高。韦斯伯格的研究提示我们，疯狂（躁狂的形式）对动机会有很大影响。个体会乘着癫狂的波浪进行大量的工作。如果这个人有一定的天赋，他的一些工作，并不是全部，就会很出色，但其比率并不比艺术家在其他时候创作的出色作品的比率更高。一般来说，通过对历史人物的仔细回顾发现，创造力和疯狂之间的关系很小，这使专家阿尔伯特·罗腾贝格下结论：“为了理解人们的内心和其他人所遭受的疾苦而去亲自经受痛苦的想法是错误的，不切实际的”。你从有关特殊创造力的叙述中学到了什么？你可以仿效冒险的模式，高创造力的个体愿意走入“未知的领域”。存在一种准备模式，高创造力的人通常会在他们希望有所成就的领域中花费很多年来获得专业的知识。存在一种内在动机的模式，高创造力的个体从事他们的工作，是因为他们能从所创造的事物中得到快乐和满足。如果你将这些因素都用于你自己的生活，你应该可以提高自己的创造力水平。现在你已经学习了一些心理学家如何测定和解释智力和创造力的个体差异的方法。但是，正如你所知道的，要了解人类，不仅仅要知道他们的智力和创造力如何，还需要做更多的工作。在下一部分，我们将讨论心理学家如何获得关于个体特质的信息，这些特质使每个个体都很独特。小结创造力通常由发散思维测验测得。与一些论调相反，在创造力和疯狂之间没有紧密的联系。但是，创造力需要一定程度的冒险、准备和动机。测量与社会心理测验的主要目的是对人进行准确的测量，其中测量者的判断错误越少越好。通过采用更为客观的测验方法来代替老师、雇主和其他测量人的主观判断。这一目的可以达到。这些测量都进行了仔细的建构，并接受临界评价（critical evaluation）。这一目标是阿尔弗里德·比奈进行其先驱工作的动机。比奈和其他人希望测验能够帮助社会民主化，减少基于性别、种族、国家、特权和外表等随意标准的决定。但是，尽管有这些崇高的目标，但没有一个心理学领域比测量领域更充满争议性。争论的焦点是三个与伦理有关的方面：基于测验的决定的公平性、测量用于教育评价的可行性、以测验分数进行个体分类的寓意。测验公平性的批评者争辩道，对某些测验者而言，其代价或负性后果要高于其他人（Bond,1995）。例如，当少数群体的得分较低时，他们被排除在某些工作之外，这种代价必须通过语词测验，而不是更合适的手工技巧的测试。根据研究者威廉姆·班克斯（William Banks）的看法，这是联邦政府不让少数群体得到工作的策略（1990）。有时少数群体的分数较差是因为他们的分数被拿去与不合适的常模相比。而且，进行选择的方法是对分数进行人为的划定，以优先某一群体。而实际上，更公平的较低的划定分数，会产生更多的雇佣机会。不仅如此，对分数的过度信赖会使人员选拔成为人们适合某一工作的自动尝试。相反，有时通过改变工作描述来适合人们的能力和需要，社会可以受益更多。第二个伦理方面的考虑是，测验不只是帮助评价学生，它在教育塑造上也起一定的作用。通常是根据学生在标准成就测验中的成绩，来判断学校系统的质量和老师的效率。地方政府依据某些测验，通过调整老师的个人所得税给予学校支持。由于与考试成绩存在利害关系，在一些校区中出现了作弊丑闻。例如，在马里兰州的波托马克地区，一名小学校长辞职，因为有充分的证据表明，她在学校的五年级学生得到了更多的帮助来提高测验得分，包括额外的时间和第二次机会等。反对学校的证据来自于学生自己。10岁的孩子们告诉他们的父母，他们被要求或允许撒谎：他们不明白为什么学校中的大人坚持让他们这么做。孩子们的困惑表明，将测验得分看得比教育还重是多么有破坏性。第三个伦理方面的考虑是，测验结果作为不可改变的标签的状况。人们会经常地想起他们自己的IQ分数是110，或是B级学生，似乎得分已被标记在他们的额头。这种标签作用对于成功有很大的障碍，因为人们开始相信心理与自身素质是固定的、不可改变的，因而他们就不可能极大地提高自身的生活质量。对于那些被负性评价的人来说，得分会成为自我影响的动机限制，如他们的自我效能感降低、所愿意接受的挑战变少。这是宣布某组人IQ低下的另一个可怕的后果。那些被公开诬蔑的人开始相信专家们所说的，并且不再将学校和教育作为提高他们生活的途径。这种使测验得分处于神圣地位的趋势具有社会和个人两方面寓意。当测验得分成为确定特性、阶层、失调、冲突和病理的标签时，人们就开始考虑关于孩子的“不正常”，而不是关于教育系统是否应该改变计划以适应所有的学习者。标签关注的是有缺陷的个人特质，而不是他们所处环境的机能失调。在个人主义取向的社会中，如美国，人们把成功或失败错误地归因于个人，而低估了行为环境的影响。我们责备失败者，不再给予他们帮助；我们信任成功者，但没有认识到使之成功的许多社会影响。我们需要认识到：人们现在的存在，正是他们曾在哪里、他们又被引向何方以及当前影响其行为的环境的一种产品。我们想以菲尔·津多巴的个人笔记来总结这一章，它对在客观测验中没有做好的学生们有激励价值：虽然我已经成为成功的职业心理学家，但在许多年前，我参加的相关测验却没有预测到这一点。虽然我是享有最高荣誉的荣誉大学生，我的普通心理学成绩却只得了C，它的考试类型只有多项选择题。我最初申请耶鲁大学的研究生训练時被拒绝，后来我成为候选者，最后我被不情愿地接受了。这部分是由于我的GRE数学得分低于心理学系的划界分。但后来我发现，还有部分原因是一些教员的错误认识--他们根据我的回答模式和我的申请及考试成绩，认为我一定是个黑人。这些数据使他们对我的心理学生涯的潜力的判断产生了消极影响。幸运的是，当他们已认可的候人之一到另一个地方开始他的研究生训练时，其他一些人愿意给我机会。要想在某一职业和生活中获得成功，需要的不仅仅是技巧、能力和标准测验中的篺。虽然最好的测验可以对人们在一般情况下能做多好进行有价值的预测，但对于特定个体则可能会是一个决定性的错误。当在操作中注入了雄心、想像、希望、个人自豪感和努力时，人们完全可以突破悲观的预言。也许明白什么时候你应该更多地相信你自己而不是测验结果。这才是关键的。小结虽然心理测验通常对个体是有益的，但有时也会被不负责任地使用。批评主要集中于基于测验的决定的公平性、测量用于教育评价的可行性和以测验分数进行个体分类的寓意。要点重述什么是测量 ☆ 心理测量拥有很长的历史，开始于中国古代。弗朗西斯·高尔顿爵士对此有许多重要的贡献 ☆ 一个有用的评价工具一定是可信的、有效的和标准化的。可信的测量给出一致的结果；有效的测量可以测定设计测验时要测的特质 ☆ 标准化测验总是以同样的方式进行施测和计分。常模使一个人的分数可以同与其年龄、性别和文化相当的人的平均分相比。智力测量 ☆ 早在20世纪初的法国，比奈就开始了传统的客观的智力测验。他根据心理年龄给出表示儿童现在的功能水平的得分 ☆ 在美国，特曼创制了斯坦福-比奈智力量表，使IQ概念盛行 ☆ 韦克斯勒设计了针对成人、儿童和学前儿童的特殊智力测验智力理论 ☆ IQ的心理测量分析提示，在IQ分数中存在一些基本的能力，如液态和晶态智力 ☆ 通过考察人们在解决问题时所需要的技能和洞察力，现代理论所认为的测量的智力范围得到了非常大的扩展 ☆ 斯腾伯格区分了成分性、经验和情境智力 ☆ 加德纳区分了8种智力，包括了传统的IQ测验及其他。近年的研究集中于情绪智力智力的政治 ☆ 几乎从一开始，智力测验就开始了对有色人种的负性评价 ☆ 由于IQ的高度遗传性，一些研究者将一些种族和文化群体的低分数归因于天生的低等 ☆ 环境的不利和刻板印象威胁似乎可以解释一些人群的低分状况。研究表明，组间差异受环境干预的影响创造力 ☆ 创造力通常采用发散思维的测验测定 ☆ 有特殊创造力的人善于冒险、做准备，并有很高的动机 ☆ 疯狂和创造力之间的关系还没有得到证实测量与社会 ☆ 尽管经常被用于预测和作为当前操作的指标，但测验不应该用于限制个体发展和改变的机会 ☆ 当测量的结果将影响个体的生活时，测量技术对个体和测量目的而言，必须可信和有效关键术语生理年龄创造力效标效度晶态智力发散思维情绪智力情商表面效度液态智力正式测量一般智力因素遗传性评价智力智商内部一致性心理年龄心理迟滞常模平行信度预测效度心理测量心理测量学信度分半信度标准化刻板印象威胁重测信度效度表10.3 答案 1.Laugh 2.Tempt 3.Short 4.Knight 5.Write 6.Allow 7.Drive 8.Couch 9.Enter 10.Basic

                    本文档为【心理学与生活中文版FreeKaoYan10智力与智力测验】，请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑，
                    图片更改请在作品中右键图片并更换，文字修改请直接点击文字进行修改，也可以新增和删除文档中的内容。 
 该文档来自用户分享，如有侵权行为请发邮件ishare@vip.sina.com联系网站客服，我们会及时删除。

                    [版权声明] 本站所有资料为用户分享产生，若发现您的权利被侵害，请联系客服邮件isharekefu@iask.cn，我们尽快处理。

                    本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权，请谨慎使用。

                    网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传，仅限个人学习分享使用，禁止用于任何广告和商用目的。
                

下载需要：免费已有0 人下载

立即下载

心理学与生活中文版FreeKaoYan10智力与智力测验

你可能还喜欢