英国心理学家：IQ测试存大误差得分“看心情”

来源：新京报

2011年06月19日02:04

我来说两句 (0)

复制链接

打印

大中小

　　说到测智商（IQ），人们会想到春晚舞台上，赵本山利用智商测试题，向范伟“营销”一系列商品的成功案例。

　　在现实生活中，智商测试是事关人命的大事。在美国一些地方，如果死刑犯智商测试得分低于70分，可以保命。这是智商测试对人们生活影响的一种极致体现。但这种测试的准确性，真的能承担起如此“重任”吗？英国一位心理学家的研究显示，智商测试题并非那么靠谱。

　　测智商

　　两死囚命不同

　　1998年，弗吉尼亚州男子达瑞尔·罗纳德·阿特金斯，因为抢劫并谋杀了一名空军军官，被法院判处死刑。后来，心理医生对其进行智商测试发现，他的IQ只有59，属轻微弱智，联邦最高法院裁定不得处死阿特金斯。

　　同样在弗吉尼亚州，杀人犯特丽萨·刘易斯2010年因杀死丈夫和继子被判死刑。虽然她曾提出自己智商只有72，但法庭最终没有豁免她。

　　命运的不同，源于法律。美国《宪法》规定任何对智力迟缓人士的处决，都违反了《宪法第八修正案》规定的反对“残忍和非正常的惩罚”。通常70分被视作判定弱智的一条“红线”，“红线”以下的美国死囚会被视作智力迟缓人士而免于死刑。

　　刘易斯的死受到质疑，有人提出，智商测试是否真的能决定犯人的命运？如果一死刑犯智商略高于70，是71，而另一死刑犯是69分，两分之差真能区分谁是弱智，谁不是？更直接的问题是，智商测试评分，真的准吗？对此，一个英国人经过研究给出否定的回答。

　　评结果

　　误差值并不小

　　本月，英国哈德斯菲尔德大学的心理学家西蒙·惠特克提出，对实际智商水平低的人进行的IQ测试，存在较大误差。

　　“理论上，如果参加完美的IQ测试，人的真实智商可以用IQ分数来衡量。但现如今的IQ测试并非无懈可击，特别是在测定低智商人群时，IQ测试更不好使。”惠特克告诉本报记者，他研究的是智商偏低的群体IQ分数低于80分。

　　学术界普遍承认，IQ测试结果与人的真实智商约有5分误差，但是惠特克认为，在低智商人群中，误差远大于此。

　　惠特克研究了两套国际常用检测弱智的IQ测量表韦氏成人智力测量表和韦氏儿童智力测量表。前者针对年纪在16岁到93岁的成人，后者适用于6到16岁的人。

　　测量表的说明书宣称与真实智商误差在4分以内。但惠特克发现，在得极低分数的人中，成人的实际智商可能比所得分高16分，或低26分，儿童的实际智商，可能比得分高25分，或低16分。

　　看心情

　　太紧张不稳定

　　对造成误差的原因，惠特克的解释有些生涩，但也在常理之中，因为都是由非智力的变量造成。

　　在他的论文中，首先讲到概率误差。概率误差由很多因素导致。首先，测试时所处的环境不同，就会使测试结果产生时间性的误差。

　　比如，一个人参加测试当天，心情如何，对当天测试有何想法，都会影响测试结果。

　　这一点，得到伦敦大学金思密斯学院的心理学家托马斯·查马罗·普里莫齐茨的赞同，他认为：“紧张、缺乏自信或者过度自信会影响一个人的测试分数”。一个测试决定生死，这个“筹码”实在太高。“在那种压力之下，大多数人可能无法做到最好。”

　　惠特克将问题延展开：如果参加数次测试，每次测试时的心情，分心次数都不同，这几次测试的结果也不同。哪怕用同一套测试，在两个不同环境里进行重复测试，所得结果都不一致,“我们该放弃用IQ测试来诊断低智商人群了，不能用IQ测试决定囚犯的命运。”惠特克直言。

　　算分数

　　测试题已落伍

　　另一种系统性误差，则和数字联系更紧密。

　　惠特克总结发现，在IQ测试中，被测者会获得原始分，原始分会被转化成标准分。其中，原始分数10-18，依次对应标准分数2-10，而原始分数0-9都对应着标准分数1。

　　这就有一个问题，原始得分是2的人和得分是8的人，转换之后，都得到标准分1分。这样一来，原始分数极低的人，能力就无形被抬高了。

　　而“地板效应（floor effcet）”会让这种误差更加明显。这个效应指的是，当问题难度太高时，造成所有受测人员得分都非常低，导致很难区分受测人员的实际水平。在这一效应影响下，越多的人原始分数集中在0到9，那么就有越多人的能力被夸大。

　　此外，一项名为“弗林效应”研究证明，低智商人群的IQ平均每年上升0.3分。因而惠特克说：“就整体而言，人们的智商在随着时间不断地提高，IQ测试逐渐落伍啦。”

　　找对策

　　测其分观其行

　　最后，由于众多测试系统本身之间的区别，人们在不同的测试系统中得到的分数可能不同。

　　“这就出现了一个问题，究竟哪一个系统能最准确地测试智商？在这种系统缺失的情况下，哪一个是"黄金标准"测试？”惠特克提出质疑。

　　将70分设置成一个智商分界点，在惠特克看来也过分简单。他因此建议，应该观察个人在真实世界里的表现。人们应该用“在需要用智力来完成的任务中，他们是否失败了”，来确定观察对象是否为弱智。

　　那到底该用什么更好的方式来判断一个人的智商呢？

　　惠特克似乎也没有确切答案。他告诉记者：“这取决于测试的目的。我只能说一个简单标准，那就是测试是要在最佳的条件下进行。考虑到弗林效应和下限效应，了解你所采用的测试和其他测试之间的异同和关联，还要将测试结果与个人的其他信息联系起来。最好几天之后，再用其他测试体系，再测一遍。”

　　本报记者冯中豪

　　资料

　　IQ和IQ测试

　　智商（Intelligence　quotient,简称IQ）一词最早出现于1915年，被认为是测量个人智力发展水平的一种指标。IQ测试则源于19世纪，20世纪初已风靡各国，成为众多科学研究、人才培养的重要评判标准。这种测试通常包括常识、理解、算术、类同、记忆、积木等十一个项目，完成整个测验大约需要一小时，汇总分析，写出测验报告约需要一个小时。

　　例题

　　1、如果所有的妇女都有大衣，那么漂亮的妇女会有

　　A.更多的大衣 B.时髦的大衣 C.大衣 D.昂贵的大衣

　　2、填上空缺的词

　　罄竹难书（书法）无法无天

　　作奸犯科（）教学相长

　　3、选项ABCD中，哪一个应该填在“XOOOOXXOOOXXX”后面

　　A.XOO B.OO C.OOX D.OXX

　　4、1 3 2 4 6 5 7 （），“（）”处填什么数字？

　　答案1.C 2.科学 3.B 4.9

(责任编辑：UN100)