搜狐网站
新闻中心 > 国际新闻 > 国际要闻 > 海外博览

英国心理学家:IQ测试存大误差 得分“看心情”

来源:新京报
2011年06月19日02:04
  说到测智商(IQ),人们会想到春晚舞台上,赵本山利用智商测试题,向范伟“营销”一系列商品的成功案例。

  在现实生活中,智商测试是事关人命的大事。在美国一些地方,如果死刑犯智商测试得分低于70分,可以保命。这是智商测试对人们生活影响的一种极致体现。但这种测试的准确性,真的能承担起如此“重任”吗?英国一位心理学家的研究显示,智商测试题并非那么靠谱。

  测智商

  两死囚命不同

  1998年,弗吉尼亚州男子达瑞尔·罗纳德·阿特金斯,因为抢劫并谋杀了一名空军军官,被法院判处死刑。后来,心理医生对其进行智商测试发现,他的IQ只有59,属轻微弱智,联邦最高法院裁定不得处死阿特金斯。

  同样在弗吉尼亚州,杀人犯特丽萨·刘易斯2010年因杀死丈夫和继子被判死刑。虽然她曾提出自己智商只有72,但法庭最终没有豁免她。

  命运的不同,源于法律。美国《宪法》规定任何对智力迟缓人士的处决,都违反了《宪法第八修正案》规定的反对“残忍和非正常的惩罚”。通常70分被视作判定弱智的一条“红线”,“红线”以下的美国死囚会被视作智力迟缓人士而免于死刑。

  刘易斯的死受到质疑,有人提出,智商测试是否真的能决定犯人的命运?如果一死刑犯智商略高于70,是71,而另一死刑犯是69分,两分之差真能区分谁是弱智,谁不是?更直接的问题是,智商测试评分,真的准吗?对此,一个英国人经过研究给出否定的回答。

  评结果

  误差值并不小

  本月,英国哈德斯菲尔德大学的心理学家西蒙·惠特克提出,对实际智商水平低的人进行的IQ测试,存在较大误差。

  “理论上,如果参加完美的IQ测试,人的真实智商可以用IQ分数来衡量。但现如今的IQ测试并非无懈可击,特别是在测定低智商人群时,IQ测试更不好使。”惠特克告诉本报记者,他研究的是智商偏低的群体IQ分数低于80分。

  学术界普遍承认,IQ测试结果与人的真实智商约有5分误差,但是惠特克认为,在低智商人群中,误差远大于此。

  惠特克研究了两套国际常用检测弱智的IQ测量表韦氏成人智力测量表和韦氏儿童智力测量表。前者针对年纪在16岁到93岁的成人,后者适用于6到16岁的人。

  测量表的说明书宣称与真实智商误差在4分以内。但惠特克发现,在得极低分数的人中,成人的实际智商可能比所得分高16分,或低26分,儿童的实际智商,可能比得分高25分,或低16分。

  看心情

  太紧张不稳定

  对造成误差的原因,惠特克的解释有些生涩,但也在常理之中,因为都是由非智力的变量造成。

  在他的论文中,首先讲到概率误差。概率误差由很多因素导致。首先,测试时所处的环境不同,就会使测试结果产生时间性的误差。

  比如,一个人参加测试当天,心情如何,对当天测试有何想法,都会影响测试结果。

  这一点,得到伦敦大学金思密斯学院的心理学家托马斯·查马罗·普里莫齐茨的赞同,他认为:“紧张、缺乏自信或者过度自信会影响一个人的测试分数”。一个测试决定生死,这个“筹码”实在太高。“在那种压力之下,大多数人可能无法做到最好。”

  惠特克将问题延展开:如果参加数次测试,每次测试时的心情,分心次数都不同,这几次测试的结果也不同。哪怕用同一套测试,在两个不同环境里进行重复测试,所得结果都不一致,“我们该放弃用IQ测试来诊断低智商人群了,不能用IQ测试决定囚犯的命运。”惠特克直言。

  算分数

  测试题已落伍

  另一种系统性误差,则和数字联系更紧密。

  惠特克总结发现,在IQ测试中,被测者会获得原始分,原始分会被转化成标准分。其中,原始分数10-18,依次对应标准分数2-10,而原始分数0-9都对应着标准分数1。

  这就有一个问题,原始得分是2的人和得分是8的人,转换之后,都得到标准分1分。这样一来,原始分数极低的人,能力就无形被抬高了。

  而“地板效应(floor effcet)”会让这种误差更加明显。这个效应指的是,当问题难度太高时,造成所有受测人员得分都非常低,导致很难区分受测人员的实际水平。在这一效应影响下,越多的人原始分数集中在0到9,那么就有越多人的能力被夸大。

  此外,一项名为“弗林效应”研究证明,低智商人群的IQ平均每年上升0.3分。因而惠特克说:“就整体而言,人们的智商在随着时间不断地提高,IQ测试逐渐落伍啦。”

  找对策

  测其分观其行

  最后,由于众多测试系统本身之间的区别,人们在不同的测试系统中得到的分数可能不同。

  “这就出现了一个问题,究竟哪一个系统能最准确地测试智商?在这种系统缺失的情况下,哪一个是"黄金标准"测试?”惠特克提出质疑。

  将70分设置成一个智商分界点,在惠特克看来也过分简单。他因此建议,应该观察个人在真实世界里的表现。人们应该用“在需要用智力来完成的任务中,他们是否失败了”,来确定观察对象是否为弱智。

  那到底该用什么更好的方式来判断一个人的智商呢?

  惠特克似乎也没有确切答案。他告诉记者:“这取决于测试的目的。我只能说一个简单标准,那就是测试是要在最佳的条件下进行。考虑到弗林效应和下限效应,了解你所采用的测试和其他测试之间的异同和关联,还要将测试结果与个人的其他信息联系起来。最好几天之后,再用其他测试体系,再测一遍。”

  本报记者 冯中豪

  资料

  IQ和IQ测试

  智商(Intelligence quotient,简称IQ)一词最早出现于1915年,被认为是测量个人智力发展水平的一种指标。IQ测试则源于19世纪,20世纪初已风靡各国,成为众多科学研究、人才培养的重要评判标准。这种测试通常包括常识、理解、算术、类同、记忆、积木等十一个项目,完成整个测验大约需要一小时,汇总分析,写出测验报告约需要一个小时。

  例题

  1、如果所有的妇女都有大衣,那么漂亮的妇女会有

  A.更多的大衣 B.时髦的大衣 C.大衣 D.昂贵的大衣

  2、填上空缺的词

  罄竹难书(书法)无法无天

  作奸犯科( )教学相长

  3、选项ABCD中,哪一个应该填在“XOOOOXXOOOXXX”后面

  A.XOO B.OO C.OOX D.OXX

  4、1 3 2 4 6 5 7 ( ),“( )”处填什么数字?

  答案1.C 2.科学 3.B 4.9
(责任编辑:UN100)
  • 分享到:
上网从搜狗开始
网页  新闻

我要发布

近期热点关注
网站地图

新闻中心

搜狐 | ChinaRen | 焦点房地产 | 17173 | 搜狗

实用工具