搜狐网站
搜狐 ChinaRen 17173 焦点房地产 搜狗

论文也有测谎仪

2009年06月26日17:17 [我来说两句] [字号: ]

来源:南都周刊
学位论文学术不端行为检测系统工作原理
学位论文学术不端行为检测系统工作原理

  论文也有测谎仪

  近来,论文剽窃丑闻频频见于报端,从校长到学生,从历史陈案到史上最牛,可以说是一片腥风血雨。现在,一套名为学位论文学术不端行为检测系统悄然在各大高校现身。

  文·余小北 南都周刊记者·炫风

  张伟最近很忐忑,他的学位论文《试析中日“战略互惠”外交新思想》已经交出去一些时日了,可是还没有结果,这让他不仅担心起自己的学位证,继而担心起自己的前途。

  作为非全日制研究生,这两年来他真正呆在学校里的日子屈指可数,论文也是在最后一个星期东拼西凑起来的。

虽说很多人都是这样过来的,可是今年的形势有点不一样,传说学校采

  用了新的学术测谎仪,他很担心论文过不了。

  这断时间以来学术不端丑闻频频见于报端,从校长到学生,从历史陈案到史上最牛,可以说是一片腥风血雨,在这个时候,一套名为学位论文学术不端行为检测系统(简称TMLC)的产品悄然走红于各大高校,张伟所在大学使用的就是这套系统。

  反剽窃就像“找不同”

  这个“反抄袭”系统是世界首个用全文文献为比对资源来检测学术不端行为的系统,由中国学术期刊电子杂志社与同方知网公司联合研发,耗时三年,在2008年12月底研制成功, 2009年3月研究生院开始使用。官方宣称目前已涵盖上千家期刊编辑部,360多家高校,基本上覆盖了全国重点院校。中国知网科研诚信管理系统研究中心主任孙雄勇向记者介绍,到目前为止,光是研究生学术论文检测,TMLC的检测量就已达到20万篇次。

  该人士表示,该系统的技术核心是自适应多阶指纹特征检测技术,具有检测速度快,准确率较高,抗干扰性强等特征。这里的“指纹”只是一个形象的比喻,正如每个人说话都有口头禅,这个口头禅就是你的一个特征,这个特征就叫信息指纹。具体到一篇文章来说,比如研究金庸小说,金庸喜欢用什么字,用字的规律是多少,每个字在整个文章出现的概率是多少,这就是一个指纹。

  在每一次检测过程中,待检文章首先按照篇章、段落、句子等层级分层处理,然后创建指纹,而比对资源库中的比对文献,也采取同样技术创建指纹索引。通俗来说,就是将论文和数据库进行比对,根据其重合处的比例,判断该论文是否存在抄袭行为。

  不过,广东省某市公安局网络工程师冯骋认为,这种技术原理上比较简单,已经有很多现成的算法,而且根据中文的特征,算法上也不可能有太大突破,依赖的还是数据库的采集,然后拿文章进去对比,相似度达到多少,就认为抄袭。

  在这套系统里,最小能检验到句子。只要论文与数据库的文献存在一个相同的句子,就能被检测系统发现。因此这也是张伟担心所在,“谁不用CTRL+C和CTRL+V呢?”

  和所有善于钻空子的大学生一样,张伟也不至于傻到一字不漏地照搬。他老早就未雨绸缪,上论坛求助一些从事软件开发的技术人员。有“高手”告诉他,可以尝试将全篇论文的个别字符替换,如用查找替换功能,把所有的全角逗号换成半角逗号、把所有的“为什么”换成“为何”、 把“把”替换成“将”,就可以绕过检测。

  这正是张伟最担心的地方。在得知学校采用反剽窃系统后,他立即打听到开发公司的情况,并伪装成院校老师,打电话向对方求证一些技术细节。对方告诉他,简单的替换都会被系统识破,就是因为当系统检测单位精确到句子而不是段落时,传统的破解方法已经失效,重合比率技术可以进行防范。

  武汉大学数学与统计学院信息与计算科学系林川副教授指出,这种检测技术也有技术漏洞。首先关于特征提取的合理性,将直接影响到最终比对结果。其次是匹配效率问题,不同专业、不同方向的技术指标并不相同,特别是一些特殊领域的文献。比如做历史的研究,很多时候把历史材料、文献梳理出来就是好的论文,这就必然涉及到对很多材料的引用,评价,论述,但这样就有可能被判定为抄袭。

  道高一尺,魔高一丈?

  新华网针对论文抄袭事件的调查显示,44.25%的投票者认为这是“普遍现象,屡见不鲜”,24.28%的投票者在评价此事的社会影响时选择了“不抄白不抄,大家都这样”。而TMLC的问世,无疑更加加剧了双方之间的博弈。电脑可以为反剽窃者所用,更可以为反反剽窃者所用。林川副教授说这套系统很难起到完全杜绝的作用,只是在一定程度上减少简单抄袭和剽窃行为,而且可能会产生新的问题:一是可能会产生新的利益链条,如产生专业修改抄袭文章的利益团体,二是抄袭手段更加隐蔽,如“抄其意而不抄其文”。

  事实上,这些新的问题已经产生。“反反剽窃”几乎同时上路了。

  现实版《黑客帝国》?想象自己像帅到掉渣的基努·李维斯一样,在网络世界中无情地侵入TMLC,面对浩瀚的资源沧海一声笑?.....不过,用冯骋的话来说,这个系统根本没有侵入的必要,即便侵入,也是一个空壳。

  话说回来,还真有专业级的破解方法。根据一些资深技术人员的建议,可以:1、由专业人员利用黑客技术,首先破解密码,进入相关数据库,修改“指纹”,待检测通过后,恢复数据;2、如果能够知道该软件的算法(林川认为这并不难做到),就可以在文献中插入相关信息,避开或绕开对比文献的“指纹”等等。

  其实,当论文已经工具化的时候,社会上就必然会相应地产生为需要这种工具的人服务的产业,不用费尽心思让自己成为电脑高手,金钱依然发挥着强劲的作用。

  张伟更后悔的是没去花钱买个“保险”。

  因为,在淘宝网上已经有相关的针对反剽窃软件的论文检测服务,张伟本可以将自己的论文提前发给商家,以判定其论文能否通过检测。这些“服务”叫价从50-800元不等。在宝贝详情上赫然写着:本项服务就是针对“学位论文学术不端行为检测系统”对于申请人提交的论文进行人工预评估,找出可能被发现的抄袭的部分,并对于服务申请人提供相应的修改意见和指导,提升申请人的论文质量和水平。我们拥有博士学位以上的学术人员10多名,均为一线的相关科研人员,有着丰富的科研论文写作、审稿经验。

  记者细心观察了一下,基本上每个商家都有不错的“生意进账”。而网友的评价是:速度快,非常满意。

  如果现在再写一篇论文,张伟会如何处理呢?他说自己还有张底牌——对自己大段摘抄的论文进行改写,像近义词替换和句子重组。这一点,连开发公司的孙雄勇也承认:“我们在研发过程中遇到的另一个技术难关就是如何应付语序、结构上的改写。对于这些更高层次的、语义上的改写的反“反剽窃”,还将进一步研究。”

  是啊,中文语义博大精深,防不胜防。(SMW)

搜狗搜索我要发布

以上相关内容由搜狗搜索技术生成
昵称:  隐藏地址  设为辩论话题

搜狐博客更多>>

精彩推荐

搜狗问答更多>>

最热视频最热视频更多>>

美容保健

搜狐无线更多>>

茶余饭后更多>>

搜狐社区更多>>

ChinaRen社区更多>>