搜狐网站
搜狐 ChinaRen 17173 焦点房地产 搜狗

绿坝软件:误判容易,过滤很难

2009年06月19日17:59 [我来说两句] [字号: ]

来源:新世纪周刊

  误判容易,过滤很难

  ■猛犸

  绿坝软件使用的过滤技术并不成熟,误判也是不可避免的

  短短几天,绿坝·花季护航就成为互联网上的一个新热点。像是突然间,网上冒出了大量新闻和相关网页,常用搜索引擎的搜索结果多达几十万。

有趣的是,在Google搜索中输入“绿坝”,给出的候选搜索条目中,“卸载”和“破解”都会处在很显眼的位置。

  网民的声音几乎是一边倒的讨伐。在几个允许对文章进行评论的门户网站上,几乎没有正面评论;而在一些允许用户对文章打分的网站上,支持和反对的比例平均都在1:10以上。这也许可以解释网民为什么会热衷于搜索和绿坝软件有关的“破解”和“卸载”这样的关键词。

  按说绿坝好像不应该得到这样的待遇。这款国家工业与信息产业部招标购买的软件,从今年7月1日起将安装在所有国内出售的品牌机上,由工信部为用户买单一年。为了这一年的使用权,工信部花了超过4100万元人民币。

  至少我们得肯定,这套软件的出发点是好的。互联网并没有一个有效的信息分级机制,所有人可以获得任何信息。但毫无疑问,并非所有信息对所有用户都有益,如果真有一套软件,能够有效过滤互联网上对未成年人的不利信息,当然是好事。

  不过这也是技术难题。目前绿坝所使用的过滤技术主要有两项:文字过滤和图片过滤,其重点是识别出传递到计算机上的文件中是否包含被定义成“不良信息”的内容,然后启动相应的机制,让那些内容无法显示。

  文字过滤比较简单,大概类似于平时用的查找替换。每个字都有唯一的数据编码,只要查找到就可以了。这种方法容易实现,但最大的问题是会造成一些误伤,例如之前网络游戏《魔兽争霸》中的文字过滤系统过滤了“色魔”这个词,结果游戏中的道具“金色魔线”就变成了“金$%#线”。让计算机自动识别上下文来决定是否屏蔽还不太现实——计算机不是人脑,不会依照常识来判断。

  计算机的机械化判断方式对图片过滤更加不靠谱。绿坝的图片过滤主要是防范色情图片,从收到图片到得出判断结果需要分成几步。首先把图片都缩放到同样大小,接着判断出和人皮肤颜色相近的区域;然后,将肤色区域进一步分析,如果判断出可能是色情图片,就和人脸的结构对比。如果人脸不是主要部分,就判断为色情图片,采取相应措施阻止显示。这是目前比较主流的图片过滤技术,已经得到广泛应用。绿坝使用的是Intel开发的一套可非商业性免费使用的OpenCV视觉库,这套视觉库里有不少计算机视觉方面的通用算法。

  可惜主流技术并不意味着效果能令人满意,绿坝软件图像判断错误的情况不算少见。最有趣的例子,是选择动作类似的哆啦A梦、Hello Kitty和加菲猫进行测试,蓝白相间的哆啦A梦和白色的Hello Kitty都能过关,但金黄毛皮的加菲猫却被检定为色情图片。另外还有诸如用户头像被误判为色情图片导致网页不能显示等问题,让绿坝软件的实用性不得不打些折扣。

  互联网是一个开放的网络,中国已为网络保持适当的开放性做了不少工作,包括建立起国家级的防火墙。现在,工信部希望将绿坝软件变成个人计算机上的另一道大门,但这道大门有时还会把主人的客人挡在门外。

  当信息源头没有得到有效控制时,给个人计算机安装一个功能略显薄弱的绿坝,就真的能拦得住汹涌而来的信息洪流吗?

  从技术的角度看,很难。

搜狗搜索我要发布

以上相关内容由搜狗搜索技术生成
昵称:  隐藏地址  设为辩论话题

搜狐博客更多>>

精彩推荐

搜狗问答更多>>

最热视频最热视频更多>>

美容保健

搜狐无线更多>>

茶余饭后更多>>

搜狐社区更多>>

ChinaRen社区更多>>