实用工具更多>>

新闻中心 > 国内新闻 > 新世纪周刊 > 新世纪周刊最新

绿坝软件：误判容易，过滤很难

2009年06月19日17:59 [我来说两句] [字号：大 中 小]

来源：新世纪周刊

　　误判容易，过滤很难

　　■猛犸

　　绿坝软件使用的过滤技术并不成熟，误判也是不可避免的

　　短短几天，绿坝·花季护航就成为互联网上的一个新热点。像是突然间，网上冒出了大量新闻和相关网页，常用搜索引擎的搜索结果多达几十万。

有趣的是，在Google搜索中输入“绿坝”，给出的候选搜索条目中，“卸载”和“破解”都会处在很显眼的位置。

　　网民的声音几乎是一边倒的讨伐。在几个允许对文章进行评论的门户网站上，几乎没有正面评论；而在一些允许用户对文章打分的网站上，支持和反对的比例平均都在1:10以上。这也许可以解释网民为什么会热衷于搜索和绿坝软件有关的“破解”和“卸载”这样的关键词。

　　按说绿坝好像不应该得到这样的待遇。这款国家工业与信息产业部招标购买的软件，从今年7月1日起将安装在所有国内出售的品牌机上，由工信部为用户买单一年。为了这一年的使用权，工信部花了超过4100万元人民币。

　　至少我们得肯定，这套软件的出发点是好的。互联网并没有一个有效的信息分级机制，所有人可以获得任何信息。但毫无疑问，并非所有信息对所有用户都有益，如果真有一套软件，能够有效过滤互联网上对未成年人的不利信息，当然是好事。

　　不过这也是技术难题。目前绿坝所使用的过滤技术主要有两项：文字过滤和图片过滤，其重点是识别出传递到计算机上的文件中是否包含被定义成“不良信息”的内容，然后启动相应的机制，让那些内容无法显示。

　　文字过滤比较简单，大概类似于平时用的查找替换。每个字都有唯一的数据编码，只要查找到就可以了。这种方法容易实现，但最大的问题是会造成一些误伤，例如之前网络游戏《魔兽争霸》中的文字过滤系统过滤了“色魔”这个词，结果游戏中的道具“金色魔线”就变成了“金$%#线”。让计算机自动识别上下文来决定是否屏蔽还不太现实——计算机不是人脑，不会依照常识来判断。

　　计算机的机械化判断方式对图片过滤更加不靠谱。绿坝的图片过滤主要是防范色情图片，从收到图片到得出判断结果需要分成几步。首先把图片都缩放到同样大小，接着判断出和人皮肤颜色相近的区域；然后，将肤色区域进一步分析，如果判断出可能是色情图片，就和人脸的结构对比。如果人脸不是主要部分，就判断为色情图片，采取相应措施阻止显示。这是目前比较主流的图片过滤技术，已经得到广泛应用。绿坝使用的是Intel开发的一套可非商业性免费使用的OpenCV视觉库，这套视觉库里有不少计算机视觉方面的通用算法。

　　可惜主流技术并不意味着效果能令人满意，绿坝软件图像判断错误的情况不算少见。最有趣的例子，是选择动作类似的哆啦A梦、Hello Kitty和加菲猫进行测试，蓝白相间的哆啦A梦和白色的Hello Kitty都能过关，但金黄毛皮的加菲猫却被检定为色情图片。另外还有诸如用户头像被误判为色情图片导致网页不能显示等问题，让绿坝软件的实用性不得不打些折扣。

　　互联网是一个开放的网络，中国已为网络保持适当的开放性做了不少工作，包括建立起国家级的防火墙。现在，工信部希望将绿坝软件变成个人计算机上的另一道大门，但这道大门有时还会把主人的客人挡在门外。

　　当信息源头没有得到有效控制时，给个人计算机安装一个功能略显薄弱的绿坝，就真的能拦得住汹涌而来的信息洪流吗？

　　从技术的角度看，很难。

[我来说两句]

搜狗搜索我的天职是搜索