搜狐网站
搜狐 ChinaRen 17173 焦点房地产 搜狗
搜狐新闻-搜狐网站
新闻中心 > 国内新闻 > 国内要闻 > 资讯

鼓捣出来的“权威”? Alexa网站排名真相调查

  中新网1月11日电 据中国计算机世界报道,“Alexa排名”已成国内网站的站长们嘴边最常挂的单词。那么,这个Alexa是干嘛的?它凭什么令国内网站侧目?Alexa有哪些鲜为人知的秘密?记者通过深入调查和采访,努力为读者还原一个真实的Alexa。

  据悉,每时每刻,全球每个安装了Alexa工具条的计算机终端都会向Alexa汇报该终端在互联网上的访问情况。根据这些信息,Alexa每天都会对全球网站的排名做重新计算,也就是说,Alexa排名是每日更新的。因为几乎全球所有的网站都在Alexa的监测范围内,而这个每日更新的排行榜又显得过于直观,加之又是公开的随时可查的数据,就使得Alexa排名在很多场合都显得很敏感。

  针对Alexa热,一些业内人士开始质疑Alexa排名的可信度,并揭发出很多网站作弊的“内幕”。事实上,有相当多网民都对Alexa的排名表示过怀疑。

  无论如何,从追捧到棒杀,业界对Alexa的关注一点儿都没减。进入2004年以来,照样有很多网站的站长们在绞尽脑汁地想把自己网站的Alexa排名“做上去”,而以前揭露过Alexa的炮手们也同样继续怀揣各种目的炮轰着Alexa。

  Alexa工具条的DNA

  要想彻底搞清楚Alexa排名是否可信,必须从技术上对Alexa的全球网站流量监测进行全面的解剖,于是,记者决定首先从破解工具条入手。

  受记者委托,圈内著名的Web技术专家小林,用了近一个晚上的时间,对Alexa工具条及其向Alexa返回的数据进行了细致的分析,得出了很多宝贵的第一手资料。多年前对Alexa就做过研究的小林认为,最近的这次分析揭示了一些Alexa更隐秘的技术细节。

  小林告诉记者,现在最新版本的Alexa工具条的运作机理与以往没有太大的改变,每当用户以装有Alexa工具条的IE浏览器打开新页面时,Alexa的一台服务器都会收到加密的数据包,这个数据包中的核心信息就是十几个参数,这些参数包括当前网页地址、页面打开时间、用户端显示分辨率、Alexa工具条版本号、该用户是否为“亚马逊”的用户等,其中有一个重要的隐含参数,经小林分析,认为是Alexa为每个已安装的工具条自动生成的ID号码,这个号码应该是全球惟一的。Alexa可以通过这个ID对每个反馈数据包的发出者进行惟一标识,这是解决每用户浏览页面数重复计算问题和防止同一用户多次刷新作弊的一个重要手段。

  小林告诉记者,从目前研究的结果来看,任何一个汇编高手都可以很容易地掌握Alexa工具条返回的数据包中的秘密,如果这个人同时也是一个网络编程高手,那么要针对Alexa作弊就比较容易了。从记者后来对一位上海的Alexa作弊高手的采访来看,小林的分析完全正确。该作弊者正是一位资深的Web开发工程师,其采用的手段与小林的分析也基本吻合——编写一个Alexa工具条返回码生成器,批量产生Alexa能够辨识的代码串,然后用虚拟多用户的方式发回data.alexa.com,这样就可以欺骗Alexa的服务器,让它误以为这些数据是不同用户发来的。

  小林认为,这种以编程方式模拟多用户访问的作弊方式的实现,最重要的环节就在于对那个Alexa用来惟一标识用户身份的ID号的生成算法的破解,这需要对足够多的Alexa工具条进行嗅探,抓取其数据包进行定量的算法分析。但小林同时也指出,这些工作对于一个编程高手来说,确实不算什么,只是最终作弊的实现仍需要模拟一个足够快的ID号生成程序,这可能会比较困难,不过据小林估计,国内能做这些事情的人不在少数,只是互联网这个圈子里的高手们很少去做罢了。

  莫须有的技术隐私

  为了进一步探寻Alexa的隐私,我们还要先看看Web浏览的过程。当用户打开IE浏览器,在地址栏中输入一串网址并回车后,一些包含了http请求的数据包就被发送出去,与其他流量一样,这些数据包也要经过用户所在内网的网关,被路由到公网,经过一个个电信机房,最终传送到某个提供DNS解析的服务器上,在获得目的网址的IP地址后再被放到一个可以最终路由到目的IP的路径上传送过去。从http请求的发送过程来看,如果Alexa对全球所有的DNS解析服务器进行嗅探,将有可能得到一份非常接近事实的全球http请求数据,由此就可以非常清晰地勾勒出哪些网站被哪些用户所关注。

  不过,要嗅探全球的http请求,对Alexa来说几乎是天方夜谭。退一万步,即使Alexa能抓取到这些数据,它也不可能有以这些数据为基础进行计算的能力。但是,Alexa排名所显示出的一些“抖动”迹象似乎在告诉人们,除工具条之外,Alexa确实有使用其他技术手段的嫌疑。

  当然,Alexa要维护其排名的权威性和公正性,不仅要完善流量数据的采样过程,更要在防止作弊方面做出巨大努力,那些防作弊的技术也都是Alexa的不宣之秘。那么Alexa到底是用什么办法来防止作弊呢?事实上,对于前文中记者提到的以编程模拟Alexa工具条返回数据包的作弊方式,Alexa几乎没什么好办法去防范,甚至要探测到这样的作弊手段都比较难。

  其实,对于现在网上常见的作弊手段,Alexa都已经有了足够的免疫力。一般来说,由于现在多数搜索引擎都无法处理JS脚本,所以针对搜索引擎的作弊往往都是用JS脚本编写恶意代码来实现,而Alexa和Google采用的爬行程序则是目前仅有的可识别JS脚本的此类程序。

  小林在对几个大型网站的流量监测中发现,Alexa启用了一个叫做IA_Archiver的机器人程序,这个机器人程序类似Google等搜索引擎使用的蜘蛛程序,专门在互联网上爬行,刺探每个Web页面的流量信息。尤其是当某个网站的流量超过Alexa设定的阈值时,IA_Archiver就会马上爬到该网站的服务器上,分析此网站的流量是否正常,有没有作弊行为。据小林对IA_Archiver的监测,该机器人程序已经可以识别大部分基于网站服务器端的流量作弊行为。但现在业内对IA_Archiver的认知普遍不足,记者也只是在Alexa网站的一个帮助页面上看到有关IA_Archiver机器人程序的简单介绍,而国内知道这个机器人程序的人不多,更缺乏相关的技术研究。(王翌)

(责任编辑:黄芳)

用户:  匿名  隐藏地址  设为辩论话题

我要发布Sogou推广服务

新闻 网页 博客 音乐 图片 说吧  
央视质疑29岁市长 邓玉娇失踪 朝鲜军事演习 日本兵赎罪
石首网站被黑 篡改温总讲话 夏日减肥秘方 日本瘦脸法
宋美龄牛奶洗澡 中共卧底结局 慈禧不快乐 侵略中国报告



精彩推荐

说 吧更多>>

相 关 说 吧

小林 | 网站 | alexa | arc..

说 吧 排 行

搜狐分类 | 搜狐招商

茶 余 饭 后更多>>