新京报快讯(记者李馨)5月28日11时许开始,携程官网及APP无法正常使用,直到晚23时29分才全面恢复正常。经携程技术排查,确认此次事件是由于员工错误操作,删除了生产服务器上的执行代码导致。360网络专家贺旸认为,一般来说,是移除全部数据这一内部失误操作才会导致出现网站瘫痪这么大的问题。这个“数据”可以包括数据库里的信息,或者是生产系统上的程序文件。从携程的表态来看是后者,但他认为这是否属实,还有待商榷。
网站通常会有怎样的防范举措防止此类错误发生呢?贺旸介绍,如果是防范内部的无意破坏,一般都是加强权限管理和审核,避免非授权操作,杜绝危险操作以及采取灰度发布方式。所谓灰度发布就是一部分一部分的执行改变,如果出现问题,可以迅速回滚,任何时候都有能正常运行的服务器。最不济,也需要有一个测试系统,在测试系统上验证没有问题的操作,再在生产系统上执行。
贺旸表示,携程此次事故暴露出其内部在技术管理以及技术能力上的一些问题,“至少上面所说的防范举措没有落实,否则不会出现这种全部瘫痪的情况。”
我来说两句排行榜