新京报快讯(记者赵嘉妮)5月28日11时起,携程官网及APP无法使用,直至当天晚上23时29分,才全面恢复正常。经携程技术排查,确认此次事件是由于员工错误操作,删除了生产服务器上的执行代码导致。
互联网企业宕机,修复时间超过12小时的情况,比较少见。为什么恢复时间那么长?携程从技术角度对新京报解释道,携程后台是一个由SOA(面向服务)架构组成的庞大服务器集群,一个页面背后由上千个应用子系统以及上千个Web Service组成,每个应用子系统和每个Web Service之间存在着相互调用的依赖关系。
事件发生后,携程除需要恢复生产服务器上的执行代码,还需要确保应用子系统和Web Service的功能正常,以及两者间的调用关系正常执行。这种验证性的操作需要反复地、持续性地调试。
为杜绝此类事件的再次发生,携程表示,已经在系统上做了改进,规范并杜绝技术人员错误删除生产服务器上代码的操作。
携程再次保证,数据和数据库并未受到此次事件的影响,用户订单数据也完整无损。
我来说两句排行榜