从“支付宝故障”说起：我们的互联网为何如此脆弱?

时间：2015-06-18　|　来源：互联网运维杂谈　|　阅读：180

话题：携程支付宝

1、人与组织

其实这个地方可以谈谈你的人和组织类型了，领导是否重视IT?是否重视运维?组织是否已经认识IT带来的价值，把IT当作自己的一个核心能力来看待?是否把面向用户的业务能力和IT能力很好的对接?是否建立起用户质量的组织文化?等等。

2、流程

流程是梳理多个角色自己的关系和职责。我们第一个要去看这个流程在面对故障的是否起到了积极的作用，比如说能够确保故障信息的准确送达，同时保证处理人的角色和职责是清晰的。其次不断去检查流程是否可以自动化驱动，而非人为驱动。人是不可靠之源!我们最终希望形成是一个自动化、标准化的流程，这样的流程不容易被异化，且能保证预期执行结果一致。

3、技术

很多时候大家看到的技术是运维技术，其实恰恰相反对于互联网业务来说，对其高可用的影响，必然是业务IT技术架构，因此在其中需要遵循很多原则，有一些原则需要有普适的参考价值。比如说服务降级、灰度发布、过载保护、服务公共化等等。这些方法论是否已经融入到研发和运维的架构设计哲学之中?现实是产品功能需求优先，而非可运维性优先，可运维性最终就是业务的质量。

4、业务管理

把你的IT能力最终都业务能力看板化，你可以转换成我们多个业务指标，比如说质量、可用性、用户体验、用户满意度、成本等等，有了这些业务导向性指标，才能把IT能力和业务更好的对接起来。否则很容易在组织内，形成“IT是支撑部门”认识，而非创造价值部门。这一点还有一个重要性，就是让IT部门也要足够的认识到，他们的能力直接和业务相关，需要增强业务敏感度。

三、如何提高系统的可用性

刚刚上面讲到了影响可用性的因素，分成了四个方面，但我想提高系统的可用性从另外一个角度来描述，能把握一些核心准则(其实还有更多)。

1、故障发生前，建立运维质量仪表盘

我们一定要建立运维数据看板，这个看板的数据并且要在业务、研发、测试和运维达成一致，让大家足够重视这份数据，这样数据便有了推动力。建议这个地方的核心数据指标不要太多，因为涉及到多个团队，大家不能够一致理解，特别是传达到管理层，太多的指标，容易失去关注的焦点。