在故障的当下,定位故障原因是大忌,这往往让故障时长变得不可控,因为会直接影响MTTR(平均修复时间),影响用户的业务使用。不过有人会有疑问,不知道故障原因怎么知道如何解决?从经验来看,你一定有一些简单粗暴的原则去隔离故障,比如说服务器重启,链路禁用,DNS切换等等。
4、故障发生后,仔细的复盘
每一次故障发生后,运维人需要牵头去复盘故障,刚刚说了我们恢复是第一要务,所以故障的根本原因我们可能还不知道,此时就需要运维、测试和研发一起仔细的去看整个的故障过程,看看到底哪儿有什么问题?基本上也是从刚才说的四个方面来评估。不断的审视我们运维的能力和IT的能力,说“故障是运维最好的老师”的原因也在于此,它能够不断驱使我们走向更高的成熟度。
运维是复盘的首要负责人,复盘是为了找到根因(Root Cause),根因和故障现象不同,举个例子,故障现象是交换机故障,根因是因为技术架构没有对交换机故障做到容错,根因是运维对这种故障缺乏有效的临时应对机制。
复盘是为了让我们走向更好的运维阶段!
5、故障发生后,复盘措施有讲究
故障复盘后,我们一定会写改进措施,对于这些改进措施,还是有些讲究的,看过一些故障报告,非常的不合要求。我个人的经验如下:
故障的措施必须是可落实,且具体的,要落实到具体的负责人,具体的时间
故障的措施优先是必须技术的,然后是流程,最后是人的
故障的措施可以分为长期措施和临时措施
故障的措施一定要仅仅扣住故障的根因,避免流于形式和表面
故障的措施切忌“亡羊补牢”式的,需要全面细致的分析
故障的措施一定要保证后续的持续跟进
一叶可以障目,但也可以一叶知秋,就看我们是否真的去认真对待。你们真的重视故障了么?你们真的重视运维了么?故障不能带来运维人的春天,从根本上去意识到运维的重要性,那才是运维人真正的春天。
支付宝短视频 10.6.50.8000 166.13 MB
下载
湘ICP备2022002427号-10湘公网安备:43070202000427号
© 2013~2019 haote.com 好特网