您的位置:首页 >财经 > 要闻 >

当系统出现故障时您如何反应可能定义您的业务

2019-11-01 21:08:51 [来源]:

在2017年2月28日太平洋时间上午9:45左右,无法访问Slack,Business Insider,Quora等网站。对于数百万人而言,互联网本身似乎已经崩溃。事实证明,Amazon Web Services在其北弗吉尼亚州的数据中心中涉及S3存储的大规模停机,该问题造成了级联影响,最终导致停机持续了四个小时。

亚马逊最终想出了办法,但是您只能想象对于花费了数小时来追踪停机原因以便他们可以恢复服务的技术团队可能会承受的压力。几天后,该公司发布了公开验尸报告,解释出了什么问题以及他们采取了哪些步骤来确保不再发生特定问题。大多数公司试图预见这些类型的情况,并采取措施以防止它们发生。实际上,Netflix提出了“混沌工程”的概念,即在系统变成中断之前对其进行测试以检查其弱点。

不幸的是,没有工具能预见到每一个结果。

您的公司很有可能会遇到像亚马逊在2017年那样面临的巨大比例问题。这是每个创业公司创始人和《财富》 500强首席执行官都担心的,或者至少应该担心。如何定义您的组织,以及客户如何看待您的前进,将是您如何处理组织以及所学的知识。

我们与一群训练有素的灾难专家进行了交谈,以了解更多有关防止此类事件对您的业务产生严重负面影响的信息。

始终与您的客户有关

可靠性和正常运行时间对于当今的数字业务至关重要,因此企业公司开发了新角色,即站点可靠性工程师(SRE),以保持其IT资产的正常运行。

塔米Butow,在小鬼主要SRE,启动,使混乱的工程工具,说SRE的主要作用是保持客户满意。如果网站正常运行,那通常就是幸福的关键。她说:“ ​​SRE通常更关注客户的影响,尤其是在可用性,正常运行时间和数据丢失方面。”

公司根据所谓的“五个九”(即99.999%的可用性)来衡量正常运行时间,但是最近领导Slack的Chaos Engineering and Human Factors的软件工程师Nora Jones表示,通常对此数字的重视程度过高。琼斯认为,重点应该放在客户以及可用性对他们对您作为公司和您的业务底线的看法的影响上。

有人需要保持冷静,并不断提出正确的问题。

她说:“这一天到头都是钱,但随着时间的流逝,(如果您的网站出现问题),用户的情绪可能会改变。”“他们如何看待您,与朋友交谈时,与家人交谈时谈论产品的方式。九球没有抓住任何那个。”

SRE即服务平台FireHydrant的创始人兼首席执行官罗伯特·罗斯(Robert Ross)说,现在应该重新考虑“九头蛇”的想法了。“也许我们需要改变这个词。也许我们可以推广“幸福水平目标”或“幸福水平协议”之类的东西。这样,重点就放在我们的产品上。”

当事情出错时

公司竭尽全力预防灾难,避免使客户失望,而且通常会遇到突发事件,但是有时候,无论他们的计划如何,危机都可能失控。发生这种情况时,SRE也需要执行,这也需要进行计划。知道艰难时该怎么办。