亚马逊云科技代闻: 从应县木塔看到可靠云服务韧性构建之道

摘要: 黑神话的快速出圈,带火了山西景点。其中,被称为世界三大奇塔之一的“应县木塔”(又称释迦塔,其他两座塔分别是:意大利的比萨斜塔、法国的埃菲尔铁塔),在游戏中惊艳亮相。应县木塔建于辽...

黑神话的快速出圈,带火了山西景点。其中,被称为世界三大奇塔之一的“应县木塔”(又称释迦塔,其他两座塔分别是:意大利的比萨斜塔、法国的埃菲尔铁塔),在游戏中惊艳亮相。

应县木塔建于辽代清宁二年,是世界上现存最高、最古老的木结构佛塔,之所以千年不倒,是因其使用了建筑学上独特的“双套筒结构”,两个筒中筒让木塔紧紧连接。同时,在架构上,又分明层和暗层,使木塔更为稳定。整个木塔没有用一颗铁钉,全靠木构件互相卯榫咬合而成。

从云服务视角来看,应县木塔木塔的架构设计和云服务韧性,其实有异曲同工之处。云服务之所以永不宕机,其秘密不仅在于底层基础设施的智慧、设计的精巧,更在于持续的维护和经验的传承。

选址的智慧,基础设施是稳定基石

应县木塔的首个智慧之处在于选址,从自然环境选择上,确保整个建筑不发生坍塌危险。山西应县的地理特征是,地质结构稳定、气候干燥,为木质建筑的长期存在奠定了坚持的基础。

反观云服务基础设施,用户在选择时应该注意些什么?云基础设施比较容易理解!一般是指云计算系统所需的基础设施的集合,包括计算资源、存储资源、网络资源等。云服务中断,不外乎光纤维被挖,由机房停电、错误配置、网络问题、负载激增导致的宕机等。

亚马逊云科技代闻: 从应县木塔看到可靠云服务韧性构建之道

▲亚马逊云科技大中华区解决方案架构总经理 代闻

“构建云韧性是一项最基础的工作,亚马逊云科技从提供云服务开始就把基础设施韧性考虑其中。”亚马逊云科技大中华区解决方案架构总经理代闻认为,基础设施韧性是云服务的基本能力,可用区的物理距离也是经过精心计算。

亚马逊云科技拥有全球基础设施覆盖能力,在全球34个地理区域运营着108个可用区,包括刚刚在马来西亚推出的新区域。其中,中国大陆有有亚马逊云科技(北京)和(宁夏)两个区域(Region)。而可用区(AZ)是区域的下一级,每个逻辑数据中心组称为可用区,每三个或更多可用区组成一个区域。以宁夏区域为例,宁夏区域有三个可用区,每个可用区又由多个或单个超大数据中心连接组成。同时,每个可用区的数据中心都有独立的电力、制冷和物理安全设施。

展开全文

为了确保基础设施层的安全、稳固,亚马逊云科技采取了两大策略:一个是设置了可用区间的距离;另一个是提供了高可用、低延迟的可用区网络设计。亚马逊云科技同一区域内的可用区之间的距离一般是100公里内,这意味着一旦发生电力中断,或者出现自然灾害时,区域内其他可用区不会受到任何影响。通过安全距离设置,不仅能防止相关故障,又能实现单位毫秒级延迟的同步复制。另外,在可用区内部、可用区之间,以及区域和区域之间,光纤线路铺设均是两两互联,确保实现高速数据传输的同时,其中任一连接都是冗余设计。比如:宁夏和北京区域,在可用区内的任何数据中心都能实现直达连接,可实现跨区域的数据传输,同时区域与区域之间又是多层级的互联保障体系,确保各个中心站点在安全、稳定的环境下,实现互联互通。

设计的精巧,架构优化的艺术

应县木塔的独特设计,如斗拱结构,体现了古代工匠的智慧与匠心。在云架构设计过程中,亚马逊云科技在韧性设计与专业服务方面,有着同样的精妙之处。

“为避免单点故障造成全球范围的影响,亚马逊云科技的策略是采取最小化全球基础设施的互联型。” 代闻从区域隔离、控制面和数据面独立,以及单元架构、随机分片等角度分享了云服务韧性设计的思考与实践。

针对区域隔离,亚马逊云科技将服务划分为三种不同类别:可用区级、区域级和全球 级,从而控制故障发生时对客户的影响范围。以全球 级服务Amazon IAM为例,在全球 级别的控制平面,IAM的增删改逻辑和数据存储架构被切分成细小的计算和存储单元。这些分布式的数据细胞共同提供服务,通过单元细胞模型实现高可用且极小爆炸半径,确保服务具有更强大的韧性。

在控制面和数据面独立方面,亚马逊云科技将服务拆分为控制平面和数据平面两个层面。这样做的好处是:一方面,确保云服务的数据平面能够独立于控制平面的状态持续稳定运行;另一方面,数据平面的运营容量和控制平面,可以根据各自的需求进行独立扩展,互不影响。

在整个架构体系设计中,使用单元架构和随机分片,是整个设计的核心。单元架构,把整个系统分解为更小的独立单元,当发生故障时,只有该单元受影响,而不会导致整个系统瘫痪。包括随机分片,而非连续方式进行存储,可以进一步提高整个应用和系统的可用性,把故障颗粒度限制在某个范围尺度以内。以数据库为例,亚马逊云科技为常规数据库添加分片分区层,并在存储和计算维度将整个系统分害成更小的单元,当发生故障时,无论硬件、网络、电力系统还是代码,都将影响缩减到最小化。

持续维护与经验传承,带来卓越运营的源动力

应县木塔历经千年风雨,离不开历代工匠的精心修缮与保护。如何让云服务持续精进,满足更多用户需求?亚马逊云科技深知卓越运营的重要性!

在代闻看来,亚马逊云科技的运营机制可以分为4个模块,包括:服务责任模型、运营就绪审查,以及持续安全部署、纠错流程。亚马逊云科技企业内部,推崇的是DevOps文化,工程和产品管理工作由小型、多学科团队领导,并对其提供的服务拥有强大的所有权。这种所有权不仅要负责设计和启动服务,还要在生产期间负责运营,并在出现问题时随叫随到。”You build it, you run it(谁构建,谁运维),已成为IT界的一大名言,也是云服务韧性的精髓所在。

同时,在服务发布和更新之前,亚马逊云科技还有一个强大的运营就绪性审查(ORR)流程。期间,发布团队会回答一系列关于复原力以及其他已知最 佳 实践的问题,并使用标准化的运行手册来确保服务符合标准。服务部署后,每周举行运营会议,检查系统的运营性能以及任何悬而未决的问题。

在服务发布过程中,亚马逊云科技也有一套内部运营体系,确保服务安全、持续地进行部署。具体操作过程是,通过生产前测试、自动回滚和交错生产部署方式,将自动化部署和安全性能力构建到发布过程中,从而最大限度地减少错误部署对生产造成的潜在影响。例如,服务的更新从小处开始;更新首先推出到AZ内的单个服务器,并经过指定的等待期来验证有没有出现问题。随后,更新部署到整个AZ的其余部分,然后部署到其他AZ,再部署到单个区域,最后部署到其余区域。

一旦部署出现问题,纠错流程会发挥关键作用,通过事件管理机制来帮助团队了解根本原因,以确保该问题在所有服务中得到解决,并确保类似的问题不会再次发生。

写在最后:

让云服务韧性像应县木塔一样,经得起各方面的考验,在业务需求、可靠性、成本、系统复杂度之间取得最 佳平衡点,这是以亚马逊云科技为代表的企业一直在努力的方向。从底层基础设施的智慧布局,到设计的精妙绝伦,再加上卓越运营经验的传承,正是这种 “工匠精神”让云服务始终如一地稳定可靠,且永不宕机。连续13年蝉联Gartner云基础设施和平台服务魔力象限领导者的“宝座”,真的不是说说而已,而是实打实的实力证明。

文章版权及转载声明:

作者:牛哄哄导航本文地址:http://nhh123.com/wangzhi/10871.html发布于 09-09
文章转载或复制请以超链接形式并注明出处牛哄哄网址导航

赞(0

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

微信扫一扫打赏