资讯公告
微软:Azure的正常运行时间为99.995%
发布时间:2019-07-16 发布者:FebHost

微软正在采取措施,将Azure的可靠性提高到目前99.995%的平均正常运行时间。Microsoft Azure首席技术官Mark Russinovich在7月15日的博文中概述了其中的一些步骤。

(我不确定是什么促使微软今天发布此消息。也许是时候与微软Inspire合作伙伴会议和/或本周的微软Ready销售启动同时进行?也许它与JEDI竞争相关?新财政的开始?一年有我)。


在博客中详细列举了未来的改进,Russinovich的承认,Azure的是受“三个独特的显著事件”在过去的一年,包括中南部地区美国数据中心停电九月2018年2018年11月背靠背Azure Active Directory多重身份验证问题以及今年5月的DNS维护问题。(注意:这不是一个详尽的列表。过去12个月中有一些与Azure相关的其他中断,例如1月份的这个中断。)


Russinovich说微软在他的CTO办公室创建了一个新的质量工程团队。将与其网站可靠性工程(SRE)团队合作,寻找使Azure更加可靠的新方法。 


Russinovich表示,微软正在开展其他一些旨在提高微软云服务弹性的举措。他表示,从现在到2021年,微软正致力于为10个下一个最大的Azure区域提供可用区域。可用区域已经存在于十大Azure区域。可用区域旨在帮助保护客户免受数据中心级故障的影响。这些区域位于Azure区域内,提供独立的电源,网络和冷却。启用区域中至少有三个分隔的区域位置。 


微软正在扩展其安全部署实践框架包括软件定义的基础架构更改,如网络和DNS。此框架旨在确保Azure中发生的所有代码和配置更改在推出到区域对之前经历一组特定的开发/测试,登台,私有预览,硬件多样性试验和更长的验证期。微软还在进行更多投资,以改善零影响和低影响力的更新技术,如热补丁,实时迁移和就地迁移。


Microsoft目前优先考虑数据保留以及恢复时间。但有些客户表示,他们希望自己做出这种权衡决定,因此微软正在预测在存储帐户级别启动自身故障转移的能力。


其Tardigrade项目服务用于在发生硬件故障或内存泄漏之前检测它们,以便Azure可以简单地冻结虚拟机,以便将可能受影响的工作负载移动到其他主机。Microsoft未提供有关何时以预览或最终形式提供此服务的任何信息。


“持续、实时改进的能力是云服务的巨大优势之一,虽然我们永远不会消除所有这些风险,但我们非常注重减少服务问题的频率和影响,同时透明我们的客户,合作伙伴和更广泛的行业,“Russinovich说。

购物车