- 首页
- 行业新闻
- 新闻详情
高可用性的艺术:异地多活的创意玩法~
发布日期:
2024-10-18 16:41:48
本文链接
https://www.idcsp.com//industry/1879.html
本文关键词
前段时间,机房电路短路导致户政业务的服务器瘫痪,四川全省户籍和身份证业务暂停办理。
毕竟故障影响波及了四川全省 ,引发四川人民的关注。 可故障多个小时后才恢复,提醒大家保障关键业务系统的高可用性是一个不可忽视的问题!
什么是高可用嘞? 现如今,我们开发一个软件系统,对其要求是越来越高...我们知道,一个好的软件架构应该遵循以下 3 个原则:
高性能——系统拥有更大流量的处理能力,更低的响应延迟。例如 1 秒可处理 10W 并发请求,接口响应时间 5 ms ~
易扩展——系统在迭代新功能时,能以最小的代价去扩展;在遇到流量压力时,可不改动代码,去扩容系统。
而「高可用」这个概念?看起来貌似很抽象! 通常用 2 个指标来衡量:平均故障间隔、故障恢复时间 平均故障间隔 MTBF:表示两次故障的间隔时间,也就是系统「正常运行」的平均时间,这个时间越长,说明系统稳定性越高
故障恢复时间 MTTR:表示系统发生故障后「恢复的时间」,这个值越小,故障对用户的影响越小 而可用性与这两者的关系:
这个公式得出的结果是一个「比例」,通常我们会用「N 个 9」来描述一个系统的可用性。
从这张图可以看到,要想达到 4 个 9 以上的可用性,平均每天故障时间必须控制在 10 秒以内。
也就是说,只有故障的时间「越短」,整个系统的可用性才会越高,每提升 1 个 9,都会对系统提出更高的要求。 我们都知道,系统发生故障其实是不可避免的,尤其是规模越大的系统,发生问题的概率也越大,比如: ——硬件故障:CPU、内存、磁盘、网卡、交换机、路由器 ——软件问题:代码 Bug、版本迭代 ——不可抗力:地震、水灾、火灾、战争 这些风险随时都有可能发生。所以,在面对故障时,我们的系统能否以「最快」的速度恢复,就成为了可用性的关键。 可如何做到快速恢复呢? 多机房异地多活架构就成为应对系统故障的有效解决方案。 涉及到知识点盲区了? 多机房异地多活架构指的是在不同的地理位置部署多个数据中心,这些数据中心能够同时处理业务请求,并保持数据的实时同步。
一旦某个机房因故障或灾害中断服务,业务流量可以自动切换到其他机房,确保服务不中断,提升系统的容错能力和稳定性。 业务流量的动态调度与智能分配确保了其他机房能迅速接手,减少停机时间和用户影响,不至于造成全省范围内的服务中断。
异地多活强调各个机房的业务能力是平等的,多个机房同时承担流量,可以有效避免当单一机房故障时,其他机房无法快速接管业务的风险。
除了服务器托管租用,极云还提供代运维服务,提供定制化的运维方案,根据客户的需求和设备的特点进行精细化管理哦~
优选机房