莫忽视数据中心的可靠性

莫忽视数据中心的可靠性

大家好,又见面了,我是全栈君。

历史教训告诉我们,不能忽视数据中心的可靠性,一旦出了严重的故障,对于数据中心可能就是致命的,一次故障可能就会使得数据中心“一夜就回到解放前”。根据数据中心自身的实际情况,部署切合实际的冗余备份设计方案,将使数据中心终身获益。

 数据中心

保持业务全年无中断运行是最能体现数据中心能力的一方面。现在的数据中心系统组成复杂,要确保没有故障出现,几乎不可能。每年都会有很多著名的大型互联网公司被爆出其数据中心出现故障,有的业务甚至要数个小时才能恢复,这给数据中心的业务带来了严重的损失。所以,重视数据中心运行的高可靠性显得至关重要。

曾经的马来西亚航空公司也是受人尊敬的航空公司之一,然而最近两年出了两次的重大坠机事故后,竟然面临着关门的境地。对于数据中心也是一样,以前没有出过故障,并不代表以后都不会出,一旦出现一次严重的业务中断,对数据中心业务的影响就是多方面的,不仅仅是金钱上的损失,还有数据中心承载业务的声誉。一旦人们认为这个业务是不稳定的,有风险的,人们宁愿弃之不用,在科技如此发达的今天,没有什么业务是不可替代的,或者找不到替代品,数据中心能否提供持续稳定的业务运行至关重要。最近,显然发生了不少数据中心故障,影响面都比较广,真可以称得上是“黑色五月”了。5月11日,网易因骨干网络遭受攻击,导致了网易旗下部分服务暂时无法正常使用,当时还传言是网易广州大楼发生爆炸,导致其旗下多款游戏无法登陆,不过后来证实的确是谣传。紧接着5月27日,支付宝因为杭州市萧山光纤被挖断,也出现了用户无法正常使用的问题。这起事故,导致全国许多地方的用户都无法使用支付宝,直到两个小时后才恢复正常。然后是5月28日,携程网因为部分服务器受到不明攻击,导致官方网站及APP暂时无法正常使用,携程网主页里的二级页面无法打开,这造成了携程网业务损失一百多万。这类数据中心故障在不断地上演着,虽然故障已经恢复,但是却留给了我们深深的思考。

数据中心这几年发展非常火爆,各地都是新建或扩建数据中心,在数据中心设计上应该更加考虑运行的可靠性、冗余性的设计。如果数据中心三天两头地故障,拥有再多的服务器,拥有再好的网络也是白费,没有人愿意使用一个总也不稳定的业务系统。如果动不动网页就无法访问,动不动自己的保密信息就出现了丢失,这些故障对于数据中心都是致命性的。我们通常用五个九,即99.999%,来衡量一个数据中心的可靠性,如表1定义了数据中心的可靠性级别,数字9越多代表数据中心的可靠性越高:

莫忽视数据中心的可靠性

数据中心属于哪个级别的,主要是基于过去数据中心运行的数据得到的,所以不能代表以后。也许一个数据中心以前从来没有出过长时间的业务中断事故,可靠性达到了99.999%,但只要出现一次长时间故障,就可能一下子变成了99%,这对数据中心业务的打击是非常大的。为了提升数据中心的可靠性,数据中心必须要引入一些冗余备份机制。其实我们也相信支付宝的数据中心也肯定有冗余备份,断掉一根光纤都能让业务中断二小时,说明支付宝的数据中心本身设计上是有问题的,至少备份没有起到应有的作用。通过备份确保出现故障时,业务流量依然可以有别的通道可走,保持业务的连续性。当支付宝的链路光纤断掉后,应该有其它的备份链路转发流量,这种通过链路聚合或者等价路由这种成熟的技术就可以完成备份。显然支付宝故障不是光纤中断那么简单,也许是光纤中断引发了其它方面的问题,造成了整个系统的瘫痪。数据中心是一个复杂的信息系统,冗余设计也不是通过几个备份链路、等价路由就可以完成的,需要的是全面的规划设计,确保任何一个环节都有备份机制。

当然,要实现所有地方都有备份,将大大增加系统的复杂性,反而会大大降低数据中心的处理性能。过于复杂的冗余设计就可能是画蛇添足,起到反作用。而且引入过多的冗余机制,将消耗大量的资金和设备,给数据中心运行带来沉重负担,所以也不是什么地方都要备份。在业务故障可容忍的范围内,部署高效的冗余设计,才能使得数据中心高效地运行。提升数据中心业务不间断的处理能力,是数据中心的一项持久性工作,贯穿于数据中心的整个生命周期中。数据中心运维人员应该具有如履薄冰的心态,在日常的工作中,勇于发现系统的缺陷,及时完善,做好各种故障模拟的补救措施。在数据中心的运维工作中,也要经常进行故障模拟演练,考验数据中心系统的冗余设计是否有不完善的地方,不断进行优化和改善。很多的冗余备份设计可能并不符合实际,在一些异端情况下甚至起不到备份的效果,这就需要主动做一些故障演练,检验冗余备份设计是否满足设计要求。以便一旦真的出现了故障,数据中心可以从容应对。对于一个拥有数万台设备的数据中心,软硬件故障可能天天都在上演,在这种情况下,要保持业务的稳定运行,需要做大量的冗余设计工作。对可能出现的异常状态,提前进行模拟规避,提升数据中心的可靠性。历史教训告诉我们,不能忽视数据中心的可靠性,一旦出了严重的故障,对于数据中心可能就是致命的,一次故障可能就会使得数据中心“一夜就回到解放前”。切记,莫忽视数据中心的可靠性,根据数据中心自身的实际情况,部署切合实际的冗余备份设计方案,将使数据中心终身获益。


作者:何妍 

来源:51CTO

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 举报,一经查实,本站将立刻删除。

发布者:全栈程序员-用户IM,转载请注明出处:https://javaforall.cn/108195.html原文链接:https://javaforall.cn

【正版授权,激活自己账号】: Jetbrains全家桶Ide使用,1年售后保障,每天仅需1毛

【官方授权 正版激活】: 官方授权 正版激活 支持Jetbrains家族下所有IDE 使用个人JB账号...

(0)


相关推荐

  • python多线程详解

    python多线程详解前言①多线程类似于同时执行多个不同程序,多线程运行有如下优点:使用线程可以把占据长时间的程序中的任务放到后台去处理。用户界面可以更加吸引人,比如用户点击了一个按钮去触发某些事件的处理,可以弹出一

  • CSS 换行_css不允许换行

    CSS 换行_css不允许换行1、强制换行word-break:break-all;/*只对英文起作用,以字母作为换行依据。如果该行末端有个很长的英文单词,它会把单词截断,一部分保持在行尾,另一部分换到下一行。*/word-wrap:break-word;/*只对英文起作用,以单词作为换行依据。如果该行末端宽度不够显示整个单词,它会自动把整个单词放到下一行,而不会把单词截断掉。*/white-space:pre-wrap;/*只对中文起作用,强制换行。*/2、禁止换行(单行文本截断)white-spac

    2022年10月25日
  • pycharm2021.12.4最近激活码【中文破解版】

    (pycharm2021.12.4最近激活码)好多小伙伴总是说激活码老是失效,太麻烦,关注/收藏全栈君太难教程,2021永久激活的方法等着你。IntelliJ2021最新激活注册码,破解教程可免费永久激活,亲测有效,下面是详细链接哦~https://javaforall.cn/100143.html41MD9IQHZL-eyJsaWNlbnNlSW…

  • MySQL自增主键auto_increment原理 与 自增主键出现间隙不连续现象的定位

    MySQL自增主键auto_increment原理 与 自增主键出现间隙不连续现象的定位

  • Docker 离线安装_安装下载

    Docker 离线安装_安装下载Docker是在Linux容器里运行应用的开源工具,是一种轻量级的”虚拟机”。Docker的Logo设计为蓝色鲸鱼,拖着许多集装箱。如下图,鲸鱼可以看作宿主机,而集装箱可以理解为相互隔离的容器。每个集装箱中都包含自己的应用程序

  • stringstream 的用法介绍[通俗易懂]

    stringstream 的用法介绍[通俗易懂]stringstream主要有两个作用:简化类型转换和一次性读入数据: 一、使用stringstream对象简化类型转换C++标准库中的提供了比ANSIC的更高级的一些功能,即单纯性、类型安全和可扩展性。在本文中,我将展示怎样使用这些库来实现安全和自动的类型转换。为什么要学习如果你已习惯了风格的转换,也许你首先会问:为什么要花额外的精力来学习基于的类型转换呢?也许对下面一

发表回复

您的电子邮箱地址不会被公开。

关注全栈程序员社区公众号