近日,“腾讯视频崩了”和“腾讯会员没了”两个话题热搜爆了!
除了腾讯视频,近期遭遇宕机事件的还有滴滴、淘宝、闲鱼、钉钉、阿里云盘等多个App。据不完全统计:其中,2022年约发生了9起;而今年以来,类似的事件已发生14起!
在智算时代,数字经济已崛起成为国家经济增长的新引擎,而云计算、5G、人工智能、大数据以及边缘计算则构成数字经济结构中最为基础的核心技术产业。在这一底层技术的支撑下,数据中心作为算力的实体承载,成为数字经济发展的至关重要的基础设施。其安全性与可靠性直接关系到互联网的方方面面,一旦发生宕机,其后果不可低估。造成的经济损失也是不可估量。
数据中心故障存在以下原因:
电力波动、断电或电缆故障都可能导致宕机。不稳定的电力供应可能对服务器和设备造成损坏;数据中心内的服务器和设备在运行时会产生大量热量,冷却系统的故障可能导致温度升高,最终损害硬件并触发宕机;网络故障可能阻碍数据中心内部设备之间的通信,也可能影响数据中心与外部世界的连接;服务器、存储设备或网络设备的硬件故障可能导致宕机;操作系统或应用程序中的软件错误可能导致系统崩溃。这可能是由于程序错误、漏洞或不当的配置引起的;机房设备巡检出错导致严重的业务中断和数据丢失,也是造成宕机很重要的的一个原因。
机房巡检失误引起宕机:
1. 忽略关键设备的检查:如果巡检人员忽略了关键的设备、服务器或冷却系统的检查,可能导致未能及时发现设备故障或冷却问题,从而引发宕机。
2. 巡检频率不足:如果巡检频率太低,某些问题可能在下次巡检之前就发生。设备故障或其他潜在问题可能会在巡检周期外引发宕机。
3. 数据分析不足:巡检系统的数据分析部分如果没有充分考虑到异常模式,可能导致潜在故障未被及时识别,从而造成宕机。
4. 人为错误:人为因素,如误操作、错误的巡检流程执行或对报警信号的错误解读,可能导致对真实问题的忽视或错误的干预。
5. 巡检系统故障:如果巡检系统本身存在故障或漏洞,可能导致未能正常收集或报告关键数据,从而无法预防机房宕机。
宕机真的不可避免吗?
从现实的技术发展水平看,确实如此。因为无论是本地计算还是云计算,互联网的服务数据终究要流向数据中心,要汇集到几个中心节点上,这种物理属性决定了数据中心无法规避外界因素,也就无法做到永不宕机。而企业的安全冗余和灾备能力受“投入产出比”影响,也不可能无限进行备份。单纯指望企业从商业利益的角度出发,全力保障数字基础设施的安全稳定肯定是有局限性的。
据《2022中国数据中心运营质量发展报告》数据显示,只有38%的数据中心从未出现过导致基础设施服务中断的运维故障,62%的数据中心因不同因素发生过基础设施服务中断,如:市电停电、市政停水、自然灾害、火灾、限电等与外部相关的问题。
数据机房智能巡检机器人助力减少机房故障和宕机风险。
1. 实时监测:配备传感器和监测设备,能够实时监测机房的温度、湿度、电压等关键参数,及时发现异常。
2.远程控制:允许远程控制和管理,以便在发现问题时能够迅速采取措施,无需等待人工干预。
3. 巡检频率:24小时不间断巡检,确保机器人能够全面、及时地检查设备和环境条件,以防止潜在故障。
4. 预测性维护:利用机器学习和数据分析技术,预测设备的寿命和潜在故障,提前进行维护,防止突发宕机。
5. 自主决策:赋予机器人一定的自主决策能力,使其能够在紧急情况下自动采取必要的措施,例如关闭设备、切换备用系统等。
6. 报警系统:配备高效的报警系统,及时通知运维人员或自动执行预定的紧急处理流程,以最小化故障对系统的影响。
7. 远程维护:具备远程维护功能,可以通过网络进行设备调试、升级和修复,减少人工介入的需求。
8. 数据记录与分析:持续记录机房运行数据,通过分析历史数据,识别出现故障的模式,为未来的维护工作提供指导。
国家电网
采购我司机房巡检机器人,面积1000㎡左右;巡检范围包括设备关键指示灯、冷热通道及机房环境指标等。提升了巡检质量,降低了漏检率和误检率;简化了机房运维管理工作,节省了运维人员工作时间;准确、快速定位故障源位置,提升了维修效率。
中国移动
数据中心项目占地118亩,建筑面积15.6万平方米,总投资超过20亿元,项目共分三期建设,建成后将提供超过23000个机柜,出口带宽超过4000G。巡检范围包括设备关键指示灯、冷热通道及机房环境指标等。
中国进出口银行
巡检范围包括数据中心设备运行监测、动环监测、冷热通道、机房安保等。每天巡检7次以上,尤其是夜间巡检,大大减轻了人工巡检工作压力,实现降本增效;巡检效率是人工的3倍,准确率接近100%;保证了数据中心高效稳定运行。
北京金融资产交易所
部署面积300㎡,机柜60+;巡检范围包括机房设备运行监测、冷热通道及机房环境指标等。每天巡检10次以上,基本替代了人工的日常巡检工作;巡检效率是人工的3倍,准确率接近100%;发现数次设备隐患,保证了机房设备的高效稳定运行。
保持业务全年无中断运行是最能体现数据中心能力的一方面,防止数据中心宕机方面并没有绝对的方法。尽管系统宕机不可避免,提前预防机房宕机是确保业务连续性、数据安全和维护企业声誉的关键步骤,对于降低风险、维护可靠性至关重要。同时,伴随着AI、大数据时代的到来,数据中心运维方式也在快速演进,新兴的、智能化的技术不断的融入到数据中心,相信数据中心的运维管理将变得更加高效。
版权说明:如非注明,本站文章均为 扬州驻场服务-网络设备调试-监控维修-南京泽同信息科技有限公司 原创,转载请注明出处和附带本文链接。
请在这里放置你的在线分享代码