数据中心发展迅猛带来的能耗“瘦身”的不良后果是什么?
2023-03-02
数据中心的快速发展带来了哪些负面影响? 那是巨大的能量消耗。 目前我国数据中心总数已超过40万个,PUE值普遍高于2.2,而美国数据中心平均PUE值为1.9。 对于大多数大公司或数据中心的 IT 主管来说,能源消耗是当前和未来需要解决的最重要问题之一。
尤其是夏季,炎热潮湿的天气不仅影响着人们的日常生活,更影响着数据中心设备的正常运行。 虽然配备了精密的散热设备和良好的通风系统,但是大量刀片服务器和精密设备的应用使得数据中心的功率密度越来越高,单靠散热系统无法满足一些场所的散热需求个案。 中心仍会形成热点,导致其温度和能耗居高不下,设备因过热而宕机的情况并不少见。 因此,数据中心是时候“瘦身”能耗了。
数据中心的节能是一个系统工程,不是针对单一产品就能节能降耗的。 新技术、新产品的采用固然必要,但如何真正找到机房能耗过高的罪魁祸首,却成了一个令人挠头的问题。 尽管信息技术从业者已经意识到电力消耗对信息技术产业发展的影响,并计算出数据中心能耗的主要原因,但影响机房能耗的因素复杂多变,每个机房的布局和环境的不同,并非所有的节能解决方案都普遍适用。 例如,在黑龙江取得优异成绩的制冷系统,在广东就不能很好地应用。
针对这种情况,全球领先的电源管理解决方案供应商力登为业界带来领先的智能电源管理技术,有效测量数据中心的能耗,从而为数据中心节能铺平道路。 整个解决方案由智能PDU(PDU)和Power IQ电源管理软件组成。
智能PDU通过机柜级和设备侧的用电监控管理,可以准确统计设备级的用电量,为电力容量控制和电费收缴提供准确的数据依据。 与普通PDU不同的是,智能PDU可以像在现场一样,远程对设备进行通电、断电、重启等操作,及时修复故障,保证系统持续运行,设置空闲插座。 PDU进入无电状态,消除插入设备时人为错误导致的PDU过载跳闸和设备停机,并通过PDU插座的来电延时配置,避免同时通电引起的瞬时电流尖峰导致的停电跳闸上的设备。 力登智能PDU最大的特点是不仅提供了每个端口的功耗计量功能,还可以监测设备所在微环境的温度、湿度、气压等状况。 力登的智能PDU采用高精度测量芯片结合自身独有的技术,真正实现了对每个端口功耗的精确测量。 更重要的是,测量数据会被收集整理,从而为管理者提供决策参考。
除了智能型PDU,电源管理软件Power IQ的作用也不容小觑。 设备功耗、设备温湿度等信息统一发送至Power IQ电源管理软件食品厂能耗管理系统供应商,由Power IQ电源管理软件进行汇总分析,并可根据管理人员的要求定制各种报表呈现给管理人员。 帮助管理者了解各个机架上的基础设备和IT设备的功耗情况。 不仅如此,软件还可以对数据进行统计趋势分析,为管理者决策提供参考。 若设备用电出现异常或设备微环境发生变化,及时报警,通知管理人员及时处理,确保设备正常运行最大程度始终处于健康状态,避免非计划停机。
通过智能电源管理解决方案,在保证机房安全运行的基础上,将现有机房的能源消耗节省30%以上,同时机房的管理也将得到改善。更加精细化和集中化,将成为数据中心智能降耗的首选。 “利器”。 来源制造商的贡献)
2022年,数字经济元年,“新基建”背景下,“智能+”工程如火如荼,数据中心成为与交通、能源一样重要的经济基础设施。
但数据中心不同于其他行业,需要运维人员7*24小时的支持,这意味着运维人员需要高效工作,数据中心才能稳定发展。 很多企业选择使用软件管理工具来提高工作效率,比如动环、网管、ITSM等。另外,我认为数据中心更迫切需要的是网络基础设施可视化系统。
那么网络基础设施可视化系统能为运维工作带来哪些价值呢?
01 减少人为失误
一言以蔽之,运维工程师的核心工作目标就是稳定运行。 实现稳定运行最重要的是排除故障,减少故障的影响。 需要达到两个极端。 一是最大限度地防止故障; 二是出现故障后尽快修复。 减少故障的影响。 这就需要深入探究导致数据中心运维失败的主要原因。 只有知道原因,才能真正做到防患于未然。
据CDCC 2022年“中国金融业数据中心运维管理发展论坛”统计,“人员误操作”是数据中心基础设施运维失败的主要原因。 我认为造成“人员误操作”的因素有几个:
人们频繁进出数据中心
运维工程师岗位流动性强
部分人员技术能力达不到岗位要求
当网络基础设施可视化系统预见到上述问题时,这些问题将迎刃而解。 上图数据以可视化的形式准确反映了设备的位置、连接关系、经过哪些配线架、对应设备的配置信息、IP地址、厂家维护信息等,您可以坐在电脑前清楚了解每一项数据中心内部情况,减少人员频繁进出。 并且嵌入流程工单逻辑,协助企业单位建立运维管理体系,实现无不必要录入,无审批不乱动,极大的避免了人员原因造成的故障误操作。
也因为有了以上可视化数据,建立了有计划、合理的运维体系,新的运维工程师也可以快速接手,减少人员流向数据中心的流失。
不仅如此,比如英伟达的网络基础设施可视化管理系统,还将设备手册的内容嵌入到设备中,将业务与设备一一关联起来,减少运维质量参差不齐导致的设备连接人员。 可以避免线缆接错、跳线随意插拔等问题,从而避免选线错误导致的丢包、影响传输速率等问题,也可以避免误操作导致关键业务中断的概率。 即使出现问题,也能实现“早发现、早预警”。
02提高安全性和可靠性
事实上,“减少人为故障”是提高安全性和可靠性的一种手段,但真正的网络基础设施可视化管理系统的功能远不止于此。 它仍然是一个系统,可以通过操作行为审计和实时监控来提高基础设施的安全性和可靠性,并结合视觉跟踪功能提高链路保障能力,同时还具有自动编码等功能,使其可以避免各部门编号规则的不一致。 或者是新运维工程师看不懂,或者存在一根线缆对应多个标签等问题。
标准的运维体系和标准化的流程记录,必将大大提高数据中心的安全性和可靠性。
03 经济价值——节约成本,创造效益
3.1节
节约建设成本
清楚地管理和记录资产状况可以最大限度地利用网络基础设施资源。 与传统的表记录方式相比,至少可以减少20%左右的闲置资产。
节省采购成本
同样,清楚记录终端连接,节省设备端口和跳线等,从而使设备上下架一目了然,节省设备等采购成本。
节省时间和成本
当前的网络基础设施管理模式完全依赖于人力。 一旦出现故障或需要取回数据或上架新任务,都需要人工接入,费时费力,且容易出现人为错误。 系统介入后,算法代替人力。 提高规划、故障排除、查询等时间成本。
节省因故障造成的业务成本
随着时间的迁移,网络基础设施等资源的终止也会发生变化。 如果没有准确的记录,一旦发生故障,将大大增加排除故障的时间,造成承载的业务中断,损失不可估量。
节省人工成本
因为基础数据清晰,日常维护不需要大量人力来支撑需求,可以处理更有意义的工作。
节省维修费用
传统上,我们依赖于表格记录能耗管理系统的意义,包括链路连接状态、IP地址、标签等,管理工具的介入大大降低了这些日常维护的成本。 所有纸质材料都可以系统化管理,避免了重复劳动,无迹可寻,也节省了做报告的时间,重点环节也能得到保障。
3.2 效益创造
在我看来,数据中心管理者首先要知道自己有什么资源,它们的分散位置,终止条件,才能实现数据中心的精细化管理。 网络基础设施管理平台可以清楚地计算实时资产数据。 摸清家族背景,回收闲置资源,为企业提供服务,为企业重新创造价值。
04 ROI分析
言无不尽,案例数据说明一切。 以北京XX研究所的项目为例。
4.1 案例背景
2020年11月实施项目,购买1000个节点。 共计26个机柜,其中服务器60多台,交换机30多台,安全设备20多台,配线架260多台。
主要问题:
大多数是带有冗余电缆的旧设备;
历史悠久的设备纸质文献较多;
没有愚蠢的资源管理工具;
它需要大量的人力并且价格昂贵。
4.2 使用前后分析
事实上:
据林科院项目统计,高级运维工程师有15%-20%的时间花在查找文件、排查僵尸线路等低效工作上。 设备每年的停机时间约为 4%。
现状:
4.3 数据分析
公式:投资回报率ROI=(2年储蓄÷2年投资)*100%
IT预算50万元/年,低效工时成本至少增加2%(预计1万元/年)
每年停机4% 停机损失MTTR 20,000 元/小时 减少停机时间20%(价值估计为200,000 元)
原机型机房扩建至少新增3个运维岗位(5000元/月工资,预估18万元)
直观的采购成本(减少服务器等设备的采购)经财务核算后降低20%(预估5万元)
2年总储蓄:(1+20+18+5)*2=88万元
投资回报率=88÷16*100%
投资回报率:550%
05 总结
行业权威公众号和专家关注最基础的网络基础设施。 在百度搜索中,有超过 3500 万个网络基础设施可视化条目。 基础设施可视化系统的建立,充分证明数据中心行业已经注意到网络基础设施管理的重要性。 是的,这个真的可以被运维工程师使用,可以真正实现数据中心的精细化管理,建立标准和规范。 运维系统的系统谁不兴奋?