降低内存故障相关的IDC服务器问题

来源: 作者:阿己 发布时间:2021-03-01 13:06:57

  在中特合作的一个相关案例中,基于算法的调整测试,将内存故障出现的可能性直接降低到最小化、更换内存模块,扩展了相关内存支持,将内存故障后发生的停止服务时间减少了四倍。

  在与美团合作的类似案例研究中,检测发现由于内存故障所致使的服务器问题减少了百分之五十。通过集成到五里界BGP数据中心云服务器上监控服务器内存模块的运行状况,分析IDC数据中心管理软件统计得到的数据,能够为每个DRAM模块生成预测分数,然后采取适当的措施来维护其SLA并提高服务器的运作效率。
 

  借助这种新型技术,中特在与国内领先的IDC服务商网盾合作中,通过BMC、BIOS和安全解决方案为IDC云服务器基础架构提供保护和管理,并扩展到整个IDC行业。

  在记录到错误后,将错误记录在BIOS上,然后将某些元数据信息传递到BMC固件。

  然后,BMC固件将获取此元数据,并通过Intel MFP引擎运行,以计算内存模块的运行状况得分。当检测到新的错误时,网盾解决方案将跟踪每个内存模块的运行状况评分,并公开结果供系统管理员进行分析。
 

  网盾默认实现在BUI的Web UI中提供当前的内存模块运行状况得分信息,并通过遵循DMTF Redfish标准的RESTful API公开相同的内存运行状况得分信息。

  RESTful API可轻松与现有IDC数据中心管理软件集成。但是,对于那些不太愿意与自己的软件集成的IDC数据中心,网盾提供了一个称为AMI Composer的数据管理工具,该工具开发为完全符合Intel Rack Scale Design和DMTF Redfish标准,它将汇总所有信息并通过一个基于Web的仪表板。