波形存储是一种基于系统级可靠性设计的数据存储护航装置
- 时间:
- 浏览:0
存储系统由控制器、背板、块、硬盘、内存等组件组成的多个子系统组成,其中任何单个部件发生故障都可能导致存储系统出现问题。因此,在系统可靠工作的基础上,零件和控制系统整体的可靠性设计是不可缺少的。波浪从系统级开发存储,电路板级开发、元件导入、生产加工等多个环节保障系统的可靠性和稳定性。
系统级可靠性设计
在存储系统中,很多部件存在故障是由于系统设计的不完善和部件的不恰当使用,并不是部件本身存在故障。波存储系统级可靠性设计包括:可靠性模型的建立与评估、冗余设计、容错设计、故障隔离(故障分析)、热设计、emc/emi(电子magnetic compatibility/electromagnetic interference,电磁兼容性/电磁干扰)设计、安规设计、环境和结构设计等。
一是控制器单元的冗余设计。关键组件添加了功能完全相同的备份通道,并确保此部分发生故障不会影响系统的正常运行。对于双BIOS,如果BIOS因闪存芯片故障或更新失败而损坏,则备份BIOS将被接管,以防止无法通电。控制器的冗余设计是成本的代价,但在存储系统的设计中,可靠性是首要考虑的。
另一种是控制单元的断电保护。存储系统添加了BBU电池(Battery back-up),以抵抗电网瞬间断电或电压骤降等突发因素。软件系统将电离信号定义为最高级别的中断,控制单元及时反应电离,防止数据丢失,确保业务连续性。
第三,结构设计。结构可靠性设计是硬件可靠性设计的重要阶段。在结构设计时,首先要注意零件和零件的安装方式。其次是控制系统工作环境的条件(通风、除湿、防尘等)
第四个是抑制噪音。存储系统主要通过以下方式抑制噪声:首先,选择高效的双电机风扇,优化系统散热所需的风扇转速。然后优化节点的遮罩设计,减少单个节点的流阻。再次,系统风扇控制导入PID控制,降低低负荷时的系统风扇转速。最后,通过散热器优化、风道布局优化以及系统流阻优化改善散热效果,从而降低正常工作负载下的设备噪声。
第五,散热设计。存储系统通过对系统布局进行风道划分,一般分为:内存风道、CPU风道、节点风道、各风道之间利用机柜布局结构件实现风道串联或并联。风机散热风量通过系统风机加速后,进入并排节点风道,由节点末尾开口结构排出,保障系统稳定运行。
散热模拟模型
6、系统收集日志。存储系统在一段时间内收集系统信息,并创建可自动查看的文件。如果存储出现故障,可以使用日志快速识别故障部件。
基板开发可靠性设计
正确使用各种类型的设备和集成电路,提高硬件的可靠性是存储开发团队设计的重要因素。
一是电路设计。据统计,约45%的影响存储系统可靠性的因素来自系统设计。为了保证系统的可靠性,电路设计应考虑极端情况。单板设计,考虑所有因素的公差,为计算电路各自的特性取最不利的值。如果这组参数值保证电路正常工作,公差范围内所有其他元素的值都会使电路可靠工作。电路设计时,根据对重要零件给予热应力、电应力降低的单板零件的降低分析和FEMA(设备故障分析)的经验,进行容易损坏的集成电路、重要零件的最佳设计。
第二个是设备的选择。在确定零件参数之后,还要确定零件的型号,这主要取决于电路的公差范围。由于制造工序的原因,电容器容量等参数的公差也很大。此外,部件的额定工作条件包括电流、电压、频率、机械参数以及周围温度等各个方面,考虑参数的余量进行设计,保证在工作条件范围内工作。
三是电学性质。设备的电气性能使设备能够承受电压、电流、容量、功率等能力,但使用时必须注意设备的电气性能,不能超限使用。
第四种是SI(signal integrity信号完整性)仿真设计。随着信号频率的提高,在存储系统上分析发现和有效解决信号完整性问题变得非常复杂。存储系统通过使用名为EDA(电子设计自动化)的工具模拟和分析电路参数,可以尽早发现问题,缩短开发时间并降低成本。
信道损耗分析
信号眼睛的质量分析
五是生产流程。由于工程原因引起的故障通常很难定位检测,一个焊点的虚焊可能会在整个系统的工作过程中引起不稳定现象。因此,在设计印刷电路板时,应考虑零件布局、引线方向、引线分类顺序等。
第六个是硬件测试wave storage的研发团队,引进了价值数百万的高端测试设备,包括50G的高端示波器、50G的高带宽硬件链路错误仪以及相关的治疗装置。存储硬件开发团队制定了完全覆盖、无泄漏的信号测试规范,并进一步加强了增强测试。其中包括板间热插拔、固件反复升级验证、单/双控故障、板间信号动态测试、低温启动、高温压力测试、验证SI链路可靠性测试增强。
PCIE5.0测试
实施了可靠性确保设计
硬盘是存储介质的核心,确保机械式硬盘的安全性和可靠性成为存储开发部件团队的重要课题。波存储的开发团队通过与硬盘厂商的技术共享和独特的技术相结合,实现了磁盘加密、协议层定制、写缓存关闭等技术定制。配合Raid技术更好地保证客户对数据安全性的要求,开发独特的筛网方案和筛网设备以满足金融等行业用户的需求。
在存储方面,开发团队开发了多控制器系统,结合磁盘锁技术、硬盘定制技术和Raid技术,实现了硬盘的快速读写和安全性、可靠性。硬盘经过导入测试、兼容性测试、筛子测试、老化测试等,层层搭建牢固的底座。
硬盘测试延迟分布曲线
保证可靠性
制造是产品生命周期的重要一环。通过大量生产和用户反馈,可以发现前一阶段的设计遗漏或缺陷。
波存储器在生产线上引入了一个温线房,用于测试产品是否能根据温度条件正常稳定运行。可根据需要随时调整环境温度,可加快缺陷部件故障的再次发生。同时,增加生产模式,如极限场景测试和模拟客户实际使用场景的长稳定压力测试,以提高存储产品的稳定性和可靠性。
温循房
高端存储产品必须保证最大的稳定性。生产结束后,首先进行7-14天的长期稳定性测试。测试用例模拟顾客的实际业务状况,使用顾客经常使用的数据进行压力测试。确实工作。
基本应用相位
近年来,存储浪潮不断加大研发投资和创新力度,努力构建安全、可靠、经济、高效的数据存储基础,力求ldquo。终极稳定rdquo为不同行业维护数据存储的护卫。