硬件可靠性测试设计实例分析
以行业标准或者国家标准为基础的可靠性测试。比如电磁兼容试验、气候类环境试验、机械类环境试验和安规试验等。
从硬件角度出发,可靠性测试分为两类:
· 以行业标准或者国家标准为基础的可靠性测试。比如电磁兼容试验、气候类环境试验、机械类环境试验和安规试验等。
· 企业自身根据其产品特点和对质量的认识所开发的测试项目。比如一些故障模拟测试、电压拉偏测试、快速上下电测试等。
下面分别先容这两类可靠性测试。
1 基于行业标准、国家标准的可靠性测试方法
产品在生命周期内必然承受很多外界应力,常见的应力有业务负荷、温度、湿度、粉尘、气压、机械应力等。各种行业标准、国家标准制定者给出了某类产品在何种应用环境下会存在多大的应力等级,而标准使用者要根据产品的应用环境和对质量的要求选定相应的测试条件即应力等级,这个选定的应力等级实质上就是产品测试规格。
在产品的测试阶段,大家必须在实验室环境下对足够的测试样本一一施加相应的应力类型和应力等级,考察产品的工作稳定性。对于通信设备而言,常见的测试项目至少包括电磁兼容试验、安规试验、气候类环境试验和机械环境试验,而上述四类测试项目还包含很多测试子项,比如气候类环境试验还包括高温工作试验、低温工作试验、湿热试验、温度循环试验等。此类测试项目还有很多,这里就不做详细先容。总的而言,所有的测试项目都属于规格符合性测试(即PASS或者FAIL测试),试验的目的都是模拟产品在生命周期内承受应力类型和应力等级,考察其工作稳定性。
2 企业设计的可靠性测试方法
由于网络产品的功能千差万别,应用场合可能是各种各样的,而与可靠性测试相关的行业标准、国家标准,一般情况下只给出了某类产品的测试应力条件,并没有指明被测设备在何种工作状态或配置组合下接受测试,因此在测试设计时可能会遗漏某些测试组合。比如机框式产品,线卡种类、线卡安装位置、报文类型、系统电源配置均可灵活搭配,这涉及到的测试组合会较多,这测试组合中必然会存在比较极端的测试组合。再如验证该机框的系统散热性能,*差的测试组合是在散热条件机框上满配*大功率的线卡板;如果考虑其某线卡板低温工作性能,比较极端的组合时是在散热条件*好的机框上配置*少的单板且配置的单板功耗*小,并且把单板放置在散热*好的槽位上。
总之,在做测试设计时,需要跳出传统测试规格和测试标准的限制,以产品应用的角度进行测试设计,保证产品的典型应用组合、满配置组合或者极端测试组合下的每一个硬件特性、硬件功能都充分暴露在各种测试应力下,这个环节的测试保证了,产品的可靠性才得到保证。
以下举两个例子来说明如何根据产品特点设计出可靠性测试方法。
2.1 实例一:包处理器外挂缓存(Buffer)的并行总线测试
为了应对网络的突发流量和进行流量管理,网络设备内部的包处理器通常都外挂了各种随机访问存储器(即RAM)用来缓存包。由于包处理和RAM之间通过高速并行总线互连,一般该并行总线的工作时钟频率可能高达800Mhz,并且信号数量众多,拓扑结构复杂,在产品器件密度越来越高的情况下,产品很可能遇到串扰、开关同步噪音(SSN)等严重的信号质量问题,针对上述可能遇到的问题,大家需进行仔细的业务设计,让相应硬件电路的充分暴露在不利的物理条件下,看其工作是否稳定。
串扰,简单的来说是一种干扰,由于ASIC内部、外部走线的原因,一根信号线上的跳动会对其他信号产生不希望的电压噪声干扰。为了提高电路工作速率和减少低功耗,信号的幅度往往很低,一个很小的信号干扰可能导致数字0或者1电平识别错误,这会对系统的可靠性带来很大影响。在测试设计时,需要对被测设备施加一种特殊的业务负荷,让被测试总线出现大量的特定的信号跳变,即让总线暴露在尽可能大的串扰条件下,并用示波器观察个总线信号质量是否可接受、监控业务是否正常。以16位并行总线为例,为了将这种串扰影响极端化,设计测试报文时将16根信号中有15根线(即攻击信号线Agressor)的跳变方向一致,即15根信号线都同时从0跳变到1,同时让另一根**扰的信号线(即Victim)从1下跳到0,让16根线都要遍历这个情况。
开关同步噪音也是RAM高速并行接口可能出现的大家所不希望的一种物理现象。当IC的驱动器同时开关时,会产生瞬间变化的大电流,在经过回流途径上存在的电感时,形成交流压降,从而产生噪音噪声(称为SSN),它可能影响信号接收端的信号电平判决。这是并行总线非常恶劣的一种工作状态,对信号驱动器的高速信号转变能力、驱动能力、电源的动态响应、电源的滤波设计构成了严峻的考验。为了验证产品在这种的工作条件下工作是否可靠,必须被测设备(DUT)加上一种特殊的测试负荷,即特殊的测试报文。
举例:
如果被测总线为16位宽,要使所有16跟信号线同步翻转,报文内容应该为:
FFFF 0000 FFFF 0000
如果被测总线为32位宽,要使所有32跟信号线同步翻转,测试报文内容应该为:
FFFF FFFF 0000 0000 FFFF FFFF 0000 0000
如果被测总线为64位宽,要使所有64根信号线同步翻转,测试报文内容应该为:
FFFF FFFF FFFF FFFF 0000 0000 0000 0000 FFFF FFFF FFFF FFFF 0000 0000 0000 0000
如果报文在DUT内部的业务通道同时存在上述位宽的总线,业务测试必须加载上述的报文,看DUT UUT在每种报文下工作是否正常,同时在相应总线上进行信号测试,看信号是否正常。
2.2 实例二:热测试
热测试通过使用多通道点温计测量产品内部关键点或关键器件的温度分布状况,测试结果是计算器件寿命(如E-Cap)、以及产品可靠性指标预测的输入条件,它是产品开发过程中的一个重要的可靠性活动。
一般而言,热测试主要是为了验证产品的热设计是否满足产品的工作温度范围规格,是实验室基准测试,这意味着为了保证测试结果的一致性,必然对测试环境进行严格要求,比如要求被测设备在一定范围内无热源和强制风冷设备运行、表面不能覆盖任何异物。但实际上很多产品的工作环境跟上述测试环境是有差异的:
? 有些产品使用时可能放在桌子上,也可能挂在墙上,而这些设备基本上靠自然散热,安装方法不同会直接影响到设备的热对流,进而影响到设备内部的温度分布。因此,测试此类设备时必须考虑不同的安装位置,在实验室条件把设备摆放在桌子热测试通过,并不代表设备挂在墙上热测试也能通过。
? 有些网络设备在网吧行业用得比较多,几台设备叠在一起使用比较常见,做类似产品的热测试时,必须考虑到产品在此情况下热测试是否符合要求。
? 一些机框式设备,由于槽位比较多,风道设计可能存在一定的死角。如果被测对象是一块业务板,而这块可以随便插在多个业务卡槽位,热测试时必须将被测板放在散热*差的槽位,并且在其旁边槽位插入规格所能支撑的大功耗业务板,后让被测单板辅助单板和满负荷工作,在这种业务配置条件下进行热测试。
3 总结
针对不同的产品形态,硬件可靠性测试项目可能有所差异,但是其测试的基本思想是一致的,其基本的思路都是完备分析测试对象可能的应用环境,在可能的应用环境下会承受可能工作状态包括极限工作状态,在实验室环境下制造各种应力条件、改变设备工作状态,设法让产品的每一个硬件特性、硬件功能都一一暴露在各种极限应力下,遗漏任何一种测试组合必然会影响到对产品的可靠性。