惠普工作站Z8 G4 AI性能评测

(ChinaIT.com讯)从1982年惠普在中国建立第一个技术服务办事处、成为全球第一个在中国提供专业IT服务的厂商开始,惠普始终致力于将最佳的技术服务带给中国用户,并不断拓展服务的深度和广度。惠普的工作站已为国内外客户服务多年,深受客户的信赖和市场的肯定。

随着人工智能AI的不断发展,工作站的AI属性已经成为一个重要的一个指标。Z8 G4 属于惠普的高端工作站,可以适配2张NVIDIA RTX A6000显卡或者3张NVIDIA RTX A5000显卡,也可以适配4张NVIDIA RTX A4000显卡。搭配了专业GPU的工作站,在人工智能行业也有很大的应用空间。目前应用最为广泛的AI的应用是视觉识别方面的,这类应用被广泛的应用到产品的自动检测、行为识别、人脸识别、自动售货等领域。本次测试是针对Z8 G4在图形识别和分类领域内模型的训练性能以及推理性能。

关于惠普工作站

内部结构

内侧盖板将内部CPU和GPU分割成两个区域,这样的设计不但有利于风道的散热,还可以起到隔音和保护核心部件的作用。4个独立的硬盘仓可以支持大容量的硬盘,维护起来非常方便。

处理器:
可支持双英特尔至强可扩展处理器,最高可支持双英特尔至强铂金8260L处理器

内存:
24个内存插槽,使用 Registered DIMM 支持最多3T

扩展插槽:
3 x PCIe Gen 3 x4,4 x PCIe Gen 3 x16,最多可支持4张显卡。

硬盘:
支持SATA 硬盘驱动器(HDD)最多(5)块 8.89 厘米(3.5 英寸)7200 rpm SATA 硬盘,500GB,1.0、2.0、4.0、8.0TB最大容量共40TB;SATA 固态驱动器(SSD);PCIe 固态盘(SSD);M.2 SSD支持4块

正面

2个 USB 3.1 Gen 1 Type-A 接口(最左侧接口具有充电功能);

2个 USB 3.1 Gen 2 Type-C 接口;

1个组合耳机插孔;

1个可选介质读卡器;

1个超薄DVD ROM,实现便捷的外部扩展功能。

侧面

侧面板具有免工具拆卸功能,使用锁扣设计,维护人员可以非常方便的取下侧面板,CPU和PCIE这两个区域盖板可以单独拆装,也都是免工具的。4个硬盘插槽可以单独拆装,非常方便。

后面

6个 USB 3.1 Gen 1 (aka USB 3.0),1个串口;

1个 PS/2 键盘;

1个 PS/2 鼠标;

2个 RJ-45;

用于集成式千兆 LAN,1个音频输入端口(可被重设为麦克风端口);

1个音频线路输出端口;

1个电源接口,(可选配1700W的高效电源)

<<< 左右滑动 查看更多 >>>

除却以上强大的硬件条件外,惠普工作站在测试配置及软件列表也尽显强大。

关于本次测试

Ampere 架构的专业卡,对比上一代Turing架构的性能有非常大的提高。8nm的工艺让GPU集成更多计算单元。更强的计算能力让深度学习性能大幅提升。

Ampere架构高端显卡具有第二代的RT Core和第三代的Tensor CoreRT Core主要用途是加速光线追踪渲染,Tensor Core的主要用途是加速深度学习训练以及推理。

并且,Ampere架构开创性支持了TF32的运算,可以使用Tensor Core加速训练,在某些场景下,使用TF32可以更快训练出模型。

根据以上强大的硬件条件,工作人员对机器进行了三个测试,具体测试如下:

基础测试

1、GPU-burn稳定性测试

GPU-burn是一款显卡的烤机软件。软件长时间调用CUDA进行计算,测试过程GPU的利用率一直都接近100%。所以一直被众多专业用户用来做Linux下GPU的稳定性测试。

图片:GPU-burn稳定性测试截图

测试结果:

此次测试环境温度都在24℃,测试使用的是两张最高功耗为300W的RTX A6000显卡。在此环境下,全功率运行24小时,显卡温度一直保持在85℃以下,运行非常稳定。

2、CUDA-Z计算性能

CUDA-Z是Z系列的软件,类似CPU-Z和GPU-Z。CUDA-Z显示了一些关于支持CUDA的GPU和GPU的基本信息。通过这个软件可以检测出GPU的计算性能,例如整数、单精度浮点、双精度浮点运算等等。

测试结果:

从测试结果来看,GPU的性能随着型号的提高上升。RTX A5000的单精度浮点运算性能是RTX A4000的1.7倍,RTX A6000的浮点运算性能是RTX A4000的2.2倍。从性能对比来看,Z8 G4搭配RTX A6000会取得最佳的训练和推理性能。深度学习来说,大多数都是使用单精度或者半精度来进行训练的,不会使用双精度进行训练,所以GPU双精度性能不会影响深度学习的效率。

推理性能

测试使用NVIDIA NGC Container Tensorflow 21.07-tf1-py3 ,主要测试的训练模型有Alexnet、Resnet50、Vgg、Inception_v3、Inception_v4。这些模型都是基于TensorFlow框架的CNN模型。此次测试为了体现工作站的最佳处理能力,未使用统一的Batchsize,多次尝试不同的Batchsize之后选择性能最好的测试结果。测试分别使用单GPU、双GPU、单精度、半精度来进行训练。

               左右滑动查看更多

本次测试是基于TensorFlow的框架下,使用不同的模型,对比工作站搭配不同GPU对图片训练、处理的速度。从统计柱状图上可以看出,相同GPU型号下半精度的性能远远高于单精度。双GPU性能对比单GPU最高有90% 的性能的提升。搭配了NVIDIA GPU的惠普工作站Z8 G4处理图片的速度非常快,非常适用于类似图片识别和分类这种中、轻量化的模型训练使用。

训练测试

训练对于深度学习来说是为了得到一个好的模型,衡量的指标是准确程度。推理则不一样,其没有了训练中的反向迭代过程,是针对新的数据进行预测,而我们日常生活中使用的AI服务都是推理服务。

推理更关注的是高吞吐率、低响应时间、低资源消耗以及简便的部署流程,而TensorRT就是用来解决推理所带来的挑战以及影响的部署级的解决方案。下面我们就使用TensorRT支持的深度学习框架来做性能测试。

很多场景下,推理不需要很高的精度也能取得不错的效果,所以在推理测试中增加INT8的推理性能。

            左右滑动查看更多

推理性能测试都是基于1个GPU来进行的。多GPU情况下,推理性能会随着GPU数量成倍增加。从测试结果看,精度越低的性能越好。随着GPU型号的提升,推理的性能也会增加,Z8 G4在不同的NVIDIA 安培架构的GPU配合下,推理的处理能力表现非常好,非常适合前端推理应用。

经过基础测试、训练测试和推理测试,惠普Z8 G4出色完成了任务,并获得测试人员的大力称赞:

第一感觉惠普外观设计硬朗、沉稳、大气。前面板各种插槽配置丰富,非常有益于外设扩展。在AI各种训练和测试中,可以使用这些接口扩展各种外置资源,例如:摄像头、外部存储等等。而且机箱采用免工具设计,方便工作人员安装替换部件。使用的材料质地厚实,利于保护机箱内部核心部件。

惠普 Z Cooler静音散热解决方案,箱体内部几个区域的风道设计合理。训练时GPU产生的热量都通过风道从后部散出,不会出现内部热循环的情况,非常有利于工作站的稳定。

最高3T的大容量内存,可以在训练和推理时使用更大的Batchsize,提升AI的处理效率。

硬盘存储可以灵活扩展,支持40T的本地存储,训练时通常会使用大量的数据资源,巨大的存储对海量数据的调用很有帮助。

通过测试可以看出,惠普的Z8 G4工作站搭配Ampere架构的NVIDIA RTX A4000A5000A6000 的GPU,可以适配各种训练和推理的需求,应用场景可谓非常的广泛。具体包含以下产业:

制造业:工业产品缺陷检测、产品属性识别、自动驾驶、新材料研发等等;

产品检测

自动驾驶

娱乐行业:智能虚拟数字人、文本翻译、视频/图像编辑、AI风格化、游戏AI开发等等;

 AI补帧处理

AI风格化

医疗行业:医药研发、医疗影像的智能识别等等;

影像智能识别

安全行业:人脸识别、指纹识别、行为识别、语言识别等等;

人脸识别

行为识别

惠普Z8 G4工作站在以上领域使用中,工作效率得到明显提升,并且非常符合AI训练和推理要求的高性能和长期稳定特性。

惠普工作站作为行业内的知名品牌,拥有众多ISV认证,还拥有良好的质量保障和售后服务体系,可为用户提供7×24小时良好的技术支持,是你工作的贴心伙伴。

惠普Z8 G4工作站,生而不凡。

扫描下方「二维码」
成为惠普 Z Club会员
了解更多 更有惊喜福利等你来

ChinaIT.com 网站文章仅限于提供更多信息,不代表本网站立场观点。如需转载,请注明来源 。转载之文章来源于互联网,如有版权问题,请与我们联系:content@chinait.com。

扫码关注ChinaIT小程序,随时掌握最新IT资讯