NVIDIA A100 GPU中的TF32将AI训练与HPC速度提升20倍

科技 2020-08-18 12:11:23

来源：责任编辑：李琦 188

　　NVIDIA Ampere架构内置TF32，能够加快单精度作业速度，保持精度且无需使用任何新代码。

　　与所有计算一样，你必须选择最佳的数值格式才能做好AI。由于深度学习是一个新兴领域，因此对于训练和推理需要哪种格式的数值，大家仍存在激烈的争论。

　　去年，我们讲解了各流行格式之间的差异，例如AI和高性能计算中使用的单精度、双精度、半精度、多精度和混合精度数学。如今，NVIDIA Ampere架构引入了一种新的方法，用于提高广泛用于AI的单精度模型的训练性能。

　　TensorFloat-32(TF32)是NVIDIA A100 GPU 中用于处理矩阵数学的新数值格式。矩阵数学也被称为张量运算，是AI和部分HPC应用主要使用的运算。与Volta GPU上的单精度浮点数值(FP32)相比，在A100 GPU Tensor核心上运行的TF32可提供高达10倍的加速。将TF32与A100上的结构稀疏性相结合后，相比于Volta可达到20倍性能提升。

　　认识新的数值

　　现在让我们先来了解TF32的工作原理和它的“用武之地”。

　　数值格式就像标尺。其指数位决定了它的范围和可以测量的对象大小。而它的精度则取决于其小数部分的尾数位，也就是底数或小数点后的浮点数。

　　一个好的格式必定是一个平衡的格式。它的位数既需要能够满足精度要求，同时也不能过多，否则就会减慢处理速度并造成内存膨胀。

　　下图显示的是TF32如何通过混合在张量运算中实现这种平衡。

　　TF32在性能、范围和精度上实现了平衡

　　TF32采用了与半精度(FP16)数学相同的10位尾数位精度，这样的精度水平远高于AI工作负载的精度要求，有足够的余量。同时，TF32采用了与FP32相同的8位指数位，能够支持与其相同的数字范围。

　　这样的组合使TF32成为了代替FP32，进行单精度数学运算的绝佳替代品，尤其是用于大量的乘积累加运算，其是深度学习和许多HPC应用的核心。

　　借助于NVIDIA库，用户无需修改代码，即可使其应用程序充分发挥TF32的各种优势。TF32 Tensor Core根据FP32的输入进行运算，并生成FP32格式的结果。目前，其他非矩阵运算仍然使用FP32。

　　为获得最佳性能，A100还具有经过增强的16位数学功能。它以两倍于TF32的速度支持FP16和Bfloat16(BF16)。利用自动混合精度，用户只需几行代码就可以将性能再提高2倍。

　　TF32的累累硕果

　　与FP32相比，TF32训练BERT的速度提高了6倍，而BERT是当今要求最高的对话式AI模型之一。其他依赖矩阵数学的AI训练和HPC应用上的应用级结果将因工作负载而异。

　　为验证TF32的精度，我们使用它训练了大量的AI网络，包括计算机视觉、自然语言处理和推荐系统等各种应用。结果显示，它们都具有与FP32相同的收敛到某一精度的行为。

　　而这正是NVIDIA将TF32设置为cuDNN库的默认数值格式的原因，cuDNN库可以加速神经网络上的关键数学运算。同时，NVIDIA正在与开发AI框架的开源社区合作，致力于使TF32成为A100 GPU上的默认训练模式。

　　今年6月份，开发人员将可以在NGC的NVIDIA GPU加速软件列表中获取支持 TF32 的Tensorflow版本和Pytorch 版本。

　　TensorFlow产品管理总监Kemal El Moujahid表示：“TensorFloat-32为AI应用提供了触手可及的训练与推理的大幅性能提升，同时又保持了FP32的精度。”

　　他还补充道：“我们计划在TensorFlow中提供TensorFloat-32原生支持，以使数据科学家无需修改任何代码，就可以利用NVIDIA A100 Tensor Core GPU获得大幅度的性能提升，从中受益。”

　　PyTorch团队发言人表示：“机器学习研究人员、数据科学家和工程师希望加快解决方案的实现时间。当TF32与PyTorch实现本机集成时，可使用基于NVIDIA Ampere架构GPU快速实现加速，而且无需更改任何代码，同时还能保持FP32的精度。”

　　TF32 加速HPC线性求解器

　　线性求解器是HPC应用的一种，使用重复矩阵数学计算的算法，其也将从TF32中受益。此类应用被广泛用于地球科学、流体动力学、医疗、材料科学和核能以及石油和天然气勘探等领域。

　　30多年来，全球都在使用运用FP32达到FP64精度的线性求解器。去年，一项针对国际热核实验堆的聚变反应研究表明，混合精度技术使用NVIDIA FP16 Tensor Core核心使此类求解器的速度增至3.5倍。在该研究中，这项技术还使Summit超级计算机的HPL-AI基准性能增至3倍。

　　为证明TF32为线性系统求解器所带来的强大功能和鲁棒性，我们在SuiteSparse矩阵集合中使用cuSOLVER(位于A100上的CUDA 11.0中)运行各种测试。在测试中，与包含FP16和BF16的其他tensor-core核心模式相比，TF32能够提供最快、最可靠的结果。

　　除线性求解器之外，其他高性能计算领域也使用FP32矩阵运算。NVIDIA计划与业内合作，研究如何将TF32应用于目前依赖FP32的更多用例。

免责声明：以上内容为本网转自其它媒体，相关信息仅为传递更多信息之目的，不代表本网观点、亦不代表本网站赞同其观点或证实其内容的真实性。如有侵权请联系本网删除。

上一篇：仲景宛西制药董事长孙锋：中医药国际化障碍是文化和认知差异

下一篇：天淘AI新零售创始人陈顺军,引领AI新零售时代

您可能感兴趣的文章

评测

骁龙855 Plus横扫千军！黑鲨游戏手机2 Pro评测：吃鸡半小时不烫手

华为MateBook 13 2020款评测：超值的2K触控全面屏

华为畅享10e评测：超大电池续航可观！

骁龙855 Plus横扫千军！黑鲨游戏手机2 Pro评测：吃鸡半小时不烫手

华为MateBook 13 2020款评测：超值的2K触控全面屏

原创

Aura Plus旗舰版京东首发，成者生态链再添扫描仪新成员
近日,成者再次推出新款扫描仪--Aura Plus旗舰版。
北极光科技网领略炫彩科技
北极光科技网于2018年正式上线。秉承“专注、沟通、领先”的媒体理念。
2019年用哪个网盘看这一篇横评就够了
可是,就在小编准备大干一场的时候,发现以前保存的资料零七八碎,散乱不堪;如何把他们放到同一网盘里规规矩矩地归纳备份起来,就成为了新年选择的重中之重。

产品

搜狗发布AI录音笔新品推动录音笔行业智能化进程
今天，搜狗公司正式发布S1、E1两款AI录音笔新品，还与故宫宫廷文化合作推出了S1和C1 Pro两款产品的故宫宫廷联名款。
宝马纯电动IX3低伪谍照曝光：封闭式双肾格栅续航超400KM
和奔驰、奥迪等豪华品牌相比，宝马近些年来在电动车上的速度要慢了不少。
标致508 Sport Engineered官图发布：马力500匹百公里4.3秒！
标致作为法系车的代表车企，虽然较早的进入中国市场，但在国内的品牌运营方面同大众、丰田等头部车企存在一定的差距，导致如今销量也是每况愈下，在国内车市的存在感也越来越弱。

热门阅读

NVIDIA A100 GPU中的TF32将AI训练与HPC速度提升20倍

微信扫一扫：分享