微软今天升级了DeepSpeed库,使用ZeRO-2来训练大型神经网络。微软表示,内存优化技术可以训练1700亿个参数的机器学习模型。从上下文来看,NVIDIA的威震天语言模型是当今世界上最大的模型之一,拥有110亿个参数。
今天的公告是继2月份DeepSpeed Library开源发布之后,这个库被用来创建图灵-NLG。图灵-NLG有170亿个参数,是当今世界上已知的最大的语言模型。今年2月,微软推出了具有深度速度的零冗余优化器。
ZeRO通过减少数据并行中的内存冗余来实现其结果,这是将大模型拟合到内存中的另一种技术。ZeRO-1包含模型状态内存的一些优化,而ZeRO-2提供激活内存和碎片内存的优化。
DeepSpeed是为多台服务器上的分布式模型训练而设计的,但ZeRO-2也改进了单个GPU上的训练模型。据说训练模型比谷歌的BERT快30%。
微软首席技术官凯文斯科特将在周三的主题演讲中宣布更多细节。
这一消息是在微软全数字构建开发者大会(Microsoft All-Digital Build Developers Conference)开始时宣布的,会上宣布了许多人工智能的发展——包括机器学习中差分隐私的WhiteNoise Toolkit的首次亮相,以及面向人工智能工业应用的Project盆景的首次亮相。
上周,英伟达首席执行官黄仁勋介绍了安培GPU架构和A100 GPU。新的GPU芯片、多模式模型和大规模推荐系统的创建将在未来几年带来更大的机器学习模型。
标签: