来自 科技 2021-10-12 19:48 的文章

微软NVIDIA发布了5300亿NLP模型“威震天-图灵”,售

300亿参数!世界上最大的NLP模型诞生了。
 
由微软和英伟达联合推出,名为威震天图灵-NLG。
 
 
 
根据他们的说法,这个量级使它不仅是世界上最大的自然语言处理模型,也是最强大的自然语言处理模型。
 
训练过程中总共使用了4480个NVIDIA A100 GPU,最终使模型在文本预测、阅读理解、常识推理、自然语言推理和词义消歧等一系列自然语言任务中达到了前所未有的准确率。
 
是GPT-3的三倍。
这个模型,简称MT-NLG,是微软图灵NLG和NVIDIA威震天-LM的继承者。
 
图灵NLG由微软于2020年2月推出,参数为170亿;威震天-LM来自NVIDIA,2019年8月发射,参数83亿。
 
 
 
它们是当时第一个和第二个大规模Transfomer架构模型。
 
我们都知道参数大的语言模型会更好,但是训练起来也很有挑战性,比如:
 
即使是最大容量的GPU也无法存储这种规模的参数。
如果不特别注意优化算法、软硬件栈,需要的大量计算操作可能会导致训练时间过长。
那么参数是GPT-3三倍的MT-NLG是如何求解的呢?
 
答案是借鉴“两大家族”的长处,将NVIDIA最先进的GPU加速训练设备与微软最先进的分布式学习系统相结合,提高训练速度。
 
 
 
并构建千亿token的语料库,共同开发优化效率和稳定性的训练方法。
 
具体来说,3D并行系统是借鉴NVIDIA威震天-LM模型的GPU并行处理和微软的开源分布式训练框架DeepSpeed创建的。
 
对于本文的5300亿参数的模型,每个模型副本跨越280个NVIDIA A100 GPU,节点间采用威震天-LM 8路张量切片,节点间采用35路流水线并行。
 
然后,DeepSpeed的数据并行性进一步扩展到数千个GPU。
 
最终,混合精度训练在基于英伟达DGX superpad的塞勒涅超级计算机上完成。
 
(这台超级计算机由560台DGX A100服务器支持,每台DGX A100有8个NVIDIA a100 80gb tensorcore GPUs,它们通过NVLink和NVSwitch完全连接在一起)。
 
该模型采用Transformer解码器的架构,层数、隐藏维数和关注头分别为105、20480和128。
 
训练数据集包括近20万本书的纯文本数据集Books3、问答网站Stack Exchange、Wikipedia、学术资源网站PubMed Abstracts、ArXiv、Wikipedia、GitHub等,是从他们之前构建的Pile数据集中选取的优质子集。
 
最终总共提取了2700亿代币。
 
 
 
五大任务准确性测试。
开发人员在以下五项任务中测试了MT-NLG的准确性。
 
在文本预测任务LAMBADA中,模型需要预测给定段落的最后一个单词。
在阅读理解任务RACE-h和BoolQ中,模型需要根据给定的段落生成问题的答案。
在常识推理任务PiQA、HellaSwag和Winogrande中,每个任务都要求模型有一定的常识。
对于自然语言推理,安立-R2和汉斯这两个硬基准测试了以前模型的典型失败案例。
词义消歧任务WiC需要这个模型从上下文中理解多义词。
结果该模型在PiQA开发集和LAMBADA测试集上实现了零样本、单样本和少样本三种设置下的最高结果。
 
他在其他任务中也取得了最好的成绩。
 
 
 
除了汇报基准任务的总结指标外,他们还对模型的输出进行了定性分析,观察到即使符号严重混淆,模型也能从上下文中推断出基本的数学运算。
 
 
 
当然,该模型也从数据中提取了刻板印象和偏见。微软和英伟达表示,他们也在解决这个问题。
 
此外,他们表示,在生产场景中使用MT-NLG必须遵守微软的“负责任的AI原则”,以减少输出内容的负面影响,但该模型尚未公开。