训练一个1750亿参数量的模型，需要几个算法工程师？

admin • 2022-05-09 00:20 • 人工智能

卷友们好，我是rumor。

昨天突然被刷屏了，一句话概括就是Meta AI开源了一个1750亿参数的模型，暗戳戳直指Closed-AI的GPT-3。

OPT: Open Pre-trained Transformer Language Models
https://arxiv.org/abs/2205.01068

现实就是这么魔幻，开源公司要搞商业，商业公司要搞开源。

而且作者之一是个妹子，她之前就在OpenAI（但没参与GPT-3）：

就这样我的女神名单又添了一位，可惜最近网不好，加上妹子有两个名字，没有搜到太多信息，估计是一直在国外上的学。搜索的过程中我还搜到了个有些吓人的网站，叫RocketReach，从网站主页来推测一切信息都是他们爬到的，大家以后千万要注意个人信息呀：

好了扯远了，回到标题中的问题，训练一个1750亿参数量的模型，需要多少人力成本？

Meta给的答案是：19人，3个月。

人数我是根据附录B数的，但有的同学贡献少一些，可能就是来帮个忙，只有7个同学的名字超过两次，其中3位共同一作算是项目owner：

3个月是从Logbook算出来的，大概从2021年10月到2022年1月。

之前就一直蛮好奇国外团队是怎么工作的，训大模型需要多少人，这次终于窥见了一二，说实话这个投入还是蛮多的，我有见过三个国内的同学都是自己一个人负责预训练，数据分布式工程都得搞，当然目的也不一样，MetaAI偏research影响力，国内更看重业务落地。

在这般投入下（除了人力外还有992个A100），却只想对齐两年前发布的GPT-3，而不是其他更新更好的语言模型，老实说这波操作我没有太读懂，可能这就是真爱吧。

为了让大家更了解OPT模型的能力，作者做了两种评估，第一种是正常评估语言模型表现。

在Zero-shot、One-shot、Few-shot设定上，平均来看OPT略差一些，但实际分开看看各个数据集会有很大波动，有些结果跟模型尺寸、训练数据数量不成正相关，所以也可以认为效果是相当的。有趣的是作者指出PaLM在zero-shot的表现很好，这是一个前阵子碾压GPT-3的模型，作者猜测是因为训练数据质量又好又多导致，和我当时的猜测一样。

在对话能力上，OPT可以超过其他无监督模型，甚至追上有监督模型，作者一看还以为有数据泄露了，结果查了一下并没有找到overlap，接着又在几个数据集做了尝试，结果都是一致的，说明OPT在对话中有很强的保持角色一致的能力。

除了评估效果外，作者也进行了黄赌毒评估。一方面检测偏见，比如种族、性别、宗教等，发现略差于GPT-3；另一方面检测Toxicity，比如输入有毒的prompt，去计算生成结果的toxicity，跟GPT-3差不多；还评估了对话安全性，但同无监督模型一样，略差于有监督模型。

最后，作者也说明了OPT模型的局限：

在陈述性说明或直截了当的疑问句下表现不好
生成的句子可能会重复
会生成事实不正确的句子
有较强的倾向生成黄赌毒言论

除了模型和训练数据之外，最重要的是OPT公开了团队的Logbook，要知道现在大模型是妥妥的军备竞赛，看起来论文很容易，就一个单向transformer，可一旦尺寸上去了就有很多幺蛾子，从论文里就可以看到妹子的崩溃瞬间：

公开Logbook意味着有些坑他们帮忙填平了，不仅填坑还帮忙降血压：

Anyway，有个开源的大语言模型确实能给社区带来更多可能，我特别喜欢作者的这句话：

We aim to be fully accountable for the development lifecycle of OPT-175B, and only through increasing transparency around LLM development can we start understanding the limitations and risks of LLMs before broader deployment occurs.

不管用OpenAI那种接口的方式，还是开源模型，想使坏怎么都能找到路子的，如果不清楚模型的极限，怎么能阻止坏人呢？

我是朋克又极客的AI算法小姐姐rumor

北航本硕，NLP算法工程师，谷歌开发者专家

欢迎关注我，带你学习带你肝

一起在人工智能时代旋转跳跃眨巴眼

「元芳，你怎么看」

本图文内容来源于网友网络收集整理提供，作为学习参考使用，版权属于原作者。

THE END

java 人工智能大数据机器学习

二维码

自然语言处理①

< <上一篇

机器学习的书籍介绍

下一篇>>

搜索内容

训练一个1750亿参数量的模型，需要几个算法工程师？

最新文章

分类

标签云