训练一个1750亿参数量的模型,需要几个算法工程师?

卷友们好,我是rumor。

昨天突然被刷屏了,一句话概括就是Meta AI开源了一个1750亿参数的模型,暗戳戳直指Closed-AI的GPT-3。

OPT: Open Pre-trained Transformer Language Models
https://arxiv.org/abs/2205.01068

现实就是这么魔幻,开源公司要搞商业,商业公司要搞开源

而且作者之一是个妹子,她之前就在OpenAI(但没参与GPT-3):

eed852d07fe9c05761a0f6a2b652416f.png

就这样我的女神名单又添了一位,可惜最近网不好,加上妹子有两个名字,没有搜到太多信息,估计是一直在国外上的学。搜索的过程中我还搜到了个有些吓人的网站,叫RocketReach,从网站主页来推测一切信息都是他们爬到的,大家以后千万要注意个人信息呀:

6b929831a38a06603c5768bdae8891b3.png

好了扯远了,回到标题中的问题,训练一个1750亿参数量的模型,需要多少人力成本?

Meta给的答案是:19人,3个月

人数我是根据附录B数的,但有的同学贡献少一些,可能就是来帮个忙,只有7个同学的名字超过两次,其中3位共同一作算是项目owner:

738a5bb5bdd362f0206fb9c78c2ed497.png

3个月是从Logbook算出来的,大概从2021年10月到2022年1月。

之前就一直蛮好奇国外团队是怎么工作的,训大模型需要多少人,这次终于窥见了一二,说实话这个投入还是蛮多的,我有见过三个国内的同学都是自己一个人负责预训练,数据分布式工程都得搞,当然目的也不一样,MetaAI偏research影响力,国内更看重业务落地。

在这般投入下(除了人力外还有992个A100),却只想对齐两年前发布的GPT-3,而不是其他更新更好的语言模型,老实说这波操作我没有太读懂,可能这就是真爱吧。

为了让大家更了解OPT模型的能力,作者做了两种评估,第一种是正常评估语言模型表现

在Zero-shot、One-shot、Few-shot设定上,平均来看OPT略差一些,但实际分开看看各个数据集会有很大波动,有些结果跟模型尺寸、训练数据数量不成正相关,所以也可以认为效果是相当的。有趣的是作者指出PaLM在zero-shot的表现很好,这是一个前阵子碾压GPT-3的模型,作者猜测是因为训练数据质量又好又多导致,和我当时的猜测一样。

在对话能力上,OPT可以超过其他无监督模型,甚至追上有监督模型,作者一看还以为有数据泄露了,结果查了一下并没有找到overlap,接着又在几个数据集做了尝试,结果都是一致的,说明OPT在对话中有很强的保持角色一致的能力。

567e0b5282a9e62bb44ab45618653a6b.png

除了评估效果外,作者也进行了黄赌毒评估。一方面检测偏见,比如种族、性别、宗教等,发现略差于GPT-3;另一方面检测Toxicity,比如输入有毒的prompt,去计算生成结果的toxicity,跟GPT-3差不多;还评估了对话安全性,但同无监督模型一样,略差于有监督模型。

最后,作者也说明了OPT模型的局限:

  1. 在陈述性说明或直截了当的疑问句下表现不好

  2. 生成的句子可能会重复

  3. 会生成事实不正确的句子

  4. 有较强的倾向生成黄赌毒言论

除了模型和训练数据之外,最重要的是OPT公开了团队的Logbook,要知道现在大模型是妥妥的军备竞赛,看起来论文很容易,就一个单向transformer,可一旦尺寸上去了就有很多幺蛾子,从论文里就可以看到妹子的崩溃瞬间:

8fb6b73bb56f4a0ff20f4692d875d3aa.png

公开Logbook意味着有些坑他们帮忙填平了,不仅填坑还帮忙降血压:

ec2d94a6c015623beb0813d8068a2ede.png

Anyway,有个开源的大语言模型确实能给社区带来更多可能,我特别喜欢作者的这句话:

We aim to be fully accountable for the development lifecycle of OPT-175B, and only through increasing transparency around LLM development can we start understanding the limitations and risks of LLMs before broader deployment occurs.

不管用OpenAI那种接口的方式,还是开源模型,想使坏怎么都能找到路子的,如果不清楚模型的极限,怎么能阻止坏人呢?

f5580085ba5067457e2e70a7af6ed18e.png


我是朋克又极客的AI算法小姐姐rumor

北航本硕,NLP算法工程师,谷歌开发者专家

欢迎关注我,带你学习带你肝

一起在人工智能时代旋转跳跃眨巴眼

「元芳,你怎么看」d76e214b5c5ebb7f8ef46e7208a63e14.png

本图文内容来源于网友网络收集整理提供,作为学习参考使用,版权属于原作者。
THE END
分享
二维码
< <上一篇
下一篇>>