4月18日,AI圈再迎重磅消息,Meta带着号称“有史以来最强大的开源大模型”Llama 3登场了。
Meta本次开源了Llama 3 8B与70B两款不同规模的模型,供外部开发者免费使用,未来几个月,Meta将陆续推出一系列具备多模态、多语言对话、更长上下文窗口等能力的新模型。其中,大版本的Llama 3将有超过4000亿参数有望与Claude 3“一较高下”。
与此同时,Meta首席执行官扎克伯格宣布,基于最新的Llama 3模型,Meta AI助手现在已经覆盖Instagram、WhatsApp、Facebook等全系应用,并单独开启了网站,还有一个图像生成器,可根据自然语言提示词生成图片。
|15万亿token,训练数据量大质量高
Llama 3优越的性能,离不开庞大数据集的训练——15万亿token,几乎是Llama 2的七倍。堆量只是第一步,Meta在训练时也十分重视数据质量,用上了许多过滤手段。使用合成数据(AI生成的数据)就是一个例子。
官网介绍:
我们发现前几代Llama 非常擅长识别高质量数据,因此我们使用Llama 2生成训练数据,提供给Llama 3的文本质量分类器,为Llama 3 提供支持。在接受“海量投喂”后,新版Llama在回答琐碎问题时应该能更准,在历史、STEM、工科及编程类问题时,也将显得游刃有余。
Meta还提到,Llama 3预训练数据集有超过5%的部分,来自高质量的非英语数据。加入这部分的目的在于,能更好满足各国用户、不同语言背景的使用需求。
|全面优化训练流程,训练效率比Llama 2高出3倍
Meta还分享了在训练模型的过程中,相比自己前2代模型,做出了很多流程上的优化:数据并行化、模型并行化和管道并行化。在16000个GPU的集群上训练时,实现了每个GPU超过400 TFLOPS的计算利用率。
为了最大限度地延长GPU的正常运行时间,Meta开发了一种先进的训练堆栈,可以自动执行错误检测、处理和维护。
Meta还极大地改进了硬件可靠性和静默数据损坏检测机制,并且开发了新的可扩展存储系统,以减少检查点和回滚的开销。这些改进,使总体有效培训时间超过95%。综合起来,这些改进使Llama 3的训练效率比Llama 2提高了约三倍。
|史上最安全的开源大模型
而针对外界关于开源大模型担忧最多的安全性问题,Meta这次看起来也是做了了充足准备。
Meta采用了一种新的系统级方法来负责任地开发和部署Llama 3。他们将Llama 3视为更广泛系统的一部分,让开发人员能够完全掌握模型的主导权。
指令微调在确保模型的安全性方面,也发挥重要作用。
Meta的指令微调模型,已经通过内部和外部进行了红队测试。Meta的红队利用人类专家和自动化方法来生成对抗性提示,试图引发有问题的响应。
他们进行了全面的测试,来评估模型在化学、生物、网络安全和其他风险领域相关的滥用风险。除此之外,Meta还采用了业内最为先进的大模型安全技术,出生自带Llama Guard 2、Code Shield 和 CyberSec Eval 2的新版信任和安全工具,确保模型不会被轻易越狱,输出有害内容。
竞泰讨论|Llama 3在投资领域有哪些关注点?
技术创新与应用潜力:Llama 3作为一款强大的开源大模型,拥有先进的自然语言处理能力、强大的泛化能力和高效的训练机制。投资者可以关注其在AI核心技术上的突破,以及在各个应用场景如智能客服、自动化写作、智能推荐、数据分析、代码生成等领域的广泛应用潜力。
生态系统构建:开源意味着Llama 3可能会吸引大量的开发者、企业和研究团队参与到模型的优化和应用开发中,形成围绕该模型的生态系统。投资者可以关注生态系统构建带来的网络效应,以及可能出现的新型商业模式和合作伙伴关系。
市场竞争优势:相较于同类竞品,如OpenAI的GPT系列模型,Llama 3在某些性能指标上展现出的优势,可能导致其在市场份额和品牌影响力上的提升,从而带来更高的投资回报。
商业化路径探索:尽管Llama 3是开源的,但围绕模型提供的定制服务、咨询服务、教育培训、API接口授权等增值服务可能成为其盈利模式。投资者可关注Llama 3背后的团队如何将其技术优势转化为经济效益。