近日,Meta发布新一代大模型Llama 2,完全开源,并可免费用于研究和商业用途。相比Llama 1,Llama 2的预训练语料库大小增加了40%,模型上下文长度增加了一倍,并采用分组查询注意力机制。此次发布包括Llama 2的70亿、130亿和700亿三种参数变体。
不少重磅合作伙伴宣布加入该开放生态,包括微软 Azure、亚马逊AWS和类似Github的开源AI社区Hugging Face。
Llama 2的开源对于大量的开发者而言是一个福音,意味着大模型应用进入了“免费时代”,初创公司也能够以低廉的价格来创建类似ChatGPT这样的聊天机器人。
|大模型领域的格局产生变化
Llama 2 模型系列包含 70亿、130 亿和700 亿三种参数变体,相比上一代的训练数据增加了40%,在包括推理、编码、精通性和知识测试等许多外部基准测试中展示出了优越的表现,且支持多个语种。
在推出首个开源Llama2 中文语言大模型之后,LinkSoul.AI团队将目光投向了目前全球尚外于发展初期的语音文本多模态大模型和图文大模型,并再次率先开源了相关的模型,提供国内开发者免费下载、自由商用。
Llama 2的开源意味着企业可以访问Llama 2模型,并通过调优来创建自己的类似于ChatGPT或谷歌Bard聊天机器人这样的产品,这使得做大模型应用的开发者将最先受益,他们能够以非常低的成本为客户提供自主的大模型,提升整个社会的生产效率。
但这同时也这意味着很多在大模型上高额投资的公司变得没有那么多的价值了。现在像Llama这样复杂的模型广泛使用并免费供企业构建,可能会颠覆OpenAI等公司在新兴的生成式人工智能软件市场中建立的早期主导地位。
|大模型的壁垒正在消失
OpenAI GPT系仍一骑绝尘,但训练成本高,难复现。而开源大模型借助更大标识符训练数据集、DeepSpeed、RLHF等方式,实现低训练成本和高性能,超大模型以下大模型的壁垒正在消失。
LLaMA等优质开源模型的推出极大地加速了下游行业AI应用开发效率。基于“通用基座+迁移学习+微调”的垂类AI模型开发范式或将成为主流,优质的行业数据资源成为影响模型性能的关键。
不过,近几个月来,开源仍在竞速,并持续影响着目前的人工智能发展。除了LLaMA系列外,目前应用较广的开源大模型还包括非营利组织LAION推出的OpenFlamingo、Databricks的Dolly,以及MosaicML的MPT等。国内的例子则有百川智能的baichuan-7B中英文大模型、北京智源悟道3.0大模型系列和面壁智能的CPM-Bee 10B中文基座大模型等。
开源有利于防止大公司垄断,破除商业禁用限制。开源大模型的蓬勃发展,有望弥合开放模型和封闭模型之间的质量差距,促进破除商业化禁用限制的目标。从算力视角来看,开源还有利于降低算力成本,使大模型的使用“普惠化”。
不过,值得强调的是,对于Meta甚至众多开源者而言,开源的野心不仅是短期的商业变现,其更想引领规则设计以及搭建生态。
4月,在扎克伯格与分析师的一次电话会议中,他就谈到,如果行业能够在meta使用的基础工具上达成标准化,那么meta就能从其他人的改进中受益,这样会更好。不同开源模型所组成的生态系统永远是OpenAI的潜在竞争对手。
竞泰讨论|对国内大模型公司的影响?
Llama2的释出削弱了国产大模型创业公司在市场上的竞争力。从许多公开的测试集上可以看到,国内大部分的大模型公司的水平距离GPT-3.5 仍然有距离。也就是说,对于国内的大部分大模型创业公司来说,Llama2意味着一个价格碾压(免费)、技术更强以及可以支持商用的竞争对手。
Llama2对国内大模型公司的影响将是一个持续的过程。
如今全球范围内AIGC行业仍在起步上升阶段,并没有稳定的市场格局。由于底层技术水平仍在早期,中国市场则更加分散,尚未发展起来。全球来看GPT 的市场份额应当是最大的,而国内目前Llama2 能够受影响的市场仅仅只是担心GPT 受监管影响、且国产大模型都不适用的这部分客户,是一个暂存市场。
不过,虽然暂存市场整体并不大,但在暂存市场中证明自己的模型商业化能力已经成为许多大模型公司的融资通行证。虽然,Llama2 在技术上起到的参考价值不大(有GPT-3.5),但是公司如何应对Llama2带来的商业化危机会成为资方较为在意的点。如果说,在这场市场竞争中失败,融不到资,可能就会影响到大模型创业公司的存续问题,在目前的阶段,这可能是一个更致命的问题。