5月22日,中国工程院院士、鹏城实验室主任高文在2023大湾区人工智能分论坛上表示,要利用鹏城实验室的算力、公开渠道的数据,训练出大模型底座面向全社会开放,供研究人员和创业者使用。
|千亿参数规模才能叫大模型了
“要想做大模型,不是说拍拍脑袋、喊个口号那么容易,需要有算力,是有几十亿、上百亿的投入才能做出点像样的东西。”高文表示,目前我国的大模型在算力、算法、数据三个基本要素方面不同程度地面临挑战,需要逐个击破。
在大模型之前,一个AI模型的训练,通常单机单卡、或者单机多卡就可以满足,训练周期在小时到数天之间。现在,为了完成千亿参数大模型的训练,几百台服务器、数千张GPU/XPU 卡的大集群分布式训练成为必选项,训练周期也扩展到以月为单位。
为了训练1750 亿参数的GPT-3 (3000亿 token 数据),1块 A100按半精度峰值计算性能折算需要32 年, 1024块 A100 按资源利用率45% 计算需要34 天时间。当然,即使不考虑时间问题,1块 A100也是无法训练千亿参数规模的模型的,因为模型参数已经超过单卡显存容量。
在分布式训练的环境下进行大模型训练,训练周期从单卡几十年缩短到几十天,需要突破计算墙、显存墙、通信墙等各种挑战,使得集群内的所有资源都能被充分利用,加速训练过程,缩短训练周期。
随着大模型的参数越来越大,对应的集群规模也越来越大,这三堵墙也越来越高。同时,在大集群长时间训练过程中,还会出现设备故障,有可能会影响或者中断训练进程。
|AI大底座加速大模型训练
结合多年在AI 和大模型领域的技术积累和工程实践,百度在2022 年底推出了全栈自研的AI 基础设施AI大底座,包括芯片 – 框架 – 模型三层技术栈,在各个层面都拥有关键自研技术和领先产品,分别对应昆仑芯、飞桨 (PaddlePaddle)、文心大模型。
在这三层技术栈的基础上,百度智能云推出了两大AI 工程平台,AI中台和百度百舸· AI 异构计算平台,分别在开发和资源层面进行提效,完成对三堵墙的突破,加速训练过程。
其中,AI中台依托 AI框架为大模型训练过程制定并行策略和优化过的环境,覆盖训练的全生命周期。
AI大底座对各层的技术栈进行了全栈融合、系统优化,完成了云和智的技术一体化建设,可以实现对大模型训练的端到端优化和加速。
|国内已有超过20家企业入局大模型赛道
从百度“文心一言”、阿里“通义千问”的发布,到360“红孩儿”、商汤“日日新”、网易“玉言”、科大讯飞“星火”、昆仑万维“天工”等的推出,再到腾讯“混元”、京东“ChatJ”、华为“盘古”等的预告。互联网巨头、科技公司纷纷秀出“肌肉”,谁也不想在这场大模型混战中掉队。
而在这场狂奔中,大模型的发展阶段已经从“通用”迈入“垂类”。
算力、大规模数据、高成本人才成为大部分企业入局通用大模型的拦路虎。但深度定制、广阔的场景应用等诉求,催生了国内垂直领域大模型的开发。
近两个月来,不少医疗、金融、教育、绘画等行业内拥有用户数据积累的中小型企业,已开始基于国内外大模型“底座”,训练适配自身的垂类模型。同时,已发布通用大模型的公司,也推出了针对特有行业的模型。
如果说通用大模型是大模型发展的初期阶段,那么垂直场景应用则可以视作其“中场战事”,在该阶段,应用与场景先行,倒逼垂直领域的大模型飞跃发展,并率先在不同产业中实现了落地价值。
|竞泰观点:分化已经出现,机会就在其中
当前国内大模型赛道主要包括三类:一类对标GPT的通用大模型,聚焦基础层的公司;一类是在开源大模型基础之上训练垂类大模型,聚焦垂直行业的企业;另一类则是专注具体应用的纯应用公司。
训练领域(垂类)模型所需要的代价和资源远远小于从零开始做通用模型。
因而,从商业逻辑的角度来看,大部分公司不具备做通用大模型的能力,巨头更适合做通用大模型,拥有丰富场景数据积累的公司更适合做垂域模型。
垂类大模型以深度解决行业需求为主,即企业在自己擅长的领域训练适合自己的“产业版GPT”。这类大模型生成的内容更符合特定垂类场景的需求,质量更高。
当前,已经可以看到不少垂类模型应用在金融、医疗、交易等场景中。比如,彭博社根据自身丰富的金融数据资源,基于GPT-3框架再训练,开发出了金融专属大模型BloombergGPT。
除了上述两种常见的模式,目前国内大模型创业赛道上还有一种专做应用的公司,它们没有研发团队,从现有大模型调用接口,做产品和运营。