重磅！人工智能大模型底座将向全社会开放

EN / 中文

网站首页 > 市场观察 > 行业动态

重磅！人工智能大模型底座将向全社会开放

发布时间：2023-06-11

24847864-ReUB4h.jpg?auth_key=1686499199-

5月22日，中国工程院院士、鹏城实验室主任高文在2023大湾区人工智能分论坛上表示，要利用鹏城实验室的算力、公开渠道的数据，训练出大模型底座面向全社会开放，供研究人员和创业者使用。

24847864-ZhRC68.jpg?auth_key=1686499199-

｜千亿参数规模才能叫大模型了

“要想做大模型，不是说拍拍脑袋、喊个口号那么容易，需要有算力，是有几十亿、上百亿的投入才能做出点像样的东西。”高文表示，目前我国的大模型在算力、算法、数据三个基本要素方面不同程度地面临挑战，需要逐个击破。

在大模型之前，一个AI模型的训练，通常单机单卡、或者单机多卡就可以满足，训练周期在小时到数天之间。现在，为了完成千亿参数大模型的训练，几百台服务器、数千张GPU/XPU 卡的大集群分布式训练成为必选项，训练周期也扩展到以月为单位。

为了训练1750 亿参数的GPT-3 （3000亿 token 数据），1块 A100按半精度峰值计算性能折算需要32 年， 1024块 A100 按资源利用率45% 计算需要34 天时间。当然，即使不考虑时间问题，1块 A100也是无法训练千亿参数规模的模型的，因为模型参数已经超过单卡显存容量。

在分布式训练的环境下进行大模型训练，训练周期从单卡几十年缩短到几十天，需要突破计算墙、显存墙、通信墙等各种挑战，使得集群内的所有资源都能被充分利用，加速训练过程，缩短训练周期。

随着大模型的参数越来越大，对应的集群规模也越来越大，这三堵墙也越来越高。同时，在大集群长时间训练过程中，还会出现设备故障，有可能会影响或者中断训练进程。

｜AI大底座加速大模型训练

结合多年在AI 和大模型领域的技术积累和工程实践，百度在2022 年底推出了全栈自研的AI 基础设施AI大底座，包括芯片 – 框架 – 模型三层技术栈，在各个层面都拥有关键自研技术和领先产品，分别对应昆仑芯、飞桨（PaddlePaddle）、文心大模型。

24847864-VVAEN6.jpg?auth_key=1686499199-

在这三层技术栈的基础上，百度智能云推出了两大AI 工程平台，AI中台和百度百舸· AI 异构计算平台，分别在开发和资源层面进行提效，完成对三堵墙的突破，加速训练过程。

其中，AI中台依托 AI框架为大模型训练过程制定并行策略和优化过的环境，覆盖训练的全生命周期。

24847864-rUTHK9.jpg?auth_key=1686499199-

AI大底座对各层的技术栈进行了全栈融合、系统优化，完成了云和智的技术一体化建设，可以实现对大模型训练的端到端优化和加速。

｜国内已有超过20家企业入局大模型赛道

从百度“文心一言”、阿里“通义千问”的发布，到360“红孩儿”、商汤“日日新”、网易“玉言”、科大讯飞“星火”、昆仑万维“天工”等的推出，再到腾讯“混元”、京东“ChatJ”、华为“盘古”等的预告。互联网巨头、科技公司纷纷秀出“肌肉”，谁也不想在这场大模型混战中掉队。

而在这场狂奔中，大模型的发展阶段已经从“通用”迈入“垂类”。

算力、大规模数据、高成本人才成为大部分企业入局通用大模型的拦路虎。但深度定制、广阔的场景应用等诉求，催生了国内垂直领域大模型的开发。

近两个月来，不少医疗、金融、教育、绘画等行业内拥有用户数据积累的中小型企业，已开始基于国内外大模型“底座”，训练适配自身的垂类模型。同时，已发布通用大模型的公司，也推出了针对特有行业的模型。

如果说通用大模型是大模型发展的初期阶段，那么垂直场景应用则可以视作其“中场战事”，在该阶段，应用与场景先行，倒逼垂直领域的大模型飞跃发展，并率先在不同产业中实现了落地价值。

｜竞泰观点：分化已经出现，机会就在其中

当前国内大模型赛道主要包括三类：一类对标GPT的通用大模型，聚焦基础层的公司；一类是在开源大模型基础之上训练垂类大模型，聚焦垂直行业的企业；另一类则是专注具体应用的纯应用公司。

训练领域（垂类）模型所需要的代价和资源远远小于从零开始做通用模型。

因而，从商业逻辑的角度来看，大部分公司不具备做通用大模型的能力，巨头更适合做通用大模型，拥有丰富场景数据积累的公司更适合做垂域模型。

垂类大模型以深度解决行业需求为主，即企业在自己擅长的领域训练适合自己的“产业版GPT”。这类大模型生成的内容更符合特定垂类场景的需求，质量更高。

当前，已经可以看到不少垂类模型应用在金融、医疗、交易等场景中。比如，彭博社根据自身丰富的金融数据资源，基于GPT-3框架再训练，开发出了金融专属大模型BloombergGPT。

除了上述两种常见的模式，目前国内大模型创业赛道上还有一种专做应用的公司，它们没有研发团队，从现有大模型调用接口，做产品和运营。

返回列表

统一服务热线：

18117862238

邮箱地址：yumiao@jt-capital.com.cn
公司地址：成都市高新区泰合·国际金融中心18层

快速链接