谷歌推出最强多模态Gemini，GPT-4地位难保？

EN / 中文

网站首页 > 市场观察 > 行业动态

发布时间：2023-12-17

25200504-2KurDY.jpg?auth_key=1702828799-

12月6日，谷歌官宣了其最新大模型Gemini 1.0。Gemini 1.0主打多模态能力，谷歌将Gemini定义为一款“原生多模态（natively multimodal）”模型。

Gemini Ultra的性能在大型语言模型（LLM）研发中使用的32 个广泛使用的学术基准中的30 个超过了当前最先进的结果。

在MMLU（大规模多任务语言理解）测试框架中，Gemini Ultra 的得分高达90.0%，甚至超越了人类专家。被谷歌CEO Sundar Pichai称为“谷歌迄今为止最大、能力最强的AI模型”。

那么在这个测试集中超越人类专家，到底有多厉害呢？

｜可实现多模态，性能大幅提升

Gemini是基于Transformer decoder构建的多模态模型，这种技术能够处理视频、音频和文本等不同内容形式的信息。最新的Gemini模型对比之前的技术，能够进行更复杂的推理，理解更加细微的信息。它通过阅读、过滤和理解信息，可以从数十万份文件中提取要点，将有助于在从科学到金融的许多领域实现新的突破。

Gemini 1.0 共官宣三种不同规格：

中杯：Gemini Nano —— 最高效的设备任务模型；

大杯：Gemini Pro —— 适用于广泛的任务扩展的最佳模型；

超大杯：Gemini Ultra ——最大且最能胜任高度复杂任务的模型。

25200504-H2zkJI.jpg?auth_key=1702828799-

暂且抛开繁杂的参数信息，先来用几个案例让你全面了解Gemini 的能力。

25200504-AyYKzd.jpg?auth_key=1702828799-

当你随手画个鸭子，从曲线到鸭子成型，Gemini都可以精准识别。给鸭子画条波浪线，它能理解你的言外之意，精准地指出鸭子在水中游泳的场景答案。

同时它还能人性化地模仿鸭子的叫声，即使是用流利的普通话说出鸭子的叫法也不在话下。

25200504-eNkPGC.jpg?auth_key=1702828799-

闲着无聊，也可以和Gemini 玩个游戏，你的手指指向哪个区域，Gemini就能说出那个国家及其代表性的事物。

Gemini模型作为谷歌以及全球范围内最先发布的多模态模型，支持在云端以及边缘测运行。相关测试数据表面，Gemini Ultra 在MMLU（大规模多任务语言理解）方面优于人类专家的模型，横向对比来看多个任务性能超过GPT-4。

Gemini Ultra 在该测试中以 90.0%的准确率成为首个超越人类专家的模型，作为对比，GPT-4只有 86.4%的准确率。

25200504-QD8OOt.jpg?auth_key=1702828799-

｜训练过程可对基础设施、算法、数据集进行创新

基础设施方面：Gemini由谷歌TPUV5e和TPUV4训练，并在训练过程中展现出工程化创新，如将4096个TPUV4每个芯片连接到一个专用的光学交换机，可以在大约10秒内动态重新配置4x4x4芯片立方体为任意的3D环形拓扑结构的超级节点，对Gemini Ultra还有热维护等功能的针对性部署。针对Ultra版本需要的高额片间互联速率，谷歌运用了OCS光交换等多个专利技术，文中暂未给出最终速率。

算法方面：使用单控制算法、XLA编译器等技术优化训练过程，还通过预防SDC等问题实现稳定训练。数据集方面：通过分词技术提高Gemini训练和推理速度，还通过一系列过滤方法保证用于训练的数据的高质量。

此次谷歌最新版本的计算芯片TPU v5p同步发布，TPU v5p是之前TPU v4版本的改进，与TPU v4相比，TPU v5p的浮点运算性能提升了两倍，它训练大语言模型的速度比TPU v4快2.8倍。中信证券认为，多模态Gemini模型的正式发布，一方面可以拓宽应用场景的拓展，另一方面能够带来算力需求的持续升级。民生证券持续看好后续AI产业的前景，认为后续GPT-5等模型的发布亦将带来更多的催化。

｜拥有离线运行的能力

据DeepMind 介绍，Gemini Nano 具有完全在端侧离线运行的能力，目前 Google 已经针对Pixel 系统自带的录音App 进行了Gemini 的适配，即使没有网络连接，也能自动根据录制的对话、采访、演示等内容生成AI 摘要。

25200504-BWfbkY.jpg?auth_key=1702828799-

除了系统自带App，Gemini Nano 的能力还被整合进Android 系统中，第三方应用的开发者也能通过应用适配的方式调用手机自带的Gemini 模型能力：例如手机自带的输入法能根据适配Gemini 的聊天App 中，对方发送给你的文字信息自动为你生成合适的快捷回复。

Google研发人员同时提到未来还有将Gemini 登陆其他Android 智能手机的计划，但这部分适配工作涉及到手机硬件的算力适配，因此目前暂时只有Pixel 8 Pro 是Gemini 的适配机型。

那么Gemini能完全超越 GPT 4.0 吗？虽然Google并未正面回应这个提问，但重新强调了Gemini Ultra 在MMLU 中获得的评分相比GPT-4 更高，也是目前唯一超越人类专家测试结果的AI 模型。

竞泰观点｜关注算力、算法、数据等领先厂商

对整个产业来讲，谷歌产品化、商业化的推进亦将带来行业整体的变化，同时伴随GPT-5等模型的推出，预计将看到：

1）多模态模型带来的算力需求增长以及

2）越来越多的AI场景与产品的出现

Gemini的发布将进一步带来对多模态模型的更多期待，对产业而言，多模态料将带动算力需求的提升；而在中长期来看，预计多模态模型的升级将丰富相关产品的使用场景，叠加硬件升级、算法优化带来的成本优化，2C产品的进展值得期待。

持续看好本轮生成式AI浪潮对科技产业的长周期影响和改变，继续关注算力、算法、数据、应用等环节的领先厂商。

上一条：行业｜国内首个数据要素标准开始实施，会带来哪些影响？

下一条：竞泰研究｜军工材料二——碳纤维

返回列表

统一服务热线：

18117862238

邮箱地址：yumiao@jt-capital.com.cn
公司地址：成都市高新区泰合·国际金融中心18层

快速链接

微信咨询
电话咨询

18117862238
返回顶部