网站首页 > 市场观察 > 行业动态
谷歌推出最强多模态Gemini,GPT-4地位难保?
发布时间:2023-12-17

25200504-2KurDY.jpg?auth_key=1702828799-

12月6日,谷歌官宣了其最新大模型Gemini 1.0。Gemini 1.0主打多模态能力,谷歌将Gemini定义为一款“原生多模态(natively multimodal)”模型。


Gemini Ultra的性能在大型语言模型(LLM)研发中使用的32 个广泛使用的学术基准中的30 个超过了当前最先进的结果。


在MMLU(大规模多任务语言理解)测试框架中,Gemini Ultra 的得分高达90.0%,甚至超越了人类专家。被谷歌CEO Sundar Pichai称为“谷歌迄今为止最大、能力最强的AI模型”。


那么在这个测试集中超越人类专家,到底有多厉害呢?


0

1


|可实现多模态,性能大幅提升

Gemini是基于Transformer decoder构建的多模态模型,这种技术能够处理视频、音频和文本等不同内容形式的信息。最新的Gemini模型对比之前的技术,能够进行更复杂的推理,理解更加细微的信息。它通过阅读、过滤和理解信息,可以从数十万份文件中提取要点,将有助于在从科学到金融的许多领域实现新的突破。


Gemini 1.0 共官宣三种不同规格:

中杯:Gemini Nano —— 最高效的设备任务模型;

大杯:Gemini Pro —— 适用于广泛的任务扩展的最佳模型;

超大杯:Gemini Ultra ——最大且最能胜任高度复杂任务的模型。


25200504-H2zkJI.jpg?auth_key=1702828799-

暂且抛开繁杂的参数信息,先来用几个案例让你全面了解Gemini 的能力。


25200504-AyYKzd.jpg?auth_key=1702828799-

当你随手画个鸭子,从曲线到鸭子成型,Gemini都可以精准识别。给鸭子画条波浪线,它能理解你的言外之意,精准地指出鸭子在水中游泳的场景答案。


同时它还能人性化地模仿鸭子的叫声,即使是用流利的普通话说出鸭子的叫法也不在话下。


25200504-eNkPGC.jpg?auth_key=1702828799-

闲着无聊,也可以和Gemini 玩个游戏,你的手指指向哪个区域,Gemini就能说出那个国家及其代表性的事物。


Gemini模型作为谷歌以及全球范围内最先发布的多模态模型,支持在云端以及边缘测运行。相关测试数据表面,Gemini Ultra 在MMLU(大规模多任务语言理解)方面优于人类专家的模型,横向对比来看多个任务性能超过GPT-4。


Gemini Ultra 在该测试中以 90.0%的准确率成为首个超越人类专家的模型,作为对比,GPT-4只有 86.4%的准确率。


25200504-QD8OOt.jpg?auth_key=1702828799-

0

2


|训练过程可对基础设施、算法、数据集进行创新

基础设施方面:Gemini由谷歌TPUV5e和TPUV4训练,并在训练过程中展现出工程化创新,如将4096个TPUV4每个芯片连接到一个专用的光学交换机,可以在大约10秒内动态重新配置4x4x4芯片立方体为任意的3D环形拓扑结构的超级节点,对Gemini Ultra还有热维护等功能的针对性部署。针对Ultra版本需要的高额片间互联速率,谷歌运用了OCS光交换等多个专利技术,文中暂未给出最终速率。


算法方面:使用单控制算法、XLA编译器等技术优化训练过程,还通过预防SDC等问题实现稳定训练。数据集方面:通过分词技术提高Gemini训练和推理速度,还通过一系列过滤方法保证用于训练的数据的高质量。


此次谷歌最新版本的计算芯片TPU v5p同步发布,TPU v5p是之前TPU v4版本的改进,与TPU v4相比,TPU v5p的浮点运算性能提升了两倍,它训练大语言模型的速度比TPU v4快2.8倍。中信证券认为,多模态Gemini模型的正式发布,一方面可以拓宽应用场景的拓展,另一方面能够带来算力需求的持续升级。民生证券持续看好后续AI产业的前景,认为后续GPT-5等模型的发布亦将带来更多的催化。


03


|拥有离线运行的能力

据DeepMind 介绍,Gemini Nano 具有完全在端侧离线运行的能力, 目前 Google 已经针对Pixel 系统自带的录音App 进行了Gemini 的适配,即使没有网络连接,也能自动根据录制的对话、采访、演示等内容生成AI 摘要。


25200504-BWfbkY.jpg?auth_key=1702828799-

除了系统自带App,Gemini Nano 的能力还被整合进Android 系统中,第三方应用的开发者也能通过应用适配的方式调用手机自带的Gemini 模型能力:例如手机自带的输入法能根据适配Gemini 的聊天App 中,对方发送给你的文字信息自动为你生成合适的快捷回复。


Google研发人员同时提到未来还有将Gemini 登陆其他Android 智能手机的计划,但这部分适配工作涉及到手机硬件的算力适配,因此目前暂时只有Pixel 8 Pro 是Gemini 的适配机型。


那么Gemini能完全超越 GPT 4.0 吗?虽然Google并未正面回应这个提问,但重新强调了Gemini Ultra 在MMLU 中获得的评分相比GPT-4 更高,也是目前唯一超越人类专家测试结果的AI 模型。


04


竞泰观点|关注算力、算法、数据等领先厂商

对整个产业来讲,谷歌产品化、商业化的推进亦将带来行业整体的变化,同时伴随GPT-5等模型的推出,预计将看到:

1)多模态模型带来的算力需求增长以及 

2)越来越多的AI场景与产品的出现


Gemini的发布将进一步带来对多模态模型的更多期待,对产业而言,多模态料将带动算力需求的提升;而在中长期来看,预计多模态模型的升级将丰富相关产品的使用场景,叠加硬件升级、算法优化带来的成本优化,2C产品的进展值得期待。


持续看好本轮生成式AI浪潮对科技产业的长周期影响和改变,继续关注算力、算法、数据、应用等环节的领先厂商。


统一服务热线:
18117862238
邮箱地址:yumiao@jt-capital.com.cn
公司地址:成都市高新区泰合·国际金融中心18层

Copyright © 2021 jt-capital.com.cn All Rights Reserved 

版权所有: 竞泰资本 粤ICP备2022003949号-1  

快速链接

Copyright © 2021 jt-capital.com.cn All Rights Reserved 

版权所有: 竞泰资本 粤ICP备2022003949号-1