12月6日,谷歌官宣了其最新大模型Gemini 1.0。Gemini 1.0主打多模态能力,谷歌将Gemini定义为一款“原生多模态(natively multimodal)”模型。
Gemini Ultra的性能在大型语言模型(LLM)研发中使用的32 个广泛使用的学术基准中的30 个超过了当前最先进的结果。
在MMLU(大规模多任务语言理解)测试框架中,Gemini Ultra 的得分高达90.0%,甚至超越了人类专家。被谷歌CEO Sundar Pichai称为“谷歌迄今为止最大、能力最强的AI模型”。
那么在这个测试集中超越人类专家,到底有多厉害呢?
0 1
|可实现多模态,性能大幅提升
Gemini是基于Transformer decoder构建的多模态模型,这种技术能够处理视频、音频和文本等不同内容形式的信息。最新的Gemini模型对比之前的技术,能够进行更复杂的推理,理解更加细微的信息。它通过阅读、过滤和理解信息,可以从数十万份文件中提取要点,将有助于在从科学到金融的许多领域实现新的突破。
Gemini 1.0 共官宣三种不同规格:
中杯:Gemini Nano —— 最高效的设备任务模型;
大杯:Gemini Pro —— 适用于广泛的任务扩展的最佳模型;
超大杯:Gemini Ultra ——最大且最能胜任高度复杂任务的模型。
暂且抛开繁杂的参数信息,先来用几个案例让你全面了解Gemini 的能力。
当你随手画个鸭子,从曲线到鸭子成型,Gemini都可以精准识别。给鸭子画条波浪线,它能理解你的言外之意,精准地指出鸭子在水中游泳的场景答案。
同时它还能人性化地模仿鸭子的叫声,即使是用流利的普通话说出鸭子的叫法也不在话下。
闲着无聊,也可以和Gemini 玩个游戏,你的手指指向哪个区域,Gemini就能说出那个国家及其代表性的事物。
Gemini模型作为谷歌以及全球范围内最先发布的多模态模型,支持在云端以及边缘测运行。相关测试数据表面,Gemini Ultra 在MMLU(大规模多任务语言理解)方面优于人类专家的模型,横向对比来看多个任务性能超过GPT-4。
Gemini Ultra 在该测试中以 90.0%的准确率成为首个超越人类专家的模型,作为对比,GPT-4只有 86.4%的准确率。
0 2
|训练过程可对基础设施、算法、数据集进行创新
基础设施方面:Gemini由谷歌TPUV5e和TPUV4训练,并在训练过程中展现出工程化创新,如将4096个TPUV4每个芯片连接到一个专用的光学交换机,可以在大约10秒内动态重新配置4x4x4芯片立方体为任意的3D环形拓扑结构的超级节点,对Gemini Ultra还有热维护等功能的针对性部署。针对Ultra版本需要的高额片间互联速率,谷歌运用了OCS光交换等多个专利技术,文中暂未给出最终速率。
算法方面:使用单控制算法、XLA编译器等技术优化训练过程,还通过预防SDC等问题实现稳定训练。数据集方面:通过分词技术提高Gemini训练和推理速度,还通过一系列过滤方法保证用于训练的数据的高质量。
此次谷歌最新版本的计算芯片TPU v5p同步发布,TPU v5p是之前TPU v4版本的改进,与TPU v4相比,TPU v5p的浮点运算性能提升了两倍,它训练大语言模型的速度比TPU v4快2.8倍。中信证券认为,多模态Gemini模型的正式发布,一方面可以拓宽应用场景的拓展,另一方面能够带来算力需求的持续升级。民生证券持续看好后续AI产业的前景,认为后续GPT-5等模型的发布亦将带来更多的催化。
|拥有离线运行的能力
据DeepMind 介绍,Gemini Nano 具有完全在端侧离线运行的能力, 目前 Google 已经针对Pixel 系统自带的录音App 进行了Gemini 的适配,即使没有网络连接,也能自动根据录制的对话、采访、演示等内容生成AI 摘要。
除了系统自带App,Gemini Nano 的能力还被整合进Android 系统中,第三方应用的开发者也能通过应用适配的方式调用手机自带的Gemini 模型能力:例如手机自带的输入法能根据适配Gemini 的聊天App 中,对方发送给你的文字信息自动为你生成合适的快捷回复。
Google研发人员同时提到未来还有将Gemini 登陆其他Android 智能手机的计划,但这部分适配工作涉及到手机硬件的算力适配,因此目前暂时只有Pixel 8 Pro 是Gemini 的适配机型。
那么Gemini能完全超越 GPT 4.0 吗?虽然Google并未正面回应这个提问,但重新强调了Gemini Ultra 在MMLU 中获得的评分相比GPT-4 更高,也是目前唯一超越人类专家测试结果的AI 模型。
竞泰观点|关注算力、算法、数据等领先厂商
对整个产业来讲,谷歌产品化、商业化的推进亦将带来行业整体的变化,同时伴随GPT-5等模型的推出,预计将看到:
1)多模态模型带来的算力需求增长以及
2)越来越多的AI场景与产品的出现
Gemini的发布将进一步带来对多模态模型的更多期待,对产业而言,多模态料将带动算力需求的提升;而在中长期来看,预计多模态模型的升级将丰富相关产品的使用场景,叠加硬件升级、算法优化带来的成本优化,2C产品的进展值得期待。
持续看好本轮生成式AI浪潮对科技产业的长周期影响和改变,继续关注算力、算法、数据、应用等环节的领先厂商。