网站首页 > 市场观察 > 行业动态
GPT-4o发布,多模态能力再提升!
发布时间:2024-06-01

25457179-VgWQRW.jpg?auth_key=1717343999-

OpenAI举行春季发布会,重点发布GPT-4o大模型,性能达到GPT-4 Turbo水平,能够实现多模态实时交互。同时,GPT-4o、ChatGPT会员版等多项功能未来将对所有用户免费开放,并推出桌面及手机双端应用,有望凭借易用性持续提升用户量。


25457179-zp6adm.jpg?auth_key=1717343999-


01


|端到端多模态模型,时延大幅降低

作为GPT-4的迭代版本,GPT-4o支持文本、音频和图像的任意组合作为输入,并生成文本、音频和图像的任意组合输出。GPT-4o时延大幅降低,语音模式下最短232毫秒,平均时延320毫秒,与人类在对话中的响应时间相似,而GPT-3.5及GPT-4的时延分别为2.8秒和5.4秒。我们认为GPT-4o时延降低得益于:全栈优化,OpenAI表示过去2年中花费大量精力提升每一层堆栈的效率。


端到端模型,多模态的输入和输出都由同一神经网络处理。而在GPT-4中,语音模式由三个独立模型组成,分别负责将音频转录为文本、接收文本并输出文本、将该文本转换回音频,导致GPT-4丢失了大量信息——无法直接观察音调、多个说话者或背景噪音,也无法输出笑声、歌唱或表达情感。


02


|GPT-4o将免费开放,用户量有望迎来激增

OpenAI专注于推进人工智能技术,并确保每个人可以从中受益,将直接向免费用户开放GPT-4o,实现多种功能。具体而言,ChatGPT免费用户可以使用GPT-4o访问以下功能,包括:

体验GPT-4级智能。

获取来自模型和网络的回复。

分析数据并创建图表。

对拍摄内容进行反馈。

上传文件寻求帮助总结、写作或分析。

发现并使用GPT和GPT商店。


而Plus用户则较免费用户拥有高达5倍的消息限制,并将在未来几周内体验到新版语音模式GPT-4o 的alpha版。向免费用户开放GPT-4o有望加速AI产品的渗透速度,刺激用户量激增,从而逐渐构建AI生态,相关产品将直接受益。


03


|巨头焦虑与端侧革命

市场嗅到了技术带来的机会风口,AI Agent成为科技巨头竞相追逐的前沿方向。目前,已经出现不少泛化的Agent概念产品,微软的Copilot,谷歌的Gemini都是这一队列中曾被寄予厚望的数字助手。


如今,GPT-4o的加速推出革新了智能交互的表现。前DCCI互联网数据中心创始人胡延平认为,GPT-4o重新定义了机器视觉、听觉和摄像头的交互模式,应用爆发力不可估量。


新技术进展为巨头们的错失恐惧又添一把火。据悉,谷歌计划在2024年I/O开发者大会上推出个性化数字助手“Pixie”,由Gemini驱动,有望整合多模态功能。


微软也在蓄力开拓AI Agent的新场景。为了打造个性化聊天机器人,3月19日,微软已与Inflection AI达成协议,获得其核心技术授权;针对现有最接近AI Agent的Copilot,微软正努力解决如何为生成式AI提供良好提示词,为Copilot for Micorosft 365提供补全功能。


04


竞泰观点|看好AI大模型落地

GPT-4o大幅提升人机交互体验,具备在手机、智能穿戴设备、智能家居产品、PC等硬件产品上落地的广阔空间。近期,我们注意到AI大模型硬件落地节奏加快:

1)根据彭博报道,苹果和OpenAI接近达成iOS聊天机器人协议。建议投资人关注6月11日举行的苹果WWDC 2024。


2)根据The Information报道,Meta正在探索开发带有摄像头的AI耳机,希望用于识别物体和翻译外语。2024年4月Meta发布Llama 3时,宣布雷朋智能眼镜将搭载Llama 3,将具备文本翻译、视频直播、物体识别等功能。



统一服务热线:
18117862238
邮箱地址:yumiao@jt-capital.com.cn
公司地址:成都市高新区泰合·国际金融中心18层

Copyright © 2021 jt-capital.com.cn All Rights Reserved 

版权所有: 竞泰资本 粤ICP备2022003949号-1  

快速链接

Copyright © 2021 jt-capital.com.cn All Rights Reserved 

版权所有: 竞泰资本 粤ICP备2022003949号-1