行业｜OpenAI正式发布o3，直接降维打击现有模型

网站首页 > 市场观察 > 行业动态

发布时间：2024-12-28

12月20日，OpenAI在其为期12个工作日的线上新品发布活动最后一日宣布推出下一代模型o3及其精简版o3-mini。o3在多个方面显著超越了其前代o1，在软件工程、竞赛数学和掌握人类博士级别的自然科学知识能力等方面表现出色。尤其在ARC-AGI评估中，o3的成绩达到75.7%至87.5%，超过了人类水平的85%门槛。

｜o3究竟能有多强大呢？

根据OpenAI的介绍，o3模型在ARC-AGI基准上获得了破纪录的成绩。ARC-AGI由Keras之父François Chollet开发，主要通过图形逻辑推理来评估模型的推理能力。该基准以100%为满分，在低计算场景中，o3取得了75.7%的高分；而在高计算测试中，这一成绩更是达到了87.5%，超过了标志着人类水平的85%门槛。相比之下，目前开放的o1模型得分仅在25%到32%之间，o3的表现几乎是其三倍以上。

编程能力与代码生成

在衡量编程能力的Codeforces Elo评分中，o3模型取得了2727的Elo评分，远超o1的1891分。这表明o3不仅在推理能力上有所突破，在编程方面同样表现出色。事实上，即使是o3 mini版本，在中等推理时间模式下的表现也已经超越了o1。

代码生成评估

在OpenAI于8月推出的SWE-bench Verified代码生成评估基准中，o3的准确率达到了71.7%，比o1高出22.8个百分点。这进一步证明了o3在代码生成方面的显著进步。

数学竞赛与学术测试

o3还在2024年美国AIME数学竞赛中取得了96.7%的准确率，仅错失了一道题，并在GPQA Diamond（一套研究生级别的生物、物理和化学试题）中取得了87.7%的高分。这些成绩展示了o3在处理复杂数学问题和高级学术题目上的强大能力。

数学推理的新高度

尤为值得一提的是，o3在EpochAI的“FrontierMath”基准测试中创造了新纪录，成功解决了25.2%的问题——而此前没有任何其他模型能够在这个测试中超过2%的解题率。

｜o3模型可以接近实现AGI

“通用人工智能”（AGI，Artificial General Intelligence）是指能够完成人类所能执行的任何任务的人工智能系统。OpenAI对此有着独特的定义：“在最具经济价值的工作上胜过人类的高度自主系统。”实现AGI不仅是一个大胆的技术宣言，对于OpenAI而言，更具有深远的现实意义。根据OpenAI与其亲密合作伙伴和投资方微软之间的协议条款，一旦OpenAI达到AGI标准，它将不再有义务让微软使用其最先进技术——即那些符合AGI定义的技术。

OpenAI首席执行官山姆·奥尔特曼（Sam Altman）宣布，公司计划在1月底前正式推出o3 mini，并随后推出完整版的o3。这一系列新模型标志着OpenAI在构建更强大的大型语言模型方面迈出了重要一步，旨在超越现有模型，吸引新的投资和用户。

技术进步与安全测试

OpenAI在其博客文章中提到，o1模型已经展示了处理复杂任务的能力，能够解决比以往科学、编码和数学模型更具挑战性的问题。而最新的o3和o3 mini模型目前正在接受内部安全测试，预计它们将显著优于之前的o1模型。

AI军备竞赛的序幕

OpenAI两年前发布了ChatGPT，这款由GPT-3.5驱动的聊天机器人拉开了AI军备竞赛的序幕。2023年，OpenAI推出了更为准确且具创造性的GPT-4。最近，公司又推出了首个推理模型o1，进一步扩展了其技术边界。

｜主要竞争对手也已纷纷推出了推理模型

随着OpenAI首批推理模型o1的发布，主要竞争对手如谷歌和Meta也纷纷推出了各自的推理模型。本月早些时候，谷歌发布了其旗舰模型Gemini的新版本，据称其速度是上一代模型的两倍，能够“思考、记忆、计划，甚至代表你采取行动”。Meta首席执行官马克·扎克伯格最近也透露，计划于明年推出Llama 4。

这些动向表明，人工智能领域的竞争正在加剧，各方都在努力开发更智能、更高效的模型，以解决复杂的现实问题。

OpenAI周五的最新亮相为公司为期12天的直播产品发布会画上了圆满句号。在这次直播中，OpenAI不仅推出了更昂贵的新ChatGPT Pro订阅选项（每月200美元），还正式对外推出了AI视频生成模型Sora Turbo以及其他新产品。此外，ChatGPT搜索功能也得到了全面升级，新增地图集成、实时搜索等功能，并向所有用户开放。

o3模型不仅展示了强大的技术实力，也在推动AI安全性和伦理性的讨论。随着更多先进模型的推出，人工智能领域将继续快速发展，为社会带来更多机遇与挑战。

上一条：资讯｜特朗普对欧洲发出“最后通牒”，不买油气就加关税！

下一条：政策｜证监会发布新规，有哪些利好信息？

返回列表

统一服务热线：

18117862238

邮箱地址：zhangruxia@jt-capital.com.cn
公司地址：成都市高新区泰合·国际金融中心18层

快速链接

微信咨询
电话咨询

18117862238
返回顶部