12月20日,OpenAI在其为期12个工作日的线上新品发布活动最后一日宣布推出下一代模型o3及其精简版o3-mini。o3在多个方面显著超越了其前代o1,在软件工程、竞赛数学和掌握人类博士级别的自然科学知识能力等方面表现出色。尤其在ARC-AGI评估中,o3的成绩达到75.7%至87.5%,超过了人类水平的85%门槛。
|o3究竟能有多强大呢?
根据OpenAI的介绍,o3模型在ARC-AGI基准上获得了破纪录的成绩。ARC-AGI由Keras之父François Chollet开发,主要通过图形逻辑推理来评估模型的推理能力。该基准以100%为满分,在低计算场景中,o3取得了75.7%的高分;而在高计算测试中,这一成绩更是达到了87.5%,超过了标志着人类水平的85%门槛。相比之下,目前开放的o1模型得分仅在25%到32%之间,o3的表现几乎是其三倍以上。
编程能力与代码生成
在衡量编程能力的Codeforces Elo评分中,o3模型取得了2727的Elo评分,远超o1的1891分。这表明o3不仅在推理能力上有所突破,在编程方面同样表现出色。事实上,即使是o3 mini版本,在中等推理时间模式下的表现也已经超越了o1。
代码生成评估
在OpenAI于8月推出的SWE-bench Verified代码生成评估基准中,o3的准确率达到了71.7%,比o1高出22.8个百分点。这进一步证明了o3在代码生成方面的显著进步。
数学竞赛与学术测试
o3还在2024年美国AIME数学竞赛中取得了96.7%的准确率,仅错失了一道题,并在GPQA Diamond(一套研究生级别的生物、物理和化学试题)中取得了87.7%的高分。这些成绩展示了o3在处理复杂数学问题和高级学术题目上的强大能力。
数学推理的新高度
尤为值得一提的是,o3在EpochAI的“FrontierMath”基准测试中创造了新纪录,成功解决了25.2%的问题——而此前没有任何其他模型能够在这个测试中超过2%的解题率。
|o3模型可以接近实现AGI
“通用人工智能”(AGI,Artificial General Intelligence)是指能够完成人类所能执行的任何任务的人工智能系统。OpenAI对此有着独特的定义:“在最具经济价值的工作上胜过人类的高度自主系统。”实现AGI不仅是一个大胆的技术宣言,对于OpenAI而言,更具有深远的现实意义。根据OpenAI与其亲密合作伙伴和投资方微软之间的协议条款,一旦OpenAI达到AGI标准,它将不再有义务让微软使用其最先进技术——即那些符合AGI定义的技术。
OpenAI首席执行官山姆·奥尔特曼(Sam Altman)宣布,公司计划在1月底前正式推出o3 mini,并随后推出完整版的o3。这一系列新模型标志着OpenAI在构建更强大的大型语言模型方面迈出了重要一步,旨在超越现有模型,吸引新的投资和用户。
技术进步与安全测试
OpenAI在其博客文章中提到,o1模型已经展示了处理复杂任务的能力,能够解决比以往科学、编码和数学模型更具挑战性的问题。而最新的o3和o3 mini模型目前正在接受内部安全测试,预计它们将显著优于之前的o1模型。
AI军备竞赛的序幕
OpenAI两年前发布了ChatGPT,这款由GPT-3.5驱动的聊天机器人拉开了AI军备竞赛的序幕。2023年,OpenAI推出了更为准确且具创造性的GPT-4。最近,公司又推出了首个推理模型o1,进一步扩展了其技术边界。
|主要竞争对手也已纷纷推出了推理模型
随着OpenAI首批推理模型o1的发布,主要竞争对手如谷歌和Meta也纷纷推出了各自的推理模型。本月早些时候,谷歌发布了其旗舰模型Gemini的新版本,据称其速度是上一代模型的两倍,能够“思考、记忆、计划,甚至代表你采取行动”。Meta首席执行官马克·扎克伯格最近也透露,计划于明年推出Llama 4。
这些动向表明,人工智能领域的竞争正在加剧,各方都在努力开发更智能、更高效的模型,以解决复杂的现实问题。
OpenAI周五的最新亮相为公司为期12天的直播产品发布会画上了圆满句号。在这次直播中,OpenAI不仅推出了更昂贵的新ChatGPT Pro订阅选项(每月200美元),还正式对外推出了AI视频生成模型Sora Turbo以及其他新产品。此外,ChatGPT搜索功能也得到了全面升级,新增地图集成、实时搜索等功能,并向所有用户开放。
o3模型不仅展示了强大的技术实力,也在推动AI安全性和伦理性的讨论。随着更多先进模型的推出,人工智能领域将继续快速发展,为社会带来更多机遇与挑战。