9月12日,OpenAI发布了新一代o1系列模型,宣称可以推理复杂的任务并解决比以前的科学、编码和数学模型更难的问题。这些进展也被认为是朝向通用人工智能(AGI)的关键突破。
|开启复杂推理新篇章
OpenAI表示,新模型在处理复杂推理任务方面展示了人工智能的新高度,因此决定将其命名为一个全新的标识符,而不是延续“GPT-4”的命名序列。这标志着AI 时代的重大进步——迎来了能够进行通用复杂推理的大模型。
需要注意的是,目前新模型o1 的聊天功能相对基础。与之前的GPT-4 相比,o1不能浏览网页或分析文件。尽管它具有图像分析的能力,但这项功能暂时关闭,等待进一步的测试。此外,o1还有限制消息数量的规定——o1-preview版本每周限制30条消息,o1-mini版本则每周限制50条消息。
从即日起,o1-preview和 o1-mini两个版本已经可以在ChatGPT Plus/Team 和API 接口中使用,企业和教育机构用户将在下周一后开始获得优先访问权限。
OpenAI的 CEO Sam Altman 表示:“这是我们迄今为止最强劲且表现最稳定的模型系列o1,也是我们至今为止最好的推理模型。虽然o1 仍有不足之处并且有一定的限制,但在实际使用中的表现依旧让人感到惊艳。”
|实现复杂问题的解决
OpenAI的最新模型 o1能够解决比以往 GPT更复杂的科学、编码和数学难题。
据OpenAI 的研究负责人Jerry Tworek 介绍,o1的训练方法与其前身有着本质的区别。过去的GPT 模型主要是模仿训练数据中的模式,而o1 则是通过强化学习被训练来独立解决问题,利用奖励和惩罚机制教会AI 使用“思维链”来逐步分析问题,类似于人类的思维方式。
这意味着现在的ChatGPT 在提供答案之前会经过深思熟虑,而不仅仅是立刻给出答复。这种改进使得ChatGPT 从只依赖直觉式的快速反应(系统1)升级为能进行深思熟虑的反应(系统2),从而能应对更为复杂的难题。
推理大模型的特点是AI 在提供答案前会花更多时间思考,而不是简单地预测词序生成答案。在某些情况下,用户可以看到AI显示出类似于“我在考虑这样做是否可行”或“时间不多了,我需要尽快给出答案”这样的思考过程。不过,OpenAI指出,这些展示的不是原始的思维链,而是“模型生成的摘要”。
测试显示,在国际数学奥林匹克资格赛中,GPT-4o只解决了 13%的题目,而 o1解决了 83%。在编程能力的Codeforces 测试中,o1达到了第 89百分位,而 GPT-4o只达到第 11百分位。
OpenAI发现,随着更多的强化学习和允许更多的思考时间,o1的性能持续提升。此外,o1在某些测试中的表现甚至超越了人类专家,接近理科学者水平,成为首个在该测试中达到这一成就的模型。
与此同时,OpenAI还发布了 o1-mini模型,相比 o1-preview更快更便宜,价格降低了80%,适合那些需要推理但不需要广泛背景知识的应用场景。
|OpenAI正在进行新一轮融资
尽管新的OpenAI o1模型尚未具备全面的问题解决能力,但其显著增强的推理能力使其在科学、编程和数学等专业领域更具应用价值。此外,o1提升了 AI Agent 技术的标准,大大增强了科研和生产环节的能力,然而对消费者市场的意义并不大。
英伟达的首席科学家Jim Fan 表示,新的o1需要更多的计算能力和数据支持,并且能够形成数据飞轮效应。正确的答案及其思考过程可以作为优质的训练数据,帮助不断改进其推理核心,这一过程类似于AlphaGo 的价值网络通过蒙特卡洛树搜索(MCTS)生成更多精炼数据来提升自身能力。
OpenAI的 o1系列模型不仅大幅增强了推理能力,还引入了一个新的Scaling 范式:通过强化学习(RL)解锁推理时间计算(Test time compute)。
另外,据报道,OpenAI正在以约 1500亿美元的估值进行新一轮融资,预计将从包括苹果、英伟达和微软在内的投资者那里筹集约65 亿美元。同时,OpenAI还在与银行协商一项价值50 亿美元的循环信贷安排。