五大维度评测OpenAI全新o1模型：代码编写、游戏制作等能力“惊艳”，事实性知识却“翻了车”

每经记者郑雨航每经实习记者岳楚鹏每经编辑兰素英

传说中的“草莓”模型今天在没有任何预告下忽然上线了！

OpenAI最新发布的模型名为o1，是系列推理模型的首批版本，现阶段推出的是o1-preview（预览版）和o1-mini（迷你版）。

目前，o1-preview和o1-mini已经面向ChatGPT Plus和Team订阅用户开放，而Enterprise和Edu用户将于下周初获得访问权限。OpenAI表示，它计划向ChatGPT的所有免费用户提供o1-mini访问权限，但尚未确定发布日期。

据OpenAI介绍，在解决问题的能力方面，o1模型比以往任何模型都更接近人类思维，并且能够“推理”数学、编码和科学任务。

为了验证新模型的能力是否正如OpenAI所宣称的那么强大，《每日经济新闻》记者从经典“草莓测试”、代码编写、小游戏制作、数学与经济学，以及事实性知识这五大维度对o1-preview模型进行了测试。

结果显示，o1-preview表现出了超越OpenAI之前发布的大模型的编程和数学推理能力。例如，o1-preview能够编写出流畅运行的代码，并且在复杂环境中依然能够自行推理出解决方案。而且，记者在测试过程中也感觉到，o1-preview在人性化方面也有很大的提升，表现出了真人般的思考。不过，新模型也并非毫无缺点，在事实性知识测试就“翻车”了。

当地时间9月12日，OpenAI发布了一款名为o1的新模型，这是其计划中一系列“推理”模型中的第一个版本，也是此前业界盛传已久的“草莓”模型。

图片来源：X平台

对于OpenAI来说，o1代表着它朝着类人AI的目标又迈出了一步。OpenAI认为，o1代表着一种全新的能力，这一能力被认为如此重要，以至于公司决定从当前的GPT-4模型重新开始，完全放弃了“GPT”品牌，从1开始命名。

OpenAI表示，将从当前的GPT-4模型重新开始，“将计数器重置为 1”，甚至放弃了迄今为止定义了聊天机器人乃至整个生成式AI热潮的“GPT”品牌。o1建立了一个能够通过一系列离散步骤，谨慎而合乎逻辑地解决问题的系统，每个步骤都建立在上一个步骤的基础上，类似于人类的推理方式。

OpenAI首席科学家Jakub Pachocki表示，之前的模型在收到用户问询时会立即开始回答。“而这个模型（指的是o1）会慢慢来。它思考问题，并尝试分解问题，寻找角度，努力提供最佳答案。”这就像大多数人在幼年时被父母所要求的那样，先想好再说话。

OpenAI表示，o1在竞赛编程问题（Codeforces）中排名第89个百分点，在美国数学奥林匹克竞赛（AIME）预选赛中位列美国前500名学生之列，并且在物理、生物和化学问题的基准测试（GPQA）中超过了人类博士水平的准确度。

在OpenAI发布的研究和博客文章中，o1看起来“推理”能力十分强大，不仅可解决高级数学和编码问题，还能解密复杂的密码，以及解答来自专家学者们关于遗传学、经济学和量子物理学的复杂问题。大量图表显示，在内部评估中，o1在编码、数学和各个科学领域的问题上已经超越了公司最先进的语言模型GPT-4o，甚至可能超越了人类。

图片来源：OpenAI官网