本文作者:真实自我

新V观海外:OpenAI o1模型实测的惊艳感不足

真实自我 09-14 82
新V观海外:OpenAI o1模型实测的惊艳感不足摘要: 中新社北京月日电张杨彬全国政协*员演员甄子丹日在北京接受中新社等媒体采访时说能打动观众让观众受到感染的电影才可以被广泛传播电影的中国内核才能被更多人看到月日全国政协十四届二次会议文...

中新社北京3月5日电(张杨彬)全国政协*员、演员甄子丹5日在北京接受中新社等媒体采访时说,能打动观众、让观众受到感染的电影,才可以被广泛传播,电影的“中国内核”才能被更多人看到。3月5日,全国政协十四届二次会议文艺界小组会议在北京举行。图为全国政协*员甄子丹接受记者采访。中新社记者 杨华峰 摄...

经济观察报 社论 陈沛/文 OpenAI刚刚推出了全新的o1系列模型,包括o1-preview和o1-mini,被认为是OpenAI最近持续放风的代号为strawberry的模型项目,重点提升了模型高级推理能力。可是根据我对o1-preview模型的实测体验,惊艳感低于预期。

先思考,后回答

o1-preview模型收到问题后会先思考一段时间,自动选择必要的推理过程,然后生成结果。这是新模型最显著的特点。

例如,我先 了一个简单的示例问题“向幼儿园小朋友解释什么是怀旧”,o1-preview模型执行了4个推理步骤:理解问题要求、生成一个简单的比喻、描述怀旧的感受、整体理解怀旧的概念。执行这4个推理步骤共思考了7秒,然后生成了 。

之后我换了推理难度更高的“两根电线杆之间80米电缆”问题。这个问题我使用之前各个版本的GPT从来没有做出来过。而这次o1模型对这个问题足足思考了74秒,反复执行了28个推理步骤,最终得到了经过反复验证的正确 。

初步 下来,能明显感觉到o1-preview模型与之前模型的差异。之前的GPT系列模型的设定是无论如何先快速生成一些看上去 自然的内容,但是其中的逻辑是否合理、是否正确则不会过多验证。而o1-preview模型则是会自行选择合适的分析逻辑,并且谨慎验证思路是否合理,避免快速给出不负责任的 。

奥赛数学题依然做不对

由于OpenAI 发布o1系列模型时,重点强调了新模型在数学竞赛和编码相关的 基准方面的能力提升。因此我继续采用一道中国数学奥林匹克竞赛题“56元 和15个子集求解最小正整数”进行 。

这道题的正确 应该是41。在我的 中,o1-preview模型思考了64秒,反复执行了30个推理步骤,然后给出了50的 。虽然没有做对,但是整体解题思路已经接近,如果在正常的考试判卷中,相信o1-preview给出的证明过程也能得到部分分数。

但是,这个 并没有让我感到o1-preview模型的高级推理能力 惊艳。因为就在不久前,DeepMind也发布过Alpha Proof和Alpha Geometry 2在国际奥数竞赛中的结果,虽然那个 结果也有一定的取巧成分,但已表明这种通过模型自我对弈实现高级推理能力的做法,并不是OpenAI的 突破。

仓促发布产品的毛坯感十足

除了奥赛数学题方面的惊艳感不足之外,这次o1-preview模型的整体用户体验还不完整。目前仅支持纯文本输入,这也限制了进一步 新模型在处理几何问题等方面的高级推理能力。

特别是对于已经习惯GPT-4o的图片、语音、文档多模态处理能力的用户来说,就像是回到了Ch GPT刚发布时的感觉,没有数据分析功能,也不能访问网页内容。

而在这一版o1-preview用户体验中的最大亮点——自动思考和推理过程,其实也在之前其他AI Agent应用中出现过,似乎给用户带来的惊艳感也并不强烈。

总而言之,就像o1-preview名称所预示的含义,这版模型目前还只是预览版,后续正式发布时应该还会加上更多常见的产品功能。也许这次的新模型发布预示OpenAI开始模仿人类思考习惯,从“系统1”进军“系统2”踏上新的智能研究方向,但是o1-preview模型本身将注定只是一个过程产品。

新V观海外:OpenAI o1模型实测的惊艳感不足