
就在刚刚证券配资专业门户网,ChatGPT-5.2 发布了。
这是 OpenAI 成立以来,首次发布红色警报(Code Red)后的第一款产品。
虽然在时间上,GPT-5.2 只跟 5.1 相隔了一个月。但是从公布的性能数据来看,GPT-5.2 较上一代提升巨大,而且远超谷歌和 Anthropic 的同期产品。
然而 OpenAI 的红色警报并未因此解除,这家公司仍处于危机之中。
究其原因,现在的市场已经逐渐开始对 OpenAI 祛魅,而是更冷静地审视每一分算力背后的投入产出比。在这种前所未有的环境之下,OpenAI 不仅需要证明自己是最强的,还需要证明自己不可被替代。
一
首先要说的,就是 GPT-5.2 的数学能力。
长期以来,业界普遍认为大语言模型虽然能写代码、能聊天,但在严格的数学推理上总是差强人意。这次 GPT-5.2 Thinking 在 AIME 2025 数学竞赛中拿到了 100% 的满分。

AIME 是美国数学邀请赛,题目难度远超普通高中数学,需要扎实的数学功底和灵活的解题思路。GPT-5.2 能在这样的测试中全部答对,说明它在数学推理上已经达到了相当高的水平。
在更高难度的 FrontierMath 测试中,GPT-5.2 Thinking 解决了 40.3% 的专家级数学难题。这个测试专门针对前沿数学研究设计,许多题目连专业数学家都需要花费大量时间思考。能解决其中 40% 的问题,已经展现出在辅助科学研究方面的潜力。
除了推理和数学,GPT-5.2 在专业工作领域也表现突出。
在 OpenAI 新推出的 GDPval 基准测试中,GPT-5.2 Thinking 在涵盖 44 种职业的知识工作任务上,有 70.9% 的情况下击败或打平了顶尖行业专家。
这些任务包括制作演示文稿、构建复杂的财务模型、撰写专业文档等。OpenAI 表示,它完成这些任务的速度是人类专家的 11 倍以上,成本却不到 1%。
在软件工程方面,GPT-5.2 Thinking 在 SWE-Bench Pro 上达到 55.6% 的准确率,在 SWE-bench Verified 上达到 80%。这些测试评估的是模型在真实代码库中修复 bug、实现新功能的能力。
早期测试者反馈,它在前端开发和复杂 UI 实现上尤其出色,甚至能够根据一条提示就生成包含 3D 效果和物理模拟的完整应用。
GPT-5.2 在长文档理解上也有明显进步。在 OpenAI 的 MRCRv2 测试中,它成为首个在 256k token 长度下,针对 4-needle 变体任务达到近乎 100% 准确率的模型。
这意味着用户可以上传数百页的报告、合同或研究论文,模型仍能准确理解分散在不同位置的相关信息,并进行综合分析。

在视觉理解方面,GPT-5.2 的错误率在图表推理和软件界面理解任务上几乎减半。它对图像中物体的空间位置有了更准确的把握。
OpenAI 展示了一个例子:即使输入一张模糊的主板照片,GPT-5.2 也能准确识别出各个组件的位置并标注边界框,而前代模型只能识别出少数部分且位置偏差较大。

此次发布包含三个版本。GPT-5.2 Instant 定位为日常工作的快速助手,适合信息查询、技术写作和翻译等任务。GPT-5.2 Thinking 专注于深度推理,在编程、数据分析和复杂文档处理上表现最佳,是专业工作的首选。GPT-5.2 Pro 则是最智能的版本,适合那些"值得等待高质量答案"的高难度问题。
同时这次发布最引人注目的,不仅是模型本身的能力提升,更是一个令人惊讶的效率数据:在 ARC-AGI-1 测试中,GPT-5.2 Pro 实现了约 390 倍的效率改进。
一年前,OpenAI 曾验证过一个未发布的 o3 预览版本,在 ARC-AGI-1 测试中达到 88% 的准确率,但每个任务的成本约为 4500 美元。如今,GPT-5.2 Pro 不仅将准确率提升至 90.5%,还将单任务成本降至 11.64 美元。这种量级的效率提升,意味着原本只能在实验室中演示的能力,现在有可能真正走向实际应用。

ARC-AGI 测试被设计用来衡量抽象推理能力,它要求模型在面对从未见过的模式时,仍能找出规律并给出答案。这种能力接近人类所谓的"举一反三"。
GPT-5.2 Pro 在 ARC-AGI-1 验证集上的表现,使其成为首个突破 90% 门槛的模型。在难度更高的 ARC-AGI-2 上,GPT-5.2 Thinking 也达到了 52.9% 的准确率,创下了链式思维模型的新纪录。
二
GPT-5.2 是奥特曼启动 Code Red 后的一次强有力证明,但竞争的结果不会由单一基准测试决定。真正的较量在于谁能更好地理解用户需求,谁能在保持技术领先的同时控制成本,谁能在不同应用场景中提供更可靠的服务。
一个来自 GitHub 的开源基准测试给出了答案。在 lechmazur 维护的 NYT Connections 测试中,GPT-5.2 的表现并不如预期。

NYT Connections 是《纽约 · 时报》推出的一个文字游戏,要求玩家从 16 个词语中找出四组相关的词汇。这个测试被设计成了一个 LLM 基准,通过加入额外的干扰词来增加难度,目前包含 759 个谜题。这种测试考察的是模型对语言的细微理解、联想能力和分类推理。
在这个排行榜上,Gemini 3 Pro Preview 以 96.8% 的准确率位居第一。紧随其后的是 xAI 的 Grok 4.1 Fast Reasoning,准确率为 93.5%。OpenAI 的模型中,表现最好的是 GPT-5 Pro,准确率为 83.9%,排在第八位。GPT-5.2 在高推理模式下的准确率为 77.9%,排名第 11 位。
这个结果多少有些出人意料。GPT-5.2 在数学竞赛中能拿满分,在专业工作任务中能超越人类专家,但在这个看似简单的文字游戏上,却落后于竞争对手近 20 个百分点。
深入分析会发现,这并不是简单的性能问题。NYT Connections 测试的是模型对语言文化背景的理解,对词语之间隐含关联的把握,以及在多个可能性中做出合理选择的能力。
比如 BANK、INTEREST、RATE、LOAN 可能组成金融类别,也可能 BANK 与 SHORE、BEACH、COAST 组成河岸类别。
模型需要同时考虑多个维度的关联,并找到最合理的分组方式。
Gemini 3 Pro 在这个测试上的领先,说明谷歌在语言理解的某些维度上确实有独到之处。Grok 系列模型的表现也值得注意,xAI 虽然起步较晚,但在特定任务上已经展现出竞争力。
有趣的是,测试数据还显示,在最新的 100 个谜题中,各模型的排名基本保持一致,这说明训练数据污染的可能性不大。模型之间的差距是实质性的,而非来自对题目的记忆。
这个测试的存在,给 AI 社区提供了一个更全面的视角。模型能力的评估不应该只看几个主流基准测试,也需要关注那些看似边缘但实则反映深层能力的测试。
NYT Connections 考察的联想和分类能力,在实际应用中同样重要,比如在信息检索、内容推荐、知识图谱构建等场景中。
从这个角度看,奥特曼的 Code Red 警报确实还不能解除。虽然 GPT-5.2 在很多领域表现出色,但它并没有在所有维度上都取得领先。竞争对手在某些方向上依然保持着优势,甚至在扩大差距。
三
技术竞争最终要落到商业层面。OpenAI 在市场上的处境,比技术指标的对比要复杂得多。
从定价策略来看,GPT-5.2 在 API 层面的价格定在每百万输入 token 1.75 美元,每百万输出 token 14 美元,比前代 GPT-5.1 分别贵了 40%。
GPT-5.2 Pro 价格也提高了,每百万输入 token 21 美元,每百万输出 token 168 美元。

这个涨价幅度不小,OpenAI 的解释是新模型能力更强,性价比实际上更高。但对于大量调用 API 的开发者来说,成本的增加是实实在在的。
相较之下,Gemini 3 Pro 的核心型号为 gemini-3-pro-preview,其 token 定价按上下文窗口长度区分,提示词≤ 20 万 token 时,输入每百万 token 2 美元、输出每百万 token 12 美元,提示词>20 万 token 时,输入和输出价格分别翻倍至每百万 token 4 美元和 18 美元。
Claude 方面,最新的 Opus 4.5 定价大幅下调,输入每百万 token 5 美元、输出每百万 token 25 美元,相比前代降幅约 2/3,上下文窗口为 200K token,且无长上下文加价情况。
当竞争对手们如 Gemini 和 Claude 都在通过大幅降价,试图让 AI 变成像水电一样廉价的基础设施时,OpenAI 却反其道而行之,不仅没有参与价格战,反而坦然地挂出了高昂的价格标签。这只能说明一件事:奥特曼正在试图把 GPT 变成一件"奢侈品"。
在商业逻辑中,奢侈品的定义往往不在于"有用",而在于"稀缺"和"极致"。OpenAI 正在赌,赌这个世界上存在一部分最高端的智力需求,它们对价格不敏感,但对质量有着近乎偏执的要求。
对于这部分用户,只要能提供那个唯一的、最正确的答案,168 美元的价格不仅不贵,反而是一种身份和能力的筛选。
这或许才是"红色警报"在商业层面的真正回响。它不再是担心落后,而是担心平庸。
OpenAI 正在进行一场危险的博弈:它试图通过高价策略,将自己与"普通 AI "彻底区隔开来,建立起类似爱马仕或苹果那样的品牌护城河。
但这也意味着,它从此失去了"差不多就行"的容错空间。可问题就在于一旦这件昂贵的"奢侈品"在实际体验中无法提供碾压式的优越感,那么用户转身离开的速度。
况且,能挽救 OpenAI 的远不止一个高性能的模型那么简单,奥特曼现在需要的证券配资专业门户网,是一个足够动人的新故事。
捷希缘提示:文章来自网络,不代表本站观点。