GPT-5.5 发布：OpenAI 最强 Agentic 模型，价格翻倍但能力跨代

By / 2026-04-30

原文： AI News · Dashveenjit Kaur · 2026-04-29
来源链接： artificialintelligence-news.com
分类： AI 日报 · 模型发布 · OpenAI

一句话概括

OpenAI 在 4 月 23 日发布 GPT-5.5，自 GPT-4.5 之后第一个重新训练的基础模型，定位”最强 Agentic AI 模型“，主打自主规划 + 工具调用 + 自我验证，能更完整地”接管”任务而不是被动应答。代价是 API 输出价格翻倍：每百万 tokens $30。

关键能力升级

硬件协同：与 NVIDIA GB200 / GB300 NVL72 机架级系统协同设计，token 使用更高效。
延迟保持：每 token 延迟与 GPT-5.4 相同，但智能水平显著提升。
实际成本上涨：OpenAI 称 token 效率改善后实际成本只多约 20%，已被 Artificial Analysis 验证。

Benchmark 数据（节选）

测试集	GPT-5.5	GPT-5.4	对手
Terminal-Bench 2.0	82.7%	75.1%	Claude Opus 4.7: 69.4%
SWE-Bench Pro	58.6%	—	—
Expert-SWE（中位 20 小时任务）	73.1%	68.5%	—
MRCR v2（百万 token 长上下文检索）	74.0%	36.6%	—
BrowseComp（GPT-5.5 Pro）	90.1%	—	公开模型第一
MCP Atlas（工具编排）	未给	—	Claude Opus 4.7: 79.1% 领先

API 定价

GPT-5.5 标准版：输入 $5 / 输出 $30（输出价为 GPT-5.4 的两倍）
GPT-5.5 Pro：输入 $30 / 输出 $180

OpenAI 内部用法

OpenAI 内部 超过 85% 的员工每周使用 Codex，覆盖工程与市场部门。

一个被官方反复提到的案例：传播团队用 GPT-5.5 处理半年的演讲申请数据，自动构建评分与风险框架，把低风险审批彻底自动化。

razor 短评

GPT-5.5 是个”能力 vs 成本”分裂得很厉害的版本：长上下文检索（MRCR v2 翻倍）、Agent 端到端任务（Terminal-Bench 突破 80%）这两块进步显著；但 MCP Atlas 工具编排还是 Claude 领先 —— 这意味着：

如果你的场景是“长上下文 + 多步自主任务”（DevOps 自动化、文档批处理、Agentic Web 浏览），GPT-5.5 现在是首选。
如果是“复杂工具链编排”（多个 MCP 协作、企业系统集成），先别急着换，Claude Opus 4.7 仍然更稳。
价格翻倍这件事 —— 只对”老用法”成立；如果你的 prompt 设计能借助新模型把多轮拆解收敛成一两轮，整体账单可能反而下降。

首席科学家 Jakub Pachocki 自己说过去两年模型进展”出奇地慢”，这句话比 benchmark 数字更值得玩味 —— 我们大概正站在下一个 S 曲线的起点。

Leave a Comment Cancel Reply