GPT-5.5 发布:OpenAI 最强 Agentic 模型,价格翻倍但能力跨代

原文: AI News · Dashveenjit Kaur · 2026-04-29
来源链接: artificialintelligence-news.com
分类: AI 日报 · 模型发布 · OpenAI

一句话概括

OpenAI 在 4 月 23 日发布 GPT-5.5,自 GPT-4.5 之后第一个重新训练的基础模型,定位”最强 Agentic AI 模型“,主打自主规划 + 工具调用 + 自我验证,能更完整地”接管”任务而不是被动应答。代价是 API 输出价格翻倍:每百万 tokens $30。

关键能力升级

  • 硬件协同:与 NVIDIA GB200 / GB300 NVL72 机架级系统协同设计,token 使用更高效。
  • 延迟保持:每 token 延迟与 GPT-5.4 相同,但智能水平显著提升。
  • 实际成本上涨:OpenAI 称 token 效率改善后实际成本只多约 20%,已被 Artificial Analysis 验证。

Benchmark 数据(节选)

测试集 GPT-5.5 GPT-5.4 对手
Terminal-Bench 2.0 82.7% 75.1% Claude Opus 4.7: 69.4%
SWE-Bench Pro 58.6%
Expert-SWE(中位 20 小时任务) 73.1% 68.5%
MRCR v2(百万 token 长上下文检索) 74.0% 36.6%
BrowseComp(GPT-5.5 Pro) 90.1% 公开模型第一
MCP Atlas(工具编排) 未给 Claude Opus 4.7: 79.1% 领先

API 定价

  • GPT-5.5 标准版:输入 $5 / 输出 $30(输出价为 GPT-5.4 的两倍)
  • GPT-5.5 Pro:输入 $30 / 输出 $180

OpenAI 内部用法

OpenAI 内部 超过 85% 的员工每周使用 Codex,覆盖工程与市场部门。

一个被官方反复提到的案例:传播团队用 GPT-5.5 处理半年的演讲申请数据,自动构建评分与风险框架,把低风险审批彻底自动化。

razor 短评

GPT-5.5 是个”能力 vs 成本”分裂得很厉害的版本:长上下文检索(MRCR v2 翻倍)、Agent 端到端任务(Terminal-Bench 突破 80%)这两块进步显著;但 MCP Atlas 工具编排还是 Claude 领先 —— 这意味着:

  • 如果你的场景是“长上下文 + 多步自主任务”(DevOps 自动化、文档批处理、Agentic Web 浏览),GPT-5.5 现在是首选。
  • 如果是“复杂工具链编排”(多个 MCP 协作、企业系统集成),先别急着换,Claude Opus 4.7 仍然更稳。
  • 价格翻倍这件事 —— 只对”老用法”成立;如果你的 prompt 设计能借助新模型把多轮拆解收敛成一两轮,整体账单可能反而下降。

首席科学家 Jakub Pachocki 自己说过去两年模型进展”出奇地慢”,这句话比 benchmark 数字更值得玩味 —— 我们大概正站在下一个 S 曲线的起点。

Leave a Comment

您的邮箱地址不会被公开。 必填项已用 * 标注

Scroll to Top