原文: AI News · Dashveenjit Kaur · 2026-04-29
来源链接: artificialintelligence-news.com
分类: AI 日报 · 模型发布 · OpenAI
一句话概括
OpenAI 在 4 月 23 日发布 GPT-5.5,自 GPT-4.5 之后第一个重新训练的基础模型,定位”最强 Agentic AI 模型“,主打自主规划 + 工具调用 + 自我验证,能更完整地”接管”任务而不是被动应答。代价是 API 输出价格翻倍:每百万 tokens $30。
关键能力升级
- 硬件协同:与 NVIDIA GB200 / GB300 NVL72 机架级系统协同设计,token 使用更高效。
- 延迟保持:每 token 延迟与 GPT-5.4 相同,但智能水平显著提升。
- 实际成本上涨:OpenAI 称 token 效率改善后实际成本只多约 20%,已被 Artificial Analysis 验证。
Benchmark 数据(节选)
| 测试集 | GPT-5.5 | GPT-5.4 | 对手 |
|---|---|---|---|
| Terminal-Bench 2.0 | 82.7% | 75.1% | Claude Opus 4.7: 69.4% |
| SWE-Bench Pro | 58.6% | — | — |
| Expert-SWE(中位 20 小时任务) | 73.1% | 68.5% | — |
| MRCR v2(百万 token 长上下文检索) | 74.0% | 36.6% | — |
| BrowseComp(GPT-5.5 Pro) | 90.1% | — | 公开模型第一 |
| MCP Atlas(工具编排) | 未给 | — | Claude Opus 4.7: 79.1% 领先 |
API 定价
- GPT-5.5 标准版:输入
$5/ 输出$30(输出价为 GPT-5.4 的两倍) - GPT-5.5 Pro:输入
$30/ 输出$180
OpenAI 内部用法
OpenAI 内部 超过 85% 的员工每周使用 Codex,覆盖工程与市场部门。
一个被官方反复提到的案例:传播团队用 GPT-5.5 处理半年的演讲申请数据,自动构建评分与风险框架,把低风险审批彻底自动化。
razor 短评
GPT-5.5 是个”能力 vs 成本”分裂得很厉害的版本:长上下文检索(MRCR v2 翻倍)、Agent 端到端任务(Terminal-Bench 突破 80%)这两块进步显著;但 MCP Atlas 工具编排还是 Claude 领先 —— 这意味着:
- 如果你的场景是“长上下文 + 多步自主任务”(DevOps 自动化、文档批处理、Agentic Web 浏览),GPT-5.5 现在是首选。
- 如果是“复杂工具链编排”(多个 MCP 协作、企业系统集成),先别急着换,Claude Opus 4.7 仍然更稳。
- 价格翻倍这件事 —— 只对”老用法”成立;如果你的 prompt 设计能借助新模型把多轮拆解收敛成一两轮,整体账单可能反而下降。
首席科学家 Jakub Pachocki 自己说过去两年模型进展”出奇地慢”,这句话比 benchmark 数字更值得玩味 —— 我们大概正站在下一个 S 曲线的起点。