OpenAI 在 2026 年 4 月 23 日 正式发布了 GPT‑5.5。从官方介绍来看,这一版的核心关键词不是单纯“更强”,而是更适合真实工作:它在编程、知识工作、科研辅助和工具协作上的表现继续往前走,同时还把推理效率、延迟和安全能力一起往上推了一步。
如果说过去很多模型的强项是“回答问题”,那么 GPT‑5.5 更强调的是:能不能在更长链路、更复杂上下文和更真实的工作流程里持续把事情做完。
这次发布最值得先记住的 5 个点
- GPT‑5.5 是 OpenAI 目前“最聪明且最直觉”的工作型模型之一。
- 重点增强了 agentic coding、知识工作、科研辅助和电脑操作能力。
- 官方强调它在很多 Codex 任务里不仅更强,而且更省 token。
- 在 ChatGPT、Codex 里已经开始向 Plus / Pro / Business / Enterprise 等用户逐步开放。
- API 定价已经公布,GPT‑5.5 与 GPT‑5.5 Pro 都将很快进入 API。
OpenAI 对 GPT‑5.5 的定位是什么
OpenAI 这次给 GPT‑5.5 的定位非常明确:它不是只用来做短轮问答,而是希望成为一类真正能参与工作流的模型。官方原文里特别提到,它更擅长处理混乱、多步骤、跨工具的任务,能够自己规划步骤、调工具、检查结果,并在不确定场景中继续推进任务。
这类定位其实非常重要,因为它说明 GPT‑5.5 的提升不只是“多答对几道题”,而是更像把模型往 长期执行者 的方向推进。对于开发者、研究者和知识工作者来说,这比某个单项 benchmark 漂亮更关键。
这次最大的亮点:编程能力继续向前
官方把 agentic coding 放在了最核心的位置。从公开评测里看,GPT‑5.5 在多项编码相关指标上都超过了 GPT‑5.4。
- Terminal-Bench 2.0:82.7%,高于 GPT‑5.4 的 75.1%
- SWE-Bench Pro(Public):58.6%,高于 GPT‑5.4 的 57.7%
- Expert-SWE(Internal):73.1%,高于 GPT‑5.4 的 68.5%
更值得注意的是,OpenAI 不只是说它“会写代码”,而是反复强调它在真实工程任务里的几个关键行为更强:能在大代码库里保持上下文、能理解故障为什么发生、能自己去验证假设、能把改动往完整代码路径上推进,而不是只补一小段看起来合理的代码。
这也解释了为什么官方把 GPT‑5.5 和 Codex 放在一起讲。GPT‑5.5 不是孤立的模型升级,它更像是 OpenAI 想进一步把“模型 + 代码执行 + 工具调用”打包成一条完整工程工作流。
知识工作也被明显强化了
除了写代码,OpenAI 这次也很强调 GPT‑5.5 在“电脑上的日常工作”里更实用了。官方给出的方向包括:找信息、理解意图、生成文档、生成表格、做分析、完成复杂工作链。
从公开评测看,这一部分也有比较明显的提升:
- GDPval(wins or ties):84.9%
- OSWorld-Verified:78.7%
- Tau2-bench Telecom:98.0%
- FinanceAgent v1.1:60.0%
- OfficeQA Pro:54.1%
如果把这些分数翻译成更容易理解的话,可以概括成:GPT‑5.5 在知识型任务里的“从需求到可交付产物”链路更完整了,不只是搜到答案,而是更像能把资料、逻辑、结构和输出串起来。
科研能力继续往前走
OpenAI 在这篇发布稿里也把科研辅助写得很重。官方给出的例子,不是单纯做摘要,而是帮助研究人员处理基因数据、技术分析和数学证明这类更长链、更高门槛的任务。
公开评测里比较值得看的有:
- GeneBench:25.0%,高于 GPT‑5.4 的 19.0%
- BixBench:80.5%,高于 GPT‑5.4 的 74.0%
- FrontierMath Tier 1–3:51.7%
- FrontierMath Tier 4:35.4%
OpenAI 甚至在文中专门提到,GPT‑5.5 的内部版本曾经在一个定制流程里帮助发现了关于 Ramsey numbers 的新证明,后来还经过 Lean 验证。这种表述说明 OpenAI 现在明显想把 GPT‑5.5 往“研究协作者”这个方向推,而不是只当成一个会聊天的系统。
更强不够,还要更省:推理效率也升级了
发布稿里另一个很值得注意的点,是 OpenAI 明确强调 GPT‑5.5 在保持 GPT‑5.4 级别延迟的同时,把能力往上推了一大截。换句话说,它不是靠明显变慢来换性能。
OpenAI 还提到,GPT‑5.5 在 Codex 的很多任务里能用更少 token 做完同样的事情。这一点对实际使用非常关键,因为真正进入生产环境后,模型成本往往不只来自“模型单价”,还来自它完成任务要走多少轮、耗多少 token。
文中还举了一个基础设施层面的例子:GPT‑5.5 反过来帮助改进了承载它本身的推理系统,其中一个启发式负载均衡优化据说把 token 生成速度提升了 20% 以上。这说明 OpenAI 不只是把模型本身往前推,也在同步优化“怎么把这个模型更快、更稳地服务出去”。
安全和网络安全限制也更严格了
这次发布里还有一条不能忽略:OpenAI 把 GPT‑5.5 描述成带着“迄今为止最强一套 safeguards”上线的模型之一。尤其是在网络安全方面,官方强调他们引入了更严格的分类器、针对高风险请求的更强限制,以及更严格的重复滥用防护。
这也解释了为什么 OpenAI 同时提到“更强能力”和“更强约束”:随着模型在漏洞发现、修复和安全工作上越来越能干,滥用风险也会同步升高,所以这类部署不可能只讲能力,不讲限制。
什么时候能用到 GPT‑5.5
按 OpenAI 官方说法,从 2026 年 4 月 23 日起:
- GPT‑5.5 正在向 ChatGPT 与 Codex 的 Plus、Pro、Business、Enterprise 用户逐步开放。
- GPT‑5.5 Pro 正在向 ChatGPT 的 Pro、Business、Enterprise 用户逐步开放。
- 在 ChatGPT 里,GPT‑5.5 Thinking 已提供给 Plus、Pro、Business、Enterprise 用户。
- 在 Codex 里,GPT‑5.5 适用于 Plus、Pro、Business、Enterprise、Edu、Go 计划,并支持 400K context window。
OpenAI 也明确说了,API 版很快就会跟上。
API 价格
这部分对开发者最实用。根据 OpenAI 官方介绍:
- gpt-5.5:$5 / 1M input tokens,$30 / 1M output tokens
- 上下文窗口:1M context window
- Batch 和 Flex:半价
- Priority:标准价格的 2.5 倍
- gpt-5.5-pro:$30 / 1M input tokens,$180 / 1M output tokens
OpenAI 也特别提到,虽然 GPT‑5.5 比 GPT‑5.4 更贵,但由于它在很多任务里更省 token、返工更少,所以实际体验未必意味着总成本更高。这一点对长期跑代码代理、工具调用和复杂工作流的人来说很关键。
一句话总结
如果你更关心“模型能不能在真实工作里自己把事情推进下去”,那 GPT‑5.5 这次发布值得认真看。它最大的变化不是某个单项分数冲高,而是 OpenAI 进一步把它推向了:更强执行、更强工具协作、更高效率、更接近真实工作流 的方向。
对开发者来说,最值得关注的是编程、API 价格和上下文能力;对知识工作者来说,最值得关注的是长任务和电脑操作链路;对研究场景来说,最值得看的则是它在科研和数据分析上的持续推进。