OpenAI 发布 GPT-5.4 模型，专业任务表现接近人类专家

时间： 2026-03-06 16:36作者：范·强生

来源：环球网

【环球网科技综合报道】3月6日消息，据TechCrunch报道，OpenAI今日正式发布GPT-5.4系列人工智能模型，包含面向ChatGPT和API的GPT-5.4 Thinking版本，以及针对复杂任务打造的GPT-5.4 Pro版本。这是该平台首次将前沿推理、编码与智能体能力整合于单一模型，在计算机原生操控、专业知识工作处理、长上下文理解等方面实现多项升级，进一步提升了人工智能在专业工作场景中的效率与准确性。

此次发布的GPT-5.4系列模型带来多项核心功能升级。其中，GPT-5.4 Thinking在ChatGPT中新增“思考过程预览”功能，处理复杂查询时可提前展示推理思路，用户能在响应过程中实时调整需求方向，减少沟通成本，该功能已登陆网页版和Android应用，iOS版本也将很快推出。针对深度网络研究需求，新模型强化了长上下文连贯性，面对需要长时间思考的问题，能更好地衔接对话前序步骤，保障答案的相关性与一致性。值得关注的是，GPT-5.4成为OpenAI首个具备原生计算机使用能力的通用模型，可通过截图识别和键盘鼠标指令完成计算机操作，实现跨应用的复杂工作流程处理，同时该系列模型支持高达100万tokens的上下文窗口，为智能体规划、执行和验证长周期任务提供了基础。

在专业知识工作表现上，GPT-5.4实现大幅突破。据OpenAI测试数据显示，在44个职业领域的GDPval基准测试中，该模型有83.0%的项目达到或超过行业专业水平，相较于前代GPT-5.2的70.9%提升显著。在投行级电子表格建模任务中，GPT-5.4平均得分87.3%，远高于GPT-5.2的68.4%；演示文稿生成方面，68.0%的评审者更认可GPT-5.4的作品，其在美学设计、视觉变化和图像生成运用上表现更优。同时，GPT-5.4成为OpenAI迄今事实性准确率最高的模型，相比GPT-5.2，单个陈述错误率降低33%，完整回答出现任一错误的可能性降低18%。

计算机使用与视觉感知能力的提升，是GPT-5.4的重要亮点。在OSWorld-Verified计算机桌面操作基准测试中，该模型成功率达75.0%，不仅远超GPT-5.2的47.3%，还超过了人类72.4%的表现；WebArena-Verified浏览器使用测试中，结合DOM和截图驱动交互的成功率达67.3%，Online-Mind2Web测试中仅凭截图交互的成功率更是高达92.8%。视觉理解与推理方面，GPT-5.4在MMMU-Pro测试中成功率81.2%，OmniDocBench文档解析测试中平均错误率降至0.109，均较前代模型有明显优化。

编码能力与工具生态适配性也迎来升级。GPT-5.4融合了GPT-5.3-Codex的编码优势，在SWE-Bench Pro基准测试中表现持平或更优，且延迟更低，Codex中的“/fast”模式还能让token速度提升1.5倍。新增加的“工具搜索”功能，让模型能更高效地适配各类工具，在Scale的MCP Atlas基准测试中，启用该功能后总token消耗量减少47%，同时在Toolathlon智能体工具使用测试中，实现了更少交互轮次与更高准确率的双重提升。此外，模型的网络搜索能力进一步增强，BrowseComp基准测试中性能较GPT-5.2提升17个百分点，GPT-5.4 Pro更是创下89.3%的新高。

在安全性与可用性层面，GPT-5.4延续了GPT-5.3-Codex的安全防护措施，还引入开源的“CoT可控性”评估体系，测试显示其思维链控制能力较低，更利于安全监控。定价方面，GPT-5.4 API的单token价格高于前代，但更高的token效率有效降低了多数任务的总消耗，平台还推出批量处理、Flex定价为标准费率一半，优先处理定价为两倍的差异化方案，满足不同用户需求。

据悉，GPT-5.4 Thinking即日起面向ChatGPT Plus、Team和Pro用户开放，替代原有的GPT-5.2 Thinking，后者将作为“遗留模型”保留三个月，至2026年6月5日正式退役；Enterprise和Edu计划用户可通过管理员设置开启早期访问，GPT-5.4 Pro则面向Pro和Enterprise计划用户开放。API端，GPT-5.4以gpt-5.4名称提供支持，GPT-5.4 Pro以gpt-5.4-pro名称面向有极致性能需求的开发者开放，Codex中的GPT-5.4还支持1M上下文窗口的实验性功能。（纯钧）