一文读懂 GPT-5 发布会：新功能乏善可陈

日期：2025-08-09 11:23:25 / 人气：103

北京时间 8 月 8 日凌晨 1 点，OpenAI 终于揭开了 GPT-5 的神秘面纱，这场发布会承载了太多期待，毕竟距离 GPT-4 发布已过去两年半之久。然而，与 ChatGPT 登场时的惊艳、GPT-4 带来的跨越式进步，以及 o1 发布时引发的震撼相比，此次发布会显得格外平淡。没有令人惊叹的 Benchmark 成绩，缺乏全新范式的突破，用例展示也难以激发大众兴趣、凸显与竞品的差异，甚至还出现了 PPT 展示错误，这些共同构成了这场时长 1 小时 20 分钟的发布会。但即便如此，GPT-5 并非毫无亮点，其极低的幻觉率、强化的前端能力、跃升的上下文处理能力以及极具竞争力的价格，仍为其在激烈的市场竞争中赢得了一席之地。尤其是价格方面，在 GPT-5 出色的编程表现加持下，其 API 价格仅为前一天发布的 Claude Opus 4.1 的 1/15，也低于 Gemini 2.5 Pro，这无疑给 Anthropic 带来了巨大冲击。在这场 AI 巨头的博弈中，OpenAI 虽节奏放缓，却依然凭借自身实力站稳脚跟。
GPT-5 本体：有限升级，微末优势
本次 GPT-5 家族共有 4 个版本，分别为 GPT-5、GPT-5 mini、GPT-5 nano，以及仅面向企业版和每月 200 美元高级版用户开放的 GPT-5 Pro 模式。对于普通用户而言，默认使用的 GPT-5 是一个由多个模型组成的集成系统，其中包含用于处理大多数常规问题的 “智能且快速” 模型（GPT-5-main），以及针对更复杂问题进行 “深层推理” 的模型（GPT-5-thinking）。这种集成模式通过一个实时路由器来智能判断，针对特定查询应调用哪个模型，以实现高效、精准的回复。mini 和 nano 版本则主要供 API 用户根据自身需求灵活选择。而 GPT-5 Pro 模式，类似于 Grok 4 Hard 模式，采用并行测试计算，能让多个模型同时并行运算更长时间，凭借强大的算力输出最全面、精准的答案。在超高难度的科学问题（GPQA）测试中，GPT-5 Pro 成功刷新世界纪录；在与人类专家的 “盲测” 对比中，十次里有近七次被认为表现更优。
在能力和评分方面，GPT-5 相较于前代产品几乎在各项指标上都有所提升，然而，提升幅度仅略微高于当下的 SOTA（State-of-the-Art，最先进水平），对比 o3 优势也并不显著。以智力水平测试为例，在各类主流评测集中，GPT-5 成绩虽高于 o3，但差距并不悬殊。在前沿数学测试集中，GPT-5 表现甚至不及 ChatGPT Agent，只有开启 Pro 模式后才略胜一筹。与其他竞品模型相比，GPT-5 多数 “智力” 能力仅微弱领先，部分能力甚至未达 SOTA，整体仅以微小幅度占据优势，难以称之为具有突破性的能力飞跃。综合 Artificial Analysis 的排名数据，GPT-5 目前暂居榜首，但其综合得分仅比 o3 高两分，比 Grok 4 仅高一分。在号称 AGI 终极测试的 Arc Prize 测试中，GPT-5 更是不敌 Grok 4，且差距较为明显。不过，从另一个角度看，相较于 o3，GPT-5 在计算效率上确有进步，能够以更少的 token 消耗获取超越 o3 的效果，在效率方面领先于 Anthropic 的模型。据 OpenAI 介绍，GPT-5 thinking 在处理复杂问题时，token 使用量可减少 50%-80%，这一成果也引发了马斯克的关注并激动发推。此前 Grok 在 AI 国际象棋大赛中表现出色，此次又在 Arc Prize 测试中力压 OpenAI，在这场发布会后，Grok 似乎成为了获利最大的一方。但在用户体验维度，GPT-5 扳回一城，在主要基于用户双盲比较不同模型优劣的 LMArena 排行榜上，GPT-5 在所有项目中均斩获第一名。
编程：直击痛点，Agent 赋能 Vibe Coding
在本次发布会上，OpenAI 着重强调了 GPT-5 在编程领域的升级。在 thinking（思考）模式下，GPT-5 较前代产品有较为显著的提升。然而，将一直专注于编程领域的竞争对手 Anthropic 最新的 Claude 4.1 Opus 纳入比较后，优势就变得极为微小，两者分差仅为 0.3%。尽管在整体编程基准测试中，GPT-5 表现并非十分突出，但 OpenAI 在改善编程实际体验方面确实下足了功夫。发布会上介绍的编程方面的重要提升，主要体现在对编程需求的理解能力、错误修正能力以及更多工具调用能力上，而这些提升主要得益于智能体式编码（Agentic Coding）系统的成熟。
GPT-5 在处理 “智能体式” 编码任务时表现出色，能够灵活调用多种工具，持续工作数分钟甚至更长时间，以完成复杂指令。在编码过程中，模型甚至会主动与用户沟通，详细解释其计划、步骤以及发现，宛如一个协同工作的团队成员。为实现这种类似协作伙伴的行为模式，OpenAI 团队针对几个关键特性对模型进行了精心微调，显著提升了模型的自主性（autonomy）、协作与沟通（collaboration and communication）以及测试（testing）能力。在理解编程要求和遵循指令方面的提升，使得 GPT-5 能够将模糊或详细的指令精准转化为可用代码，极大地帮助了那些不熟悉编程的用户实现自己的创意。推特上部分用户也反馈了类似的积极体验。经过 OpenAI 特别优化后的工具调用能力，在 Tau 测试集中得以凸显。Tau 测试集主要用于评估 AI 模型在模拟真实世界场景中，与用户进行动态对话，并有效运用外部工具（如 API 或函数调用）完成任务的能力，在电信领域相关测试中，GPT-5 能力提升尤为明显。
另一个重大更新是 GPT-5 “修 Bug” 能力的大幅增强。在演示过程中，GPT-5 能够深入一个真实的代码库（OpenAI Python SDK），通过搜索和读取文件，精准理解代码结构与逻辑，最终快速定位问题根源。它甚至能够洞察人类工程师在架构设计时的深层意图，例如出于安全性考虑所做出的决策。更为惊艳的是，GPT-5 可以自动修复自身生成代码中的错误。在一个前端应用开发任务演示中，GPT-5 编写完代码后，会自动尝试构建（build）项目。当构建过程中出现错误时，它能够将这些错误信息反馈给自己，并基于此对代码进行修改和迭代，OpenAI 演示人员将这一过程描述为一个 “深刻的时刻”，是一个 “自我改进的循环”。在修复特定 bug 时，模型展现出了极高的智能水平。例如，在运行代码检查（lints）时发现其他一些无关当前 bug 的问题，它能够准确判断并避免进行不必要的修改。这一特性对于当下的 vibe coding 至关重要。今年的一篇论文曾指出一个反直觉的现象：使用 AI 辅助编程在某些情况下可能降低工作效率，而非提升。其中主要原因在于，日常程序员更多是在既有旧代码基础上进行迭代开发，若 AI 编程工具缺乏对复杂程序的整体把控以及自我 bug 修复功能，其在这类项目中的作用将大打折扣。由此可见，OpenAI 此次在编程功能优化上精准命中痛点，进行了大幅调整与升级。沃顿商学院教授 Ethan Mollick 在测试中，也切实体验到了 GPT-5 编程 “让人省心” 的特性。此外，GPT-5 的前端能力也得到了提升，发布会上 OpenAI 研究员展示了让 GPT-5 现场生成飞机空气动力学动态展示内容，该内容包含 400 行代码，GPT-5 仅用时 2 分钟就完成编写；还有一个教法语的贪吃蛇游戏，同样展现了其强大的前端开发能力。
发布会后的行业回响与展望
随着 GPT-5 的发布，行业内外反响热烈。从积极方面来看，GPT-5 在编程等领域的优化以及集成模型的特性，为开发者和用户提供了更强大、便捷的工具。其在降低幻觉率方面的成果，也增强了模型输出内容的可靠性，这对于需要高精度信息的应用场景，如医疗咨询、金融分析等具有重要意义。在激烈的市场竞争中，极具竞争力的价格策略有望吸引更多开发者采用 GPT-5 的 API，进一步扩大 OpenAI 的市场份额。
然而，GPT-5 也面临诸多质疑与挑战。从性能提升角度，虽然在多个方面有所进步，但相较于漫长的研发周期和大众的高期待值，其提升幅度被部分人士认为未达预期，仍属于 “渐进式优化”，缺乏如 GPT-4 发布时那种颠覆性的突破。行业竞争态势愈发激烈，竞争对手如 Anthropic 的 Claude 系列、谷歌的 Gemini 等也在持续发力，不断推出新功能和优化版本，GPT-5 在保持领先优势上压力不小。人才流失问题也给 OpenAI 带来隐忧，此前 Meta 等公司频繁挖角，多名核心研究员的离职对研发进度和团队稳定性造成冲击，如何留住关键人才、维持创新活力成为 OpenAI 亟待解决的问题。
展望未来，AI 行业将持续保持高速发展态势。随着技术的不断演进，我们有望看到大模型在更多领域实现更深入的应用和创新，如在智能物联网、智能设计、智能法律等领域发挥更大作用。在模型性能提升方面，尽管面临 Scaling Laws 放缓、数据资源瓶颈等问题，但科研人员也在探索新的技术路径和方法，如改进模型架构、采用新的训练算法、挖掘更多高质量数据等，力求突破现有困境，实现模型能力的再次飞跃。同时，随着 AI 应用的普及，相关的伦理、法律问题也将受到更多关注，如何在保障技术创新的同时，确保 AI 的安全、可靠、公平使用，将是整个行业共同面临的课题。而 OpenAI 能否凭借 GPT-5 在后续竞争中突出重围，持续引领行业发展，还需时间给出答案。

作者：门徒娱乐

一文读懂 GPT-5 发布会：新功能乏善可陈

新闻资讯 News

案例展示 Case

现在致电 5243865 OR 查看更多联系方式 →

现在致电 5243865 OR 查看更多联系方式 →