一文读懂 GPT-5 发布会:新功能乏善可陈

日期:2025-08-09 11:23:25 / 人气:37


北京时间 8 月 8 日凌晨 1 点,OpenAI 终于揭开了 GPT-5 的神秘面纱,这场发布会承载了太多期待,毕竟距离 GPT-4 发布已过去两年半之久。然而,与 ChatGPT 登场时的惊艳、GPT-4 带来的跨越式进步,以及 o1 发布时引发的震撼相比,此次发布会显得格外平淡。没有令人惊叹的 Benchmark 成绩,缺乏全新范式的突破,用例展示也难以激发大众兴趣、凸显与竞品的差异,甚至还出现了 PPT 展示错误,这些共同构成了这场时长 1 小时 20 分钟的发布会。但即便如此,GPT-5 并非毫无亮点,其极低的幻觉率、强化的前端能力、跃升的上下文处理能力以及极具竞争力的价格,仍为其在激烈的市场竞争中赢得了一席之地。尤其是价格方面,在 GPT-5 出色的编程表现加持下,其 API 价格仅为前一天发布的 Claude Opus 4.1 的 1/15,也低于 Gemini 2.5 Pro,这无疑给 Anthropic 带来了巨大冲击。在这场 AI 巨头的博弈中,OpenAI 虽节奏放缓,却依然凭借自身实力站稳脚跟。
GPT-5 本体:有限升级,微末优势
本次 GPT-5 家族共有 4 个版本,分别为 GPT-5、GPT-5 mini、GPT-5 nano,以及仅面向企业版和每月 200 美元高级版用户开放的 GPT-5 Pro 模式。对于普通用户而言,默认使用的 GPT-5 是一个由多个模型组成的集成系统,其中包含用于处理大多数常规问题的 “智能且快速” 模型(GPT-5-main),以及针对更复杂问题进行 “深层推理” 的模型(GPT-5-thinking)。这种集成模式通过一个实时路由器来智能判断,针对特定查询应调用哪个模型,以实现高效、精准的回复。mini 和 nano 版本则主要供 API 用户根据自身需求灵活选择。而 GPT-5 Pro 模式,类似于 Grok 4 Hard 模式,采用并行测试计算,能让多个模型同时并行运算更长时间,凭借强大的算力输出最全面、精准的答案。在超高难度的科学问题(GPQA)测试中,GPT-5 Pro 成功刷新世界纪录;在与人类专家的 “盲测” 对比中,十次里有近七次被认为表现更优。
在能力和评分方面,GPT-5 相较于前代产品几乎在各项指标上都有所提升,然而,提升幅度仅略微高于当下的 SOTA(State-of-the-Art,最先进水平),对比 o3 优势也并不显著。以智力水平测试为例,在各类主流评测集中,GPT-5 成绩虽高于 o3,但差距并不悬殊。在前沿数学测试集中,GPT-5 表现甚至不及 ChatGPT Agent,只有开启 Pro 模式后才略胜一筹。与其他竞品模型相比,GPT-5 多数 “智力” 能力仅微弱领先,部分能力甚至未达 SOTA,整体仅以微小幅度占据优势,难以称之为具有突破性的能力飞跃。综合 Artificial Analysis 的排名数据,GPT-5 目前暂居榜首,但其综合得分仅比 o3 高两分,比 Grok 4 仅高一分。在号称 AGI 终极测试的 Arc Prize 测试中,GPT-5 更是不敌 Grok 4,且差距较为明显。不过,从另一个角度看,相较于 o3,GPT-5 在计算效率上确有进步,能够以更少的 token 消耗获取超越 o3 的效果,在效率方面领先于 Anthropic 的模型。据 OpenAI 介绍,GPT-5 thinking 在处理复杂问题时,token 使用量可减少 50%-80%,这一成果也引发了马斯克的关注并激动发推。此前 Grok 在 AI 国际象棋大赛中表现出色,此次又在 Arc Prize 测试中力压 OpenAI,在这场发布会后,Grok 似乎成为了获利最大的一方。但在用户体验维度,GPT-5 扳回一城,在主要基于用户双盲比较不同模型优劣的 LMArena 排行榜上,GPT-5 在所有项目中均斩获第一名。
编程:直击痛点,Agent 赋能 Vibe Coding
在本次发布会上,OpenAI 着重强调了 GPT-5 在编程领域的升级。在 thinking(思考)模式下,GPT-5 较前代产品有较为显著的提升。然而,将一直专注于编程领域的竞争对手 Anthropic 最新的 Claude 4.1 Opus 纳入比较后,优势就变得极为微小,两者分差仅为 0.3%。尽管在整体编程基准测试中,GPT-5 表现并非十分突出,但 OpenAI 在改善编程实际体验方面确实下足了功夫。发布会上介绍的编程方面的重要提升,主要体现在对编程需求的理解能力、错误修正能力以及更多工具调用能力上,而这些提升主要得益于智能体式编码(Agentic Coding)系统的成熟。
GPT-5 在处理 “智能体式” 编码任务时表现出色,能够灵活调用多种工具,持续工作数分钟甚至更长时间,以完成复杂指令。在编码过程中,模型甚至会主动与用户沟通,详细解释其计划、步骤以及发现,宛如一个协同工作的团队成员。为实现这种类似协作伙伴的行为模式,OpenAI 团队针对几个关键特性对模型进行了精心微调,显著提升了模型的自主性(autonomy)、协作与沟通(collaboration and communication)以及测试(testing)能力。在理解编程要求和遵循指令方面的提升,使得 GPT-5 能够将模糊或详细的指令精准转化为可用代码,极大地帮助了那些不熟悉编程的用户实现自己的创意。推特上部分用户也反馈了类似的积极体验。经过 OpenAI 特别优化后的工具调用能力,在 Tau 测试集中得以凸显。Tau 测试集主要用于评估 AI 模型在模拟真实世界场景中,与用户进行动态对话,并有效运用外部工具(如 API 或函数调用)完成任务的能力,在电信领域相关测试中,GPT-5 能力提升尤为明显。
另一个重大更新是 GPT-5 “修 Bug” 能力的大幅增强。在演示过程中,GPT-5 能够深入一个真实的代码库(OpenAI Python SDK),通过搜索和读取文件,精准理解代码结构与逻辑,最终快速定位问题根源。它甚至能够洞察人类工程师在架构设计时的深层意图,例如出于安全性考虑所做出的决策。更为惊艳的是,GPT-5 可以自动修复自身生成代码中的错误。在一个前端应用开发任务演示中,GPT-5 编写完代码后,会自动尝试构建(build)项目。当构建过程中出现错误时,它能够将这些错误信息反馈给自己,并基于此对代码进行修改和迭代,OpenAI 演示人员将这一过程描述为一个 “深刻的时刻”,是一个 “自我改进的循环”。在修复特定 bug 时,模型展现出了极高的智能水平。例如,在运行代码检查(lints)时发现其他一些无关当前 bug 的问题,它能够准确判断并避免进行不必要的修改。这一特性对于当下的 vibe coding 至关重要。今年的一篇论文曾指出一个反直觉的现象:使用 AI 辅助编程在某些情况下可能降低工作效率,而非提升。其中主要原因在于,日常程序员更多是在既有旧代码基础上进行迭代开发,若 AI 编程工具缺乏对复杂程序的整体把控以及自我 bug 修复功能,其在这类项目中的作用将大打折扣。由此可见,OpenAI 此次在编程功能优化上精准命中痛点,进行了大幅调整与升级。沃顿商学院教授 Ethan Mollick 在测试中,也切实体验到了 GPT-5 编程 “让人省心” 的特性。此外,GPT-5 的前端能力也得到了提升,发布会上 OpenAI 研究员展示了让 GPT-5 现场生成飞机空气动力学动态展示内容,该内容包含 400 行代码,GPT-5 仅用时 2 分钟就完成编写;还有一个教法语的贪吃蛇游戏,同样展现了其强大的前端开发能力。
发布会后的行业回响与展望
随着 GPT-5 的发布,行业内外反响热烈。从积极方面来看,GPT-5 在编程等领域的优化以及集成模型的特性,为开发者和用户提供了更强大、便捷的工具。其在降低幻觉率方面的成果,也增强了模型输出内容的可靠性,这对于需要高精度信息的应用场景,如医疗咨询、金融分析等具有重要意义。在激烈的市场竞争中,极具竞争力的价格策略有望吸引更多开发者采用 GPT-5 的 API,进一步扩大 OpenAI 的市场份额。
然而,GPT-5 也面临诸多质疑与挑战。从性能提升角度,虽然在多个方面有所进步,但相较于漫长的研发周期和大众的高期待值,其提升幅度被部分人士认为未达预期,仍属于 “渐进式优化”,缺乏如 GPT-4 发布时那种颠覆性的突破。行业竞争态势愈发激烈,竞争对手如 Anthropic 的 Claude 系列、谷歌的 Gemini 等也在持续发力,不断推出新功能和优化版本,GPT-5 在保持领先优势上压力不小。人才流失问题也给 OpenAI 带来隐忧,此前 Meta 等公司频繁挖角,多名核心研究员的离职对研发进度和团队稳定性造成冲击,如何留住关键人才、维持创新活力成为 OpenAI 亟待解决的问题。
展望未来,AI 行业将持续保持高速发展态势。随着技术的不断演进,我们有望看到大模型在更多领域实现更深入的应用和创新,如在智能物联网、智能设计、智能法律等领域发挥更大作用。在模型性能提升方面,尽管面临 Scaling Laws 放缓、数据资源瓶颈等问题,但科研人员也在探索新的技术路径和方法,如改进模型架构、采用新的训练算法、挖掘更多高质量数据等,力求突破现有困境,实现模型能力的再次飞跃。同时,随着 AI 应用的普及,相关的伦理、法律问题也将受到更多关注,如何在保障技术创新的同时,确保 AI 的安全、可靠、公平使用,将是整个行业共同面临的课题。而 OpenAI 能否凭借 GPT-5 在后续竞争中突出重围,持续引领行业发展,还需时间给出答案。

作者:门徒娱乐




现在致电 5243865 OR 查看更多联系方式 →

门徒娱乐 版权所有