Gemini3.1 Pro发布:推理能力翻倍,姚顺宇站台,Karpathy直言应用商店时代落幕

日期:2026-02-20 18:18:40 / 人气:7



在印度AI峰会的行业热议余温未散时,Google CEO桑达尔·皮查伊在2月19日凌晨官宣了重磅更新——Gemini 3.1 Pro正式发布。这款距离Gemini 3 Deep Think更新仅数日的新模型,被Google明确定位为「专为复杂任务而生的基础底座」,主打「一个简单答案远远不够」的高阶能力,而其实测表现更是打破了行业对0.1版本小修小补的固有认知,成为AI领域又一里程碑式产品。

核心能力跃升:推理翻倍,多维度碾压竞品

Gemini 3.1 Pro的核心突破体现在推理能力的质的飞跃。在测试全新逻辑模式解决能力的ARC-AGI-2基准测试中,该模型拿下77.1%的验证分数,不仅是上一代Gemini 3 Pro(31.1%)的两倍多,更直接压过Anthropic Opus 4.6(68.8%)和OpenAI GPT-5.2(52.9%),展现出在抽象推理领域的绝对优势。这一突破并非孤例,其能力提升体现在多维度专业测试中:

科学知识层面,GPQA Diamond测试斩获94.3%的高分,延续了Gemini系列在专业知识领域的强势;智能体工作流方面,MCP Atlas(69.2%)、BrowseComp(85.9%)均大幅超越上代产品,实现复杂多步骤任务的高效处理;编程能力更是迎来爆发,竞争性编程基准LiveCodeBench Pro的Elo评分达2887,远超Gemini 3 Pro的2439和GPT-5.2的2393,SWE-Bench Verified测试中80.6%的得分与Opus 4.6(80.8%)基本持平,跻身全球顶尖编程模型行列。

第三方分析机构Artificial Analysis的评测更凸显其「能打又省钱」的特质:Gemini 3.1 Pro在智能指数中排名第一,比Opus 4.6高4分,而完成5700万tokens的测试成本,不足Opus 4.6的一半,为企业和开发者降低了高阶AI的使用门槛。

当然,Gemini 3.1 Pro并非完美无缺:多模态基准MMMU Pro中,上代3 Pro以81.0%略胜其80.5%;在启用工具支持的Humanity's Last Exam测试中,Opus 4.6以53.1%拿下第一,也印证了外界对Google工具使用效率仍有提升空间的评价。但瑕不掩瑜,其整体能力已实现对主流竞品的全面超越。

落地场景革新:从「回答问题」到「完成全工作流」

与单纯的跑分提升相比,Gemini 3.1 Pro更具颠覆性的是应用场景的深度拓展——其能力已从「被动回答问题」升级为「主动完成一整套专业/创意工作流」,真正实现了AI从「工具」到「协作伙伴」的转变。Google官方博客及行业案例展示了其多元落地能力:

在技术开发领域,模型可直接根据文字提示生成网站级动态SVG动画,纯代码生成的特性使其任意缩放不失真,文件体积远小于传统视频;还能无缝接入公开遥测数据流,快速搭建实时追踪国际空间站轨道的航天仪表盘,打通复杂API与用户友好设计之间的壁垒。

在创意设计领域,其表现更令人惊艳:可编写3D椋鸟群模拟代码,不仅实现视觉效果,还支持手势操控鸟群,搭配随鸟群动态变化的生成音乐,打造沉浸式感官体验;更能将文学作品转化为专属设计,为《呼啸山庄》打造的现代个人网站,未止步于情节概括,而是深度解析小说氛围,设计出贴合主人公气质的界面风格,实现文学与技术的融合。

网友的自发测试更印证了其潜力:「鬼怪猎人穿越鬼屋」的动态SVG循环动画、种子破土到长成大树的顺滑交互动画,均达到行业顶尖水平,让外界直呼「Google这次是认真的」。而Google DeepMind首席科学家Jeff Dean转发的城市规划demo,更是展示了其从零生成可交互城市规划界面的能力,为专业领域的高效开发提供了新可能。

行业重磅加持:姚顺宇站台,技术根基源于Deep Think

Gemini 3.1 Pro的发布也迎来了行业重磅人物的加持,去年从Anthropic转投Google DeepMind的清华物理系特奖得主姚顺宇在社交平台高调站台,直言「Gemini不仅是一个优秀的模型,而且更好的模型正以不可阻挡的方式到来」。

这一背书并非空穴来风,Gemini 3.1 Pro与姚顺宇参与的首个Google项目Gemini 3 Deep Think有着千丝万缕的联系——官方明确表示,3.1 Pro直接构建在Deep Think的经验和技术之上,相当于将专为科学、研究、工程设计的「专用推理模式」核心技术,下放至更广泛可用的Pro级模型,让普通开发者和用户也能享受顶尖推理能力。

开放与定价:全平台覆盖,性价比领先

为了让更多用户享受技术红利,Gemini 3.1 Pro采用全平台分层开放策略,目前以预览版形式面向开发者、企业和消费者同步推出:开发者可通过AI Studio、Gemini API、Gemini CLI、智能体开发平台Google Antigravity及Android Studio接入;企业用户可在Vertex AI和Gemini Enterprise中使用;普通用户则可通过Gemini应用和NotebookLM体验(后者仅限Pro和Ultra订阅用户)。

定价方面,Gemini 3.1 Pro延续了上代3 Pro的标准,且对比Anthropic Opus系列具备明显性价比优势:20万tokens以内,输入单价2美元/百万tokens,输出12美元/百万tokens;超过20万tokens后,输入涨至4美元,输出18美元;搜索功能每月前5000次免费,后续每1000次查询仅收费14美元,大幅降低了高阶AI的使用成本。

值得注意的是,此次发布的预览版并非最终形态,Google明确表示,将基于用户反馈继续打磨智能体工作流,待技术成熟后再推出正式版,向外界展现出「仍未使出全力」的行业布局姿态。

行业颠覆信号:Karpathy直言「应用商店时代结束了」

Gemini 3.1 Pro的发布,不仅是AI模型的一次升级,更释放出行业生态重构的强烈信号,而OpenAI联创Andrej Karpathy近期的推文,更是为这一趋势写下了注脚。

Karpathy为了将静息心率从50降至45,计划通过AI打造专属健身追踪仪表盘,他仅用1小时就通过「Vibe Coding」完成了开发——让Claude逆向工程跑步机云API、提取处理数据、搭建Web前端,尽管过程中遇到单位混用、日期错位等小问题,但对比两年前需10小时的开发成本,效率提升堪称飞跃。但他更直言:「这本来应该只需要1分钟」。

基于此,Karpathy抛出重磅判断:应用商店的时代正在落幕。在他看来,LLM能在几秒内生成300行代码的专属工具,完全没必要包装成正经App让用户搜索下载;而当前行业的核心问题在于,99%的产品仍无AI原生CLI,执着于维护面向人类的前端界面,却未提供便于智能体调用的API,就连跑步机这类传感器设备,都需要AI逆向工程,完全违背了AI原生的设计逻辑。

AI原生时代来临:即兴生成专属应用成趋势

将Jeff Dean的城市规划demo与Karpathy的健身仪表盘结合来看,一个AI原生的全新时代已近在眼前:当普通人能在1小时内打造高度定制的专属工具,当AI能无缝衔接传感器、执行器,通过编排实现即兴式专属应用生成,传统的应用开发、分发模式将被彻底颠覆。

Gemini 3.1 Pro的发布,正是这一趋势的重要推手——它让AI从「通用化工具」走向「个性化协作」,从「单一功能实现」走向「全流程闭环完成」。对于开发者而言,高阶推理能力的平民化,将大幅降低开发门槛,让创意快速落地;对于企业而言,高性价比的AI能力,将推动生产、设计、运营全链路的效率革新;对于普通用户而言,「言出法随」的个性化工具生成,将重新定义人与技术的交互方式。

从Gemini 3.1 Pro的表现来看,AI的竞争已不再是单纯的参数和跑分比拼,而是落地能力、生态构建和场景适配的综合较量。而Google此次的更新,不仅巩固了其在AI领域的领先地位,更让整个行业看到:当AI能真正理解并完成复杂工作流,一场颠覆所有行业的技术革命,已经悄然开启。

作者:门徒娱乐




现在致电 5243865 OR 查看更多联系方式 →

门徒娱乐 版权所有