让Anthropic破防的“蒸馏”风波,美国AI大牛泼冷水:中国AI成功不靠走捷径

日期:2026-02-27 14:35:31 / 人气:39



Anthropic近期掀起的“蒸馏”指控风波,搅动了全球AI行业的神经——这家AI巨头公开指控三家中国AI公司,通过虚假账号非法抓取Claude的对话数据用于模型训练,引发海外媒体跟风炒作,也让“中国AI靠走捷径崛起”的论调再次浮出水面。就在舆论一边倒之际,RLHF(基于人类反馈的强化学习)领域权威学者、《RLHF》一书作者Nathan Lambert挺身而出,发布长文泼下冷水:这件事远没有想象中简单,中国AI公司取得的成绩,靠的从来不是“走捷径”。

要理解Lambert的观点,首先要明确他的话语权来源——不同于随处可见的AI网红,Lambert是Allen AI研究所的科学家,博士毕业于加州大学伯克利分校,师从机器人领域著名学者Pieter Abbeel。他虽非RLHF技术的发明者,但所著的开源书籍《RLHF》,如今已成为全球AI从业者理解大模型训练流程的标准参考材料;更重要的是,他是真正上手训练过大模型、懂技术底层逻辑的研究者,而非单纯的舆论观察者。

在Anthropic发布指控博客的当天,Lambert就推出了详细分析文章《蒸馏对于中国大模型到底有多重要?》,其核心论点与主流媒体的解读截然不同,也比普通网友的讨论更深入、更全面。要读懂这场风波,我们不妨先从“蒸馏”本身、Anthropic的指控核心说起。

蒸馏是什么?Anthropic的指控核心的到底是什么?

所谓“蒸馏”(distillation),在AI领域指的是让弱模型学习强模型的输出,从而快速获得相似能力,相当于让“学生”模仿“老师”的答案,实现快速提升。这是大模型训练中常见的技术手段,本身并无绝对的“对错”之分。

Anthropic此次指控的核心的是:三家中国AI公司通过约2.4万个虚假账号,在违反服务条款和地区访问限制的情况下,用Claude生成了超过1600万次对话,用于训练各自的模型。Anthropic还将这套用于抓取数据的基础设施命名为“九头蛇集群”(hydra cluster)——这是一个由数万个账号组成的分布式网络,流量同时分散在Anthropic自身API和多个第三方API聚合平台上,以此规避检测。

在最极端的案例中,一个代理网络同时管理超过2万个虚假账号,还将蒸馏流量混入普通用户请求流中,进一步降低被检测的概率。这种网络没有单点故障,封掉一个账号,很快就能替换另一个,形成“打不完、封不绝”的抓取模式。

除此之外,Anthropic还附上了安全警告,声称非法蒸馏出来的模型可能缺失原模型的安全护栏,一旦被用于网络攻击、生物武器研发或大规模监控,后果将难以预测。指控一出,海外媒体纷纷跟进复述Anthropic的话术,似乎坐实了“中国AI靠窃取数据走捷径”的结论。但这套叙事逻辑很快就翻车了——毕竟“蒸馏”并非中国AI公司的专属操作,美国AI公司训练时也会使用,更何况Anthropic自己,也曾有过类似的“数据获取”行为。

Lambert的冷静拆解:三家公司的行为,量级和动机天差地别

与舆论的狂热不同,Lambert的分析更具针对性——他认为,Anthropic将三家中国AI实验室并排列在同一篇博客里,刻意掩盖了一个关键差异:这三家公司做的根本不是同一件事,抓取数据的量级天差地别,动机也各有侧重,不能一概而论。

按照Anthropic的指控,DeepSeek的蒸馏数量最少,仅有15万次,但手法更精准。不同于直接收集Claude的答案,Anthropic指控DeepSeek在做的是批量生产思维链(chain-of-thought)训练数据——也就是说,DeepSeek要的不是“你得出了什么结论”,而是得出结论的完整过程,用于优化自身模型的推理能力。

但Lambert认为,15万次的量级,对DeepSeek传闻中的V4模型或任何一款成熟模型的整体训练而言,影响几乎可以忽略不计。“这更像是某个小团队在内部做的技术实验,大概率连模型训练负责人都不知道,根本谈不上‘靠蒸馏走捷径’。”

与DeepSeek不同,月暗(Moonshot)的规模就绝非“可以忽略”:其抓取的交互量达340万次,目标集中在智能体推理、工具调用、代码与数据分析、computer-use开发、计算机视觉等方向——而这些方向,恰恰是Claude近期最受企业客户欢迎的核心能力组合,可见其动机更偏向于补齐自身产品的能力短板。

Anthropic指出,三家里流量最大的是MiniMax,抓取量约1300万次,核心目标是代理编码、工具调用和复杂任务编排。月暗和MiniMax的抓取量相加约1650万次,按对话平均token量估算,总量大约在1500亿到4000亿token之间,折合数百到上千万美元的token成本——从成本来看,这种“蒸馏”行为本身,也绝非“零成本走捷径”那么简单。

关键追问:蒸馏的天花板,到底有多高?

这是Lambert分析中最核心、也最被外界忽视的部分。他并不否认蒸馏的作用——让弱模型模仿强模型的输出,确实能快速获得类似能力,实现“快速热身”。但他明确指出了一个核心问题:蒸馏的天花板到底在哪里,取决于你想要的是哪种类型的AI能力。

作为RLHF领域的专家,Lambert强调,当前最顶尖的大模型训练,已经高度依赖强化学习(RL),而RL和蒸馏在本质上是两种完全不同的技术路径:蒸馏是“模仿”,核心是复制强模型的“答案形状”,相当于学生死记硬背老师的解题结果;而RL是“探索”,模型必须自己大量推理、自己生成答案,在不断试错中迭代优化,从错误里提炼真正的能力——这种自主探索的解题路径,是靠蒸馏别人的API输出,永远得不到的。

DeepSeek自己的蒸馏尝试,就是最直接的例证:基于阿里千问蒸馏自家的R1模型后,得到的DeepSeek-R1-Distill-Qwen 1.5B小模型,仅靠7000条样本和极低的计算成本,就在AIME24数学竞赛基准上超越了OpenAI的o1-preview。但Lambert指出,这个提升,更多是依靠强化学习的优化,而非蒸馏这个行为本身。“蒸馏能帮你快速入门,但要真正达到顶级水平,还是得靠自己跑RL,没有任何捷径可走。”

除此之外,Lambert还提到了一个技术层面很少被外界提及的细节:不同模型之间存在微妙的数据分布差异。把Claude的输出直接喂给另一个架构的模型,不一定能起到效果,有时甚至会产生干扰——两个模型内部的表征空间不同,会让“老师”的回答在“学生”那里引发意想不到的偏差。

这意味着,蒸馏从来不是“拿来就用”的简单操作,而是需要大量的工程优化和技术调试,才能真正发挥效果。在Lambert看来,Anthropic所指控的这些“蒸馏”行为,与其说是“窃取数据走捷径”,不如看作是中国AI公司试图攻克“跨模型蒸馏优化”这一技术课题的创新尝试。

最讽刺的点:Anthropic最不想被复制的能力,恰恰最难蒸馏

Lambert还发现了一个关键细节:Anthropic点名的三家中国公司,抓取数据的重心都集中在“代理行为”(agentic behavior)上——包括AI自主规划、工具调用、分解复杂任务并逐步执行的能力等。这恰恰是Claude目前最突出的核心优势,也是Anthropic最不想被竞争对手复制的能力。

但Lambert的判断是,这些能力,恰恰也是最难通过蒸馏获得的。一个强大的AI agent,其核心价值不在于“知道正确答案”,而在于“面对没见过的情况时,能自主探索出解决路径”——这是一种能实现0-shot(零样本)或few-shot(少样本)达到SOTA(当前最优)效果的能力,其价值体现在完整的推理轨迹上。

而这种推理轨迹,是很难通过蒸馏习得的——至少目前的技术水平是如此。DeepSeek-R1-Distill(蒸馏模型)和DeepSeek-R1(蒸馏对象)之间的差距,就完美印证了这一点:在格式化的数学推理任务上,前者表现不错;但在需要自主探索、动态规划的复杂代理任务上,两者的差距十分明显。也就是说,即便中国公司抓取了Claude的相关数据,也很难真正复制其核心竞争力。

Anthropic指控的真正动机:不是技术防御,而是“投名状”?

Lambert提出了一个耐人寻味的判断:这次Anthropic公开点名中国AI公司,“技术防御”压根不是首要动机。背后的核心原因,与美国政府的压力密切相关。

在Anthropic发布指控博客的几天前,美国国防部刚刚向Anthropic发出威胁:要求其配合提供“不受限制的使用权限”,否则就将做出对其不利的安排——比如将Anthropic标记为“供应链危险”,使其无法进入美国国防和政府供应商名单。这让Anthropic陷入了“既要又要”的两难境地:一方面,它想维持“安全、不反人性”的模型定位和公司形象;另一方面,它又不愿意错过美国政府的巨额订单。

Lambert进一步指出了一个根本矛盾:美国的学术界和开源模型开发者,也在做类似的蒸馏行为,但包括Anthropic在内的美国AI大厂,并没有对他们做出实质性的打击。如果仅因为对方是中国公司,就大肆指控、炒作,未免地缘政治的意味太重了。

在他看来,Anthropic这篇指控博客,与其说是在报告一个重大技术风险事件,不如说是一封递交给美国政府的“投名状”——通过公开指控中国AI公司,彰显自己的“立场”,以此换取美国政府的信任,保住巨额政府订单。

双标现场:Anthropic自己,也曾“蒸馏”人类最大知识库

关于Anthropic在这件事上的立场,有一个绕不开的背景,也让其指控显得格外讽刺——Anthropic自己,也曾有过大规模“抓取数据”的行为,甚至可以说是“蒸馏”了人类最大的知识库。

2024年年初,美国某仓库里出现了一幕反常的场景:工人们把一本本新书送进机器,切掉书脊、扫描,之后再把纸张送去回收。下令做这件事的,正是Anthropic,项目内部代号“巴拿马”,其核心目标,是以破坏性方式扫描全球所有书籍——Anthropic极力隐瞒这件事,不愿让外界知晓。

更早之前的2021年,Anthropic联合创始人Ben Mann在11天里,从盗版网站LibGen下载了大量侵权书籍;2022年,一个公开宣称“在大多数国家故意违反版权法”的网站Pirate Library Mirror上线,Ben Mann把网站链接发给同事,还留言:“来得正是时候!!!”

后来,在相关书籍版权诉讼中,Anthropic被迫支付15亿美元和解金,折算下来,每本书的赔偿金额约为3000美元。更值得注意的是,斯坦福和耶鲁的研究者发现,Claude 3.7 Sonnet在特定条件下,会以95.8%的准确率“近乎逐字逐句”地输出《哈利波特》等受版权保护的作品——这不仅与Anthropic长期以来“模型只是学习了语言规律”的说法背道而驰,更让该公司对任何一家的“蒸馏”指控,都显得缺乏底气。

Futurism网站的标题一针见血:“Anthropic对DeepSeek未经授权复制AI大发雷霆——考虑到它是怎么构建Claude的,这相当讽刺。”马斯克也在X平台上补了一刀:“Anthropic大规模窃取训练数据,还为此支付了数十亿美元的和解金。这是事实。”

反驳者还有一个更尖锐的逻辑:Anthropic当年从那些书籍里获取的数据,不仅没有支付任何使用费,回头还将其用于商业行为(Claude和Anthropic API都是付费服务);而此次被指控的中国AI公司,至少为抓取Claude的数据支付了token费用——从商业角度来看,后者反而更具“合理性”。当然,从法律层面来说,这两件事的性质完全不同,但无论如何,Anthropic的“双标”形象,已经难以抹去。

后蒸馏时代:捷径不存在,创新靠实干

最后,Lambert再次强调:蒸馏有用,但没有外界想象的那么有用。

DeepSeek的15万次抓取,按任何合理标准来看,都是可以忽略的数字;月暗和MiniMax合计1650万次的抓取,量级虽大,但能转化成多少真实能力,最终取决于它们能不能解决“如何用好这些数据”的技术问题——包括跨模型数据分布适配、强化学习优化等,这些都需要大量的技术积累和工程投入,绝非“走捷径”那么简单。

Lambert也给了Anthropic足够的面子:“快速迭代加上高质量数据可以走很远,让学生模型超越老师也并非不可能。”但他也明确指出,真正的AI创新,靠的是强化学习,是自主探索,而不是单纯的蒸馏模仿。从DeepSeek、月暗、MiniMax公开的论文来看,这些中国AI公司都拥有相当完善的技术基础设施和优秀的人才团队,远非外界口中“只靠小聪明、小伎俩企图弯道超车的小作坊”。

说到底,蒸馏能帮你更快入场,节省初期的研发时间,但真要打到行业顶级水平,从来没有捷径可走。中国AI公司能在短短几年内实现快速发展,核心靠的是扎实的技术积累、持续的研发投入,以及对市场需求的精准把握,而非所谓的“窃取数据、走捷径”。

某种意义上,Anthropic提出的“蒸馏”争议,本身就是这个AI时代的一个缩影。整个AI行业从一开始,就建立在一套暧昧不清的规则之上:用人类的文字、书籍训练模型,用别人的开源成果迭代优化,在法律没有明确禁止的灰色地带快速行动。

而现在,这套规则正在慢慢收紧——先是版权争议,再是芯片限制,现在又是API数据抓取的争议。谁在制定规则?谁受益于规则?谁一边打着“保护技术安全”“维护人类利益”的旗号,一边滥用规则谋求私利?这些问题的答案,正在这场“蒸馏”风波中,变得越来越清晰。

作者:门徒娱乐




现在致电 5243865 OR 查看更多联系方式 →

门徒娱乐 版权所有