让Anthropic破防的“蒸馏”风波，美国AI大牛泼冷水：中国AI成功不靠走捷径

日期：2026-02-27 14:35:31 / 人气：87

Anthropic近期掀起的“蒸馏”指控风波，搅动了全球AI行业的神经——这家AI巨头公开指控三家中国AI公司，通过虚假账号非法抓取Claude的对话数据用于模型训练，引发海外媒体跟风炒作，也让“中国AI靠走捷径崛起”的论调再次浮出水面。就在舆论一边倒之际，RLHF（基于人类反馈的强化学习）领域权威学者、《RLHF》一书作者Nathan Lambert挺身而出，发布长文泼下冷水：这件事远没有想象中简单，中国AI公司取得的成绩，靠的从来不是“走捷径”。

要理解Lambert的观点，首先要明确他的话语权来源——不同于随处可见的AI网红，Lambert是Allen AI研究所的科学家，博士毕业于加州大学伯克利分校，师从机器人领域著名学者Pieter Abbeel。他虽非RLHF技术的发明者，但所著的开源书籍《RLHF》，如今已成为全球AI从业者理解大模型训练流程的标准参考材料；更重要的是，他是真正上手训练过大模型、懂技术底层逻辑的研究者，而非单纯的舆论观察者。

在Anthropic发布指控博客的当天，Lambert就推出了详细分析文章《蒸馏对于中国大模型到底有多重要？》，其核心论点与主流媒体的解读截然不同，也比普通网友的讨论更深入、更全面。要读懂这场风波，我们不妨先从“蒸馏”本身、Anthropic的指控核心说起。

蒸馏是什么？Anthropic的指控核心的到底是什么？

所谓“蒸馏”（distillation），在AI领域指的是让弱模型学习强模型的输出，从而快速获得相似能力，相当于让“学生”模仿“老师”的答案，实现快速提升。这是大模型训练中常见的技术手段，本身并无绝对的“对错”之分。

Anthropic此次指控的核心的是：三家中国AI公司通过约2.4万个虚假账号，在违反服务条款和地区访问限制的情况下，用Claude生成了超过1600万次对话，用于训练各自的模型。Anthropic还将这套用于抓取数据的基础设施命名为“九头蛇集群”(hydra cluster)——这是一个由数万个账号组成的分布式网络，流量同时分散在Anthropic自身API和多个第三方API聚合平台上，以此规避检测。

在最极端的案例中，一个代理网络同时管理超过2万个虚假账号，还将蒸馏流量混入普通用户请求流中，进一步降低被检测的概率。这种网络没有单点故障，封掉一个账号，很快就能替换另一个，形成“打不完、封不绝”的抓取模式。

除此之外，Anthropic还附上了安全警告，声称非法蒸馏出来的模型可能缺失原模型的安全护栏，一旦被用于网络攻击、生物武器研发或大规模监控，后果将难以预测。指控一出，海外媒体纷纷跟进复述Anthropic的话术，似乎坐实了“中国AI靠窃取数据走捷径”的结论。但这套叙事逻辑很快就翻车了——毕竟“蒸馏”并非中国AI公司的专属操作，美国AI公司训练时也会使用，更何况Anthropic自己，也曾有过类似的“数据获取”行为。

Lambert的冷静拆解：三家公司的行为，量级和动机天差地别

与舆论的狂热不同，Lambert的分析更具针对性——他认为，Anthropic将三家中国AI实验室并排列在同一篇博客里，刻意掩盖了一个关键差异：这三家公司做的根本不是同一件事，抓取数据的量级天差地别，动机也各有侧重，不能一概而论。

按照Anthropic的指控，DeepSeek的蒸馏数量最少，仅有15万次，但手法更精准。不同于直接收集Claude的答案，Anthropic指控DeepSeek在做的是批量生产思维链(chain-of-thought)训练数据——也就是说，DeepSeek要的不是“你得出了什么结论”，而是得出结论的完整过程，用于优化自身模型的推理能力。

但Lambert认为，15万次的量级，对DeepSeek传闻中的V4模型或任何一款成熟模型的整体训练而言，影响几乎可以忽略不计。“这更像是某个小团队在内部做的技术实验，大概率连模型训练负责人都不知道，根本谈不上‘靠蒸馏走捷径’。”

与DeepSeek不同，月暗（Moonshot）的规模就绝非“可以忽略”：其抓取的交互量达340万次，目标集中在智能体推理、工具调用、代码与数据分析、computer-use开发、计算机视觉等方向——而这些方向，恰恰是Claude近期最受企业客户欢迎的核心能力组合，可见其动机更偏向于补齐自身产品的能力短板。

Anthropic指出，三家里流量最大的是MiniMax，抓取量约1300万次，核心目标是代理编码、工具调用和复杂任务编排。月暗和MiniMax的抓取量相加约1650万次，按对话平均token量估算，总量大约在1500亿到4000亿token之间，折合数百到上千万美元的token成本——从成本来看，这种“蒸馏”行为本身，也绝非“零成本走捷径”那么简单。

关键追问：蒸馏的天花板，到底有多高？

这是Lambert分析中最核心、也最被外界忽视的部分。他并不否认蒸馏的作用——让弱模型模仿强模型的输出，确实能快速获得类似能力，实现“快速热身”。但他明确指出了一个核心问题：蒸馏的天花板到底在哪里，取决于你想要的是哪种类型的AI能力。

作为RLHF领域的专家，Lambert强调，当前最顶尖的大模型训练，已经高度依赖强化学习（RL），而RL和蒸馏在本质上是两种完全不同的技术路径：蒸馏是“模仿”，核心是复制强模型的“答案形状”，相当于学生死记硬背老师的解题结果；而RL是“探索”，模型必须自己大量推理、自己生成答案，在不断试错中迭代优化，从错误里提炼真正的能力——这种自主探索的解题路径，是靠蒸馏别人的API输出，永远得不到的。

DeepSeek自己的蒸馏尝试，就是最直接的例证：基于阿里千问蒸馏自家的R1模型后，得到的DeepSeek-R1-Distill-Qwen 1.5B小模型，仅靠7000条样本和极低的计算成本，就在AIME24数学竞赛基准上超越了OpenAI的o1-preview。但Lambert指出，这个提升，更多是依靠强化学习的优化，而非蒸馏这个行为本身。“蒸馏能帮你快速入门，但要真正达到顶级水平，还是得靠自己跑RL，没有任何捷径可走。”

除此之外，Lambert还提到了一个技术层面很少被外界提及的细节：不同模型之间存在微妙的数据分布差异。把Claude的输出直接喂给另一个架构的模型，不一定能起到效果，有时甚至会产生干扰——两个模型内部的表征空间不同，会让“老师”的回答在“学生”那里引发意想不到的偏差。

这意味着，蒸馏从来不是“拿来就用”的简单操作，而是需要大量的工程优化和技术调试，才能真正发挥效果。在Lambert看来，Anthropic所指控的这些“蒸馏”行为，与其说是“窃取数据走捷径”，不如看作是中国AI公司试图攻克“跨模型蒸馏优化”这一技术课题的创新尝试。

最讽刺的点：Anthropic最不想被复制的能力，恰恰最难蒸馏

Lambert还发现了一个关键细节：Anthropic点名的三家中国公司，抓取数据的重心都集中在“代理行为”(agentic behavior)上——包括AI自主规划、工具调用、分解复杂任务并逐步执行的能力等。这恰恰是Claude目前最突出的核心优势，也是Anthropic最不想被竞争对手复制的能力。

但Lambert的判断是，这些能力，恰恰也是最难通过蒸馏获得的。一个强大的AI agent，其核心价值不在于“知道正确答案”，而在于“面对没见过的情况时，能自主探索出解决路径”——这是一种能实现0-shot（零样本）或few-shot（少样本）达到SOTA（当前最优）效果的能力，其价值体现在完整的推理轨迹上。

而这种推理轨迹，是很难通过蒸馏习得的——至少目前的技术水平是如此。DeepSeek-R1-Distill（蒸馏模型）和DeepSeek-R1（蒸馏对象）之间的差距，就完美印证了这一点：在格式化的数学推理任务上，前者表现不错；但在需要自主探索、动态规划的复杂代理任务上，两者的差距十分明显。也就是说，即便中国公司抓取了Claude的相关数据，也很难真正复制其核心竞争力。

Anthropic指控的真正动机：不是技术防御，而是“投名状”？

Lambert提出了一个耐人寻味的判断：这次Anthropic公开点名中国AI公司，“技术防御”压根不是首要动机。背后的核心原因，与美国政府的压力密切相关。

在Anthropic发布指控博客的几天前，美国国防部刚刚向Anthropic发出威胁：要求其配合提供“不受限制的使用权限”，否则就将做出对其不利的安排——比如将Anthropic标记为“供应链危险”，使其无法进入美国国防和政府供应商名单。这让Anthropic陷入了“既要又要”的两难境地：一方面，它想维持“安全、不反人性”的模型定位和公司形象；另一方面，它又不愿意错过美国政府的巨额订单。

Lambert进一步指出了一个根本矛盾：美国的学术界和开源模型开发者，也在做类似的蒸馏行为，但包括Anthropic在内的美国AI大厂，并没有对他们做出实质性的打击。如果仅因为对方是中国公司，就大肆指控、炒作，未免地缘政治的意味太重了。

在他看来，Anthropic这篇指控博客，与其说是在报告一个重大技术风险事件，不如说是一封递交给美国政府的“投名状”——通过公开指控中国AI公司，彰显自己的“立场”，以此换取美国政府的信任，保住巨额政府订单。

双标现场：Anthropic自己，也曾“蒸馏”人类最大知识库

关于Anthropic在这件事上的立场，有一个绕不开的背景，也让其指控显得格外讽刺——Anthropic自己，也曾有过大规模“抓取数据”的行为，甚至可以说是“蒸馏”了人类最大的知识库。

2024年年初，美国某仓库里出现了一幕反常的场景：工人们把一本本新书送进机器，切掉书脊、扫描，之后再把纸张送去回收。下令做这件事的，正是Anthropic，项目内部代号“巴拿马”，其核心目标，是以破坏性方式扫描全球所有书籍——Anthropic极力隐瞒这件事，不愿让外界知晓。

更早之前的2021年，Anthropic联合创始人Ben Mann在11天里，从盗版网站LibGen下载了大量侵权书籍；2022年，一个公开宣称“在大多数国家故意违反版权法”的网站Pirate Library Mirror上线，Ben Mann把网站链接发给同事，还留言：“来得正是时候！！！”

后来，在相关书籍版权诉讼中，Anthropic被迫支付15亿美元和解金，折算下来，每本书的赔偿金额约为3000美元。更值得注意的是，斯坦福和耶鲁的研究者发现，Claude 3.7 Sonnet在特定条件下，会以95.8%的准确率“近乎逐字逐句”地输出《哈利波特》等受版权保护的作品——这不仅与Anthropic长期以来“模型只是学习了语言规律”的说法背道而驰，更让该公司对任何一家的“蒸馏”指控，都显得缺乏底气。

Futurism网站的标题一针见血：“Anthropic对DeepSeek未经授权复制AI大发雷霆——考虑到它是怎么构建Claude的，这相当讽刺。”马斯克也在X平台上补了一刀：“Anthropic大规模窃取训练数据，还为此支付了数十亿美元的和解金。这是事实。”

反驳者还有一个更尖锐的逻辑：Anthropic当年从那些书籍里获取的数据，不仅没有支付任何使用费，回头还将其用于商业行为（Claude和Anthropic API都是付费服务）；而此次被指控的中国AI公司，至少为抓取Claude的数据支付了token费用——从商业角度来看，后者反而更具“合理性”。当然，从法律层面来说，这两件事的性质完全不同，但无论如何，Anthropic的“双标”形象，已经难以抹去。

后蒸馏时代：捷径不存在，创新靠实干

最后，Lambert再次强调：蒸馏有用，但没有外界想象的那么有用。

DeepSeek的15万次抓取，按任何合理标准来看，都是可以忽略的数字；月暗和MiniMax合计1650万次的抓取，量级虽大，但能转化成多少真实能力，最终取决于它们能不能解决“如何用好这些数据”的技术问题——包括跨模型数据分布适配、强化学习优化等，这些都需要大量的技术积累和工程投入，绝非“走捷径”那么简单。

Lambert也给了Anthropic足够的面子：“快速迭代加上高质量数据可以走很远，让学生模型超越老师也并非不可能。”但他也明确指出，真正的AI创新，靠的是强化学习，是自主探索，而不是单纯的蒸馏模仿。从DeepSeek、月暗、MiniMax公开的论文来看，这些中国AI公司都拥有相当完善的技术基础设施和优秀的人才团队，远非外界口中“只靠小聪明、小伎俩企图弯道超车的小作坊”。

说到底，蒸馏能帮你更快入场，节省初期的研发时间，但真要打到行业顶级水平，从来没有捷径可走。中国AI公司能在短短几年内实现快速发展，核心靠的是扎实的技术积累、持续的研发投入，以及对市场需求的精准把握，而非所谓的“窃取数据、走捷径”。

某种意义上，Anthropic提出的“蒸馏”争议，本身就是这个AI时代的一个缩影。整个AI行业从一开始，就建立在一套暧昧不清的规则之上：用人类的文字、书籍训练模型，用别人的开源成果迭代优化，在法律没有明确禁止的灰色地带快速行动。

而现在，这套规则正在慢慢收紧——先是版权争议，再是芯片限制，现在又是API数据抓取的争议。谁在制定规则？谁受益于规则？谁一边打着“保护技术安全”“维护人类利益”的旗号，一边滥用规则谋求私利？这些问题的答案，正在这场“蒸馏”风波中，变得越来越清晰。

作者：门徒娱乐

让Anthropic破防的“蒸馏”风波，美国AI大牛泼冷水：中国AI成功不靠走捷径

新闻资讯 News

案例展示 Case

现在致电 5243865 OR 查看更多联系方式 →

现在致电 5243865 OR 查看更多联系方式 →