生物学的编程语言来了:Proto,让科学家像写代码一样设计生命

日期:2026-06-24 14:28:53 / 人气:1


多年来,生物学研究一直依赖于通过试错或筛选成千上万的候选物来组装天然组分,直到找到有效方案。尽管用于蛋白质设计、RNA工程和基因调控的强大的AI模型有望加速这一过程,但这些模型仍各自封闭在计算领域中,许多实验生物学家难以触及。
而现在,生物学大模型Evo和Evo2的开发者、斯坦福大学/Arc研究所的Brian Hie推出了一种用于生成式生物学的高级编程语言——Proto,这是一个整合多种AI工具的框架,旨在实现复杂且多模态的生物学设计。官方站点https://proto.evodesign.org/可正常访问,可查看Proto应用界面、产品定位等官方基础介绍;配套研究论文链接https://www.biorxiv.org/content/10.64898/2026.06.22.733870v1 网页解析失败,暂无法读取论文原文内容。
该研究推出的Proto,是面向生成式生物学的高级编程语言,能够跨多模态和尺度(涵盖DNA、RNA、蛋白质、配体及其相互作用)编码生成式设计任务。Proto可直接将预测模型整合到生成式工作流中,研究团队利用这一点在人类细胞系中设计并实验验证了可变剪接的内含子。Proto原生支持多目标优化,能够设计出在合成蛋白-DNA设计中实验成功率领先的启动子-阻遏物对。结合AI智能体,Proto还可通过自然语言指令实现复杂通路与调控逻辑的定义。
此外,研究团队开源发布了Proto,包括其软件基础设施和用户界面,任何人可通过官方网址访问使用,助力生成式生物学编程普及落地。
为什么我们需要一门生物学编程语言?
传统的生物工程设计,有点像“考古”:研究人员从自然界已有的天然生物组件中挑选、组合,然后通过“构建-测试-学习”循环,不断迭代探索,验证效果,整个过程既耗时又昂贵,而且很大程度上依赖经验和运气。
近年来,生成式AI模型的出现大大改善了这种情况。但问题是,现有的方法非常“碎片化”——有的模型擅长设计蛋白质,有的模型擅长设计DNA,有的只能做预测分析。想把它们组合起来解决复杂问题?那简直是一场噩梦。正是这种行业困境,催生了Proto这一专属生物编程工具。
Proto是什么?
Proto定位为通用基础设施层、生成式生物学专属编程语言,核心主旨是实现生物可编程化,核心思想简洁易懂:它把复杂的生物设计任务抽象成四个基本“原语”(Primitive),四大模块可自由搭配搭建生物设计程序:
1. 序列(Sequence):最基础单元,代表一段DNA、RNA或蛋白质字符串,等同于计算机编程中的变量。
2. 约束(Constraint):判定序列优劣的评分函数,评分越低序列适配性越好,既可以是GC含量这类基础统计指标,也可以是AlphaFold神经网络预测器这类专业AI模型。
3. 生成器(Generator):产出候选生物序列,载体包含Evo2大型生物语言模型、扩散模型、随机采样器等多种工具。
4. 优化器(Optimizer):迭代优化生成序列,贴合各项约束条件,充当智能筛选、迭代改良的核心引擎。
Proto概述
理论之美:能量模型视角
Proto背后依托完备的数学框架,研究团队将生物设计全过程建模为基于能量的模型:$$\pi(x)\propto p(x)\exp(-f(x)/T)$$,即目标分布正比于生成器先验×exp(-约束得分/温度)。
公式核心逻辑:依托生成器保障生物序列贴合自然生物学规律,依托约束条件实现序列功能优化,温度参数平衡序列合理性与功能优越性。同时平台支持多约束叠加,形成“专家乘积”,可同步完成多重目标优化,例如兼顾蛋白质结构稳定性、DNA结合能力、细胞表达适配性多重需求。
实验验证:不只是纸上谈兵
Proto并非纯理论框架,研究团队完成多项实操实验,全方位验证工具落地实用性,三大核心实验成果如下:
案例一:设计细胞特异性剪接的内含子
基因表达由转录、RNA剪接共同决定,团队依托Proto设计适配不同人类细胞系的差异化剪接内含子序列。仅测试65条候选序列,就有32%序列达成目标差异化剪接;对标过往同类研究,后者需测试超10万条序列,成功率不足7%,效率实现跨越式提升。其中PI-KS1序列表现突出,在SH-SY5Y神经细胞中剪接占比36%,在K562白血病细胞中剪接占比71%,完成高精度细胞特异性基因调控。
案例二:协同设计启动子-阻遏蛋白对
Proto具备跨模态协同设计能力,可同步设计DNA功能元件、配套互作蛋白质。团队依托工具自研全新σ70启动子ProtoPromoter,86个候选样本中71个活性优于行业公认强启动子PLtetO1;配套设计专属阻遏蛋白ProtoRepressor,研发成功率达46%。标杆样本ProtoRepressor 44_9,可2倍抑制目标启动子活性,对非目标启动子无干扰,调控特异性极强。
案例三:AI智能体驱动的复杂系统设计
Proto内置通用AI智能体,科研人员仅需输入自然语言需求,AI即可自动编写适配Proto程序,落地三项高难度生物设计任务:
1. 蛋白质组规模复合体多样化:完成249个人类蛋白质复合体设计,覆盖797个基因,设计结构与天然结构契合度极高,中位RMSD仅1.9埃;
2. 完整信号通路重设计:重构β2-肾上腺素信号通路,覆盖8种蛋白质、多款小分子配体与DNA调控元件;
3. 癌症靶向治疗载体设计:搭建非小细胞肺癌靶向多层调控系统,覆盖肿瘤特异性入侵、转录、剪接、翻译后全流程调控。
工程挑战与开源贡献
现阶段生物学AI工具生态割裂,各类工具软件依赖、硬件适配、数据格式互不兼容,整合难度极高。Proto研发团队搭建标准化通用基础设施,目前已兼容120余种生物AI工具,打通生态壁垒。
目前Proto已完成全维度开源,开放Python API、图形可视化界面、云端运行环境,全球科研人员均可通过官网免费使用。类比Verilog、C语言赋能集成电路与计算机行业,Proto有望成为生物系统全域设计的通用底层语言,改写生物研发范式。
目前Proto落地最大瓶颈依旧是实验室实验验证,计算仿真设计成果,仍需生物实验核验真实功能。但伴随基因合成、高通量测序、细胞工程技术迭代,仿真设计与实验落地的差距正在持续缩小。
研究团队表示,后续依托生物序列生成模型、功能预测模型、大模型AI智能体迭代升级,Proto的生物设计范围、规模、可靠性将持续优化。未来生物设计将跳出天然生物元件限制,仅依托人类创造力即可完成定制化生命编写。
链接说明
1. Proto官方使用站点:https://proto.evodesign.org/(可正常访问,查看产品定位、交互界面等官方信息)
2. 研究论文预印本链接:https://www.biorxiv.org/content/10.64898/2026.06.22.733870v1(网页解析失败,暂无法阅览论文全文)

作者:门徒娱乐




现在致电 5243865 OR 查看更多联系方式 →

门徒娱乐 版权所有