3月22日,上海交通大学洪亮教授团队发布了一款名为Venus的蛋白质设计模型。该团队将AI技术与蛋白质设计及改造相结合,建立了全球最大的蛋白质数据集。基于此数据集训练的模型能够精准、高效地预测和设计蛋白质的功能,从而将蛋白质生产从“缓慢的试错”转变为“高效率的精准设计”。
这一成果配合行业领先的自动化设备,已经实现了产业化落地,使得蛋白质设计从原先复杂的科学研究变为简单的工程问题。洪亮团队建立的蛋白质序列数据集Venus-Pod包含近90亿条蛋白质序列,其中包含数亿个功能标签,是目前全球规模最大、功能批注标签最多的数据集。该数据集涵盖了陆地微生物、海洋微生物、抗体以及病毒等多类蛋白质序列信息,并配备了详细的功能标签。
洪亮指出,这个庞大的数据集为挖掘新的蛋白或生物催化剂提供了宝贵资源,有助于生物医药和合成生物学的发展。同时,通过学习海量数据,AI大模型可以掌握自然界蛋白质的进化模式,为设计优异的蛋白质产品提供支持。2024年诺贝尔化学奖颁发给谷歌DeepMind团队,表彰他们利用AI技术解决了蛋白质序列到三维结构解析的难题。然而,即便蛋白质的氨基酸序列仅发生微小变化,其功能也可能大幅下降甚至丧失。因此,成功设计出具有特定功能的蛋白质不仅需要关注其三维结构,还要能准确预测其功能。
为此,洪亮教授团队直接瞄准了“功能预测”的目标,开发了Venus系列模型。不同于AlphaFold专注于预测蛋白质结构,Venus模型更侧重于学习自然界蛋白质序列的组织规则及其与功能之间的关系。Venus系列模型具备两大核心功能:“AI定向进化”与“AI挖酶”。前者可以优化蛋白质产品的多种性能,使其更好地满足应用需求;后者则基于海量未知功能蛋白质数据集,发掘具备超常规功能的蛋白质,如极度耐热、耐酸、耐碱等特性,在生物技术、医药研发和工业生产中具有巨大潜力。
此外,配合Venus系列模型使用的低通量大体积蛋白质表达、纯化与功能检测自动化一体机,可在24小时内完成100多个蛋白质样品的处理任务,显著提高了实验效率。目前,经过Venus系列模型设计的多款蛋白质已实现产业化。例如,金赛药业借助该模型在不到一年内将单域抗体的耐碱性提升了四倍,每年可节省上千万元成本。另一案例是对某体外诊断公司碱性磷酸酶(ALP)活性的成功提升,使其分子活性超出国际头部公司产品三倍,为超敏检测诊断带来重要价值。
有话要说...