科研进展

天津工业生物技术研究所在大语言模型助力生物制造应用方面取得进展

发布时间:2025-03-21

字号:【大】 【中】 【小】

生物制造是一种利用工程化生物系统生产高价值化学品和药物的技术,其核心在于通过合成生物学优化微生物工厂以实现高效生产。然而,传统生物制造方法在知识整合、数据处理和实验设计方面面临诸多挑战,限制了其在工业化应用中的效率和可扩展性。大语言模型(Large Language Models,LLMs)作为一种突破性的生成式人工智能技术,因其在知识生成、数据挖掘和复杂问题解决中的卓越能力,为生物制造带来了新的希望。目前,LLMs在合成生物学中的应用尚处于探索阶段,特别是在知识合成和智能化生产中的潜力尚未被充分挖掘。

近日,中国科学院天津工业生物技术研究所生物设计中心开发了基于LLMsSynBioGPT菌种改造专家系统(https://synbiogpt.biodesign.ac.cn)。该系统已通过海外科学家验证,取得了良好的效果。相关研究进一步全面分析了AI大语言模型在合成生物学应用方面的最新进展,深入探讨了利用这些AI大模型推动细胞工厂设计和代谢工程菌种改造的可行路径。SynBioGPT整合51,777篇文献摘要和23,318篇开放获取全文PDF,测试了LLMs在合成生物学问题上的表现。结合检索增强生成(Retrieval-Augmented Generation,RAG)技术后,LLMs的回答准确性从25%显著提升至85%,其中Qwen1.5Llama3模型表现尤为突出。为了进一步验证LLMs在生物制造中的应用潜力,团队进一步分析了其在生物序列建模、细胞工厂开发和自驱动实验室(Self-Driving Laboratories,SDL)中可能发挥的作用。首先,LLMs在处理DNARNA和蛋白质序列数据中具有独特优势,特别是在蛋白质语言模型中能够生成通用表示,为构建AI虚拟细胞(AI Virtual Cell,AIVC)奠定基础。其次,在细胞工厂开发中,LLMs通过整合文献数据和实验报告,加速了酶工程、途径设计和发酵优化的设计–构建–测试–学习(DBTL)周期,其能够提取关键特征并与代谢模型结合,从而提高机器学习预测能力并优化生物制造效率。最后,作为智能代理,LLMs通过任务规划、实验设计和数据分析推动生物制造向SDL范式转变,SDL结合机器人技术与人类监督,能够实现从任务分解到实验执行的全流程自动化,为未来智能化生产奠定基础。

综上所述,该研究详细阐明了LLMs在合成生物学知识合成和生物制造智能化中的应用机制,展示了其在提升生产效率和可持续性方面的潜力。同时,该研究也为LLMs在合成生物学中的应用提供了新的视角,拓展了其在生物催化、药物开发和环保技术中的研究领域。

该工作得到了天津市合成生物技术创新能力提升行动、国家自然科学基金等项目支持,相关成果发表于Trends in Biotechnology期刊。天津工业生物技术研究所副研究员毛志涛为论文共同第一作者,马红武研究员为共同通讯作者。

论文链接

大语言模型(LLMs)在合成生物学知识抽提和智能问答任务中的比较

大语言模型(LLMs)可将菌株开发的设计-构建-测试-学习(DBTL)过程整合为一个统一且高效的流程