OpenMed仅用165美元训练25物种mRNA语言模型,为生物医学AI提供重要工具

OpenMed团队发布了仅需165美元成本就能训练跨25个物种mRNA语言模型的完整管道,CodonRoBERTa-large-v2模型表现最佳,为治疗性mRNA、疫苗和重组蛋白生产提供了重要工具。

密码子优化对治疗性mRNA、疫苗和重组蛋白生产至关重要。遗传密码具有简并性:同一蛋白质可以由天文数字般多的不同DNA序列编码,但某些密码子排列的表达效率比其他高100倍。辉瑞-BioNTech新冠疫苗就经过了针对人类表达的密码子优化。

团队构建了完整的蛋白质AI管道,涵盖三个阶段:预测蛋白质3D结构(ESMFold)、设计折叠成该结构的氨基酸序列(ProteinMPNN)、优化底层DNA密码子使蛋白质在目标生物体中高效表达。

在架构探索中,团队比较了多个Transformer架构:CodonBERT基线(6M参数)、ModernBERT-base(90M参数)、CodonRoBERTa-base(92M参数)、CodonRoBERTa-large(312M参数)。结果显示,RoBERTa在困惑度上比ModernBERT高6倍(4.01 vs 26.24)。

最令人惊讶的发现是超参数调优解锁了生物学对齐。相同架构、相同数据、相同参数数量,仅学习率减半和预热时间延长,CodonRoBERTa-large-v2的密码子似然预测与实际使用的相关性就从0.025提升到0.404,提升16倍。

团队将模型扩展到25个物种,在55个GPU小时内训练了4个生产模型,构建了其他开源项目未曾提供的物种条件系统。所有模型、数据和代码均已开源。

参考来源:
https://huggingface.co/blog/OpenMed/training-mrna-models-25-species
https://github.com/docling-project/docling
https://huggingface.co/ibm-granite/granite-4.0-micro