OpenMed仅用165美元训练25物种mRNA语言模型，为生物医学AI提供重要工具

OpenMed团队发布了仅需165美元成本就能训练跨25个物种mRNA语言模型的完整管道，CodonRoBERTa-large-v2模型表现最佳，为治疗性mRNA、疫苗和重组蛋白生产提供了重要工具。

密码子优化对治疗性mRNA、疫苗和重组蛋白生产至关重要。遗传密码具有简并性：同一蛋白质可以由天文数字般多的不同DNA序列编码，但某些密码子排列的表达效率比其他高100倍。辉瑞-BioNTech新冠疫苗就经过了针对人类表达的密码子优化。

团队构建了完整的蛋白质AI管道，涵盖三个阶段：预测蛋白质3D结构（ESMFold）、设计折叠成该结构的氨基酸序列（ProteinMPNN）、优化底层DNA密码子使蛋白质在目标生物体中高效表达。

在架构探索中，团队比较了多个Transformer架构：CodonBERT基线（6M参数）、ModernBERT-base（90M参数）、CodonRoBERTa-base（92M参数）、CodonRoBERTa-large（312M参数）。结果显示，RoBERTa在困惑度上比ModernBERT高6倍（4.01 vs 26.24）。

最令人惊讶的发现是超参数调优解锁了生物学对齐。相同架构、相同数据、相同参数数量，仅学习率减半和预热时间延长，CodonRoBERTa-large-v2的密码子似然预测与实际使用的相关性就从0.025提升到0.404，提升16倍。

团队将模型扩展到25个物种，在55个GPU小时内训练了4个生产模型，构建了其他开源项目未曾提供的物种条件系统。所有模型、数据和代码均已开源。

参考来源：
https://huggingface.co/blog/OpenMed/training-mrna-models-25-species
https://github.com/docling-project/docling
https://huggingface.co/ibm-granite/granite-4.0-micro