时间:2026年5月28日
地点:美国
人物:英伟达研究团队
事件详情:英伟达研究团队发布开源框架Polar,该框架在不破坏原有工具调用、上下文组织和补丁提交方式的前提下,让Codex、Claude Code、Qwen Code等现有智能体框架接入GRPO(广义相对策略优化)训练。测试数据显示,使用Polar框架后Codex跑分暴涨594.74%,性能提升显著。
背景:GRPO是一种面向强化学习训练的优化方法,会依据奖励信号调整模型策略,让模型在多步决策任务里学会更优动作。此次Polar框架主要用于代码智能体训练,让模型在真实工具调用和补丁提交流程中持续改进表现。论文指出智能体强化学习正从单步任务转向长流程任务,比如代码仓库修改、浏览器操作和操作系统交互。
影响:
- 大幅提升AI代码助手性能,加速软件开发效率
- 推动智能体强化学习技术突破,拓展AI应用边界
- 为开发者提供更强大的AI编程工具,降低开发门槛
总结:英伟达发布Polar框架,通过GRPO训练方法让AI代码助手性能实现质的飞跃。这一突破标志着智能体强化学习技术进入新阶段,为AI辅助编程领域带来重大进展,有望大幅提升软件开发效率。
参考来源:
http://finance.sina.com.cn/tech/digi/2026-05-28/doc-inhzmihu0210264.shtml
https://k.sina.com.cn/article_7857201856_1d45362c0019061kvi.html









