当前位置:主页 > 聚焦 > 正文

SDPG算法开源:让Agent自己教自己,多步规划训练不再依赖大教师模型

发布时间:2026-06-04 已有: 位 网友关注

  币界网消息,SDPG算法由加州大学洛杉矶分校顾全全团队的刘益枫、张诗源与普林斯顿大学的张伊凡开源,旨在解决智能体在缺乏外部教师模型指导时的自我进化瓶颈。该算法通过内部教师引导机制,利用特权信息生成高质量推理路径,提升多步决策的训练效率与成功率。评测数据显示,SDPG在数学推理与多步规划任务中表现优于GRPO及多种自蒸馏基线算法。

温馨提示:所有理财类资讯内容仅供参考,不作为投资依据。