SDPG算法开源：让Agent自己教自己，多步规划训练不再依赖大教师模型

发布时间：2026-06-04 已有：位网友关注

　　币界网消息，SDPG算法由加州大学洛杉矶分校顾全全团队的刘益枫、张诗源与普林斯顿大学的张伊凡开源，旨在解决智能体在缺乏外部教师模型指导时的自我进化瓶颈。该算法通过内部教师引导机制，利用特权信息生成高质量推理路径，提升多步决策的训练效率与成功率。评测数据显示，SDPG在数学推理与多步规划任务中表现优于GRPO及多种自蒸馏基线算法。