Perplexity公开搜索Agent后训练方法，基于Qwen3.5的模型在准确率和成本上超过GPT5.4

发布时间：2026-04-23 已有：位网友关注

　　币界网消息，4 月 23 日，据动察 Beating 监测，Perplexity 研究团队发表技术文章，公开其网页搜索 agent 的后训练流程。该流程基于开源模型 Qwen3.5-122B-A10B 和 Qwen3.5-397B-A17B，采用两阶段方案：先用监督微调建立指令遵循、语言一致性等部署必需行为，再用在线策略强化学习优化搜索准确率和工具使用效率。 RL 阶段使用 GRPO 算法，训练数据由两部分组成：一是自研合成的多跳可验证问答数据集，从内部种子查询出发，通过实体链构造需要 2 到 4 跳推理的问题，并由多个独立求解器验证答案唯一性；二是基于评分标准的通用对话数据，将指令遵循、格式约束等部署要求转化为可客观检查的原子条件，用于在 RL 阶段防止 SFT 建立的行为退化。奖励设计的核心是门控聚合：只有基线正确时，偏好得分才参与计算，防止高偏好信号掩盖事实错误。效率惩罚采用组内锚定方式，以同组正确回答为基准，对超出的工具调用次数和生成长度施加平滑惩罚。评测显示后训练后的 Qwen3.5-397B-SFT-RL 在多个搜索基准上表现最优。在 FRAMES 上，单次工具调用即达 57.3%，比 GPT-5.4 高 5.7 个百分点，比 Sonnet 4.6 高 4.7 个百分点。中等预算下达 73.9%，每查询成本 2.0 美分；同条件下 GPT-5.4 为 67.8% / 8.5 美分，Sonnet 4.6 为 62.4% / 15.3 美分。成本数据按各厂商公开 API 定价计算，未含缓存优化。

上一篇：ArthurHayes：比特币突破50万美元需美联储重启印钞机

下一篇：两部门：推动中文教育、中医药等传统特色服务贸易标准化建设

温馨提示：所有理财类资讯内容仅供参考，不作为投资依据。

Perplexity公开搜索Agent后训练方法，基于Qwen3.5的模型在准确率和成本上超过GPT5.4

推荐

热门