快手AgentX：重构推荐系统的自进化研发范式

2026-07-01 11:18:54未知作者:徽声在线

徽声在线发布

在过去的十年里，推荐系统的发展主线聚焦于提升「建模」与「工程」能力：通过更精细的特征工程、更大规模的模型架构、更长的用户行为序列，以及生成式推荐与大模型技术的融合，不断拓展系统的能力边界。然而，在工业级推荐系统的日常迭代中，真正的瓶颈并非单纯来自模型性能，而更多源于研发生产方式的局限性。

从推荐策略的构思到最终上线，需要经历数据分析、方案设计、代码开发、实验配置、A/B测试观测、指标归因分析以及经验复盘沉淀等多个环节。在这一过程中，真正稀缺的并非「编写代码」或「运行实验」的技术能力，而是持续提出高质量假设、精准判断实验成败原因，并将经验转化为下一轮优化方向的系统性能力。

传统模式下，这一链路高度依赖算法工程师的手工操作，导致创新效率受到人力与个人经验的线性约束，难以实现规模化突破。

AgentX的诞生正是为了破解这一难题。快手AgentX团队在技术报告《AgentX: Towards Agent-Driven Self-Iteration of Industrial Recommender Systems》中，提出并验证了一套面向工业推荐系统的Agent驱动研发闭环体系：通过让Agent成为推荐迭代的核心执行主体，实现从方案生成、代码实现、实验上线到反馈读取的全流程自动化，并将每一次迭代轨迹沉淀为系统进化的燃料。

在快手App的真实业务场景中，AgentX已成功跑通「想法—代码—实验—归因—进化」的完整闭环。3个AgentX worker在主站推荐与生活服务商业化场景中，将374个实验想法转化为10个可发布结果；相较于传统人工迭代模式，单worker并发实验数提升8倍，单位人力业务价值增长3.7倍，并为主站用户App消费时长带来累计0.561%的提升，以及生活服务年化收入超1亿元的业务收益。

AgentX技术报告：https://arxiv.org/abs/2606.26859v2

背景：推荐迭代的瓶颈从模型转向研发闭环

若将Scaling技术视为解决「模型能否更强」的关键，Reasoning技术聚焦于「模型能否精准推理」，那么Agentic技术的核心目标则是「系统能否持续达成目标」。对于推荐系统而言，这一问题尤为关键——推荐迭代并非单一推理任务，而是横跨数据、代码、平台、实验、指标分析与业务决策的长链路过程。

传统人工迭代模式存在三大显著瓶颈：

人力吞吐量受限：单个工程师通常只能串行推进少量实验，每个想法均需手动完成分析、开发、上线与复盘全流程。在执行链路不变的前提下，增加人力投入仅能带来线性效率提升。
经验难以系统化沉淀：大量失败实验并非毫无价值，它们往往揭示了业务边界、平台约束、特征缺口或策略风险。然而，若这些信息仅以文档或个人记忆形式存在，系统仍可能在未来重复犯错。
离线判断无法替代真实用户反馈：推荐系统的终极优化目标是线上用户行为与业务指标。离线评估合理的方案，在线上未必有效；真正可靠的优化信号只能来自安全、可控且可归因的A/B测试。

因此，AgentX的目标并非打造更智能的代码辅助工具，而是重构推荐研发的生产函数：通过将工程师从重复性执行任务中解放出来，使其专注于目标设定、关键审核与高阶决策；同时将执行、验证与经验沉淀环节交由Agent系统自主推进。

AgentX的实现路径：构建可执行、可验证、可进化的研发闭环

AgentX将一次完整的推荐实验拆解为四大阶段：Brainstorm Agent、Developing Agent、Evaluation Agent与Harness Evolution。前三个阶段负责将想法转化为线上实验结果，第四阶段则推动Agent系统从历史轨迹中持续进化。

Brainstorm Agent：将模糊目标转化为可落地方案

真实业务场景中的需求输入往往不够明确，例如「提升观看时长」「改善冷启动问题」或「优化特定用户群体转化率」。若完全依赖模型自由发挥，可能产生依赖不存在特征、触碰错误链路或重复历史失败方向的「理想化方案」。Brainstorm Agent通过综合历史实验数据、系统架构约束、数据分析结果与外部学术研究，将目标收敛为少量具备优先级、证据支撑与边界定义的候选方案。每个方案均需明确目标指标、实现位置、所需信号、预期机制、潜在风险及验证方式。

Developing Agent：让代码生成符合生产环境要求

在工业级代码库中，语法正确性仅是基础要求。字段看似合理但实际不存在、策略未注册至正确队列、实验开关未默认关闭等问题，均可能导致线上实验失真。Developing Agent通过仓库知识库查询、特征schema验证、DSL语法检查、C++代码审查与dryrun模拟验证等工具，确保代码生成严格遵循真实仓库与平台规则。在模型研究侧，该Agent还支持论文复现、模块消融实验与跨论文结构组合，并通过确定性日志解析、专家投票机制与因果链归因分析保障结论可信度。

Evaluation Agent：将线上A/B测试转化为系统奖励信号

AgentX不将离线指标或模型自评作为最终判断依据。Evaluation Agent负责安全部署实验、流量分桶配置、参数冲突检查、指标读取与安全阈值监控，避免局部优化损害用户体验或业务安全。更关键的是，该Agent将成功与失败实验均转化为资产：成功案例成为后续方案的参考模板，失败案例则沉淀为反例约束、剪枝规则与风险预警机制。

Harness Evolution：推动Agent自主优化工作方式

AgentX的自进化能力源于SGPO（Semantic-Gradient-based Prompt Optimization）技术。该技术不直接优化推荐策略，而是从历史执行轨迹中诊断Agent工作方式的缺陷：是否遗漏业务约束、证据是否充分、交付字段是否完整、是否重复犯同类代码错误等。随后，SGPO将这些诊断结果转化为子Agent的局部优化更新，并通过新旧版本在相同任务上的对比评估决定是否采纳更新。

这正是AgentX的核心优势：它不仅自动化了人工流程，更将每次执行转化为系统能力增长的基石。

实验结果：374个想法，10个可发布结果

AgentX的核心验证基于快手App的真实部署场景。3个AgentX worker并行运行于主站推荐与生活服务两大生产场景，全程记录方案审核、代码实现、实验上线与效果评估等关键节点。

整体转化漏斗显示：374个实验想法进入系统后，106个通过方案审核（通过率28.34%），100个完成代码实现与上线（成功率94.3%），最终10个获得正向评估并达到发布标准（成功率9.9%）。

从业务线分布来看，主站推荐场景处理361个想法并产出8个可发布结果，生活服务场景处理13个想法并产出2个可发布结果。业务收益方面，主站推荐用户App消费时长累计提升0.561%，生活服务为快手平台贡献年化超1亿元收入。

更值得关注的是生产效率的质变。传统人工模式下，工程师通常串行推进实验；AgentX通过将方案生成、编码、上线与监控拆解为并行流水线，使不同想法可同时处于不同阶段。单个AgentX worker平均维持约12个并发实验，是传统工程师的8倍；单worker每周产出1.1个可发布结果，效率提升13.8倍；单位人力贡献的App时长收益达到人工模式的3.7倍。

在实验周期内，AgentX还展现出显著的自我加速效应：周并发实验数从15个增至60个，方案通过率从15%提升至45%，每周可发布结果数从2个增至5个。随着技能沉淀、失败模式积累与dryrun模板成熟，系统不仅运行速度更快，还能更高效地排除无效方向，将资源集中于高潜力实验。

从策略迭代到模型研究：闭环体系的可迁移性

AgentX的价值不仅限于线上策略实验，在模型研究领域同样具有拓展潜力。该系统可自动阅读近期推荐领域学术论文，在统一代码库中复现方法，基于KuaiRand、Taobao、Amazon、ML-1M等公开数据集评估效果，并从表现优异的模型中提取互补模块，进行跨论文结构组合与新架构探索。

在独立模型研究实验中，AgentX跑通了从论文复现、模块组合、离线评估、在线测试到发布评审的完整链路。其中达到发布标准的模型在快手App直播时长指标上带来0.865%的收益提升。

这表明AgentX并非针对特定业务场景的脚本集合，而是一套可迁移的自动研发范式：只要问题可组织为「提出假设—实现方案—获得反馈—沉淀经验」的闭环，AgentX就有潜力将其改造为批量化、自进化的研发流程。

案例分析：PCV增强精排分的两轮闭环优化

以PCV（Post-Consumption Value，消费后价值）增强精排分的优化案例为例，目标是在保持真实曝光与用户体验稳定的前提下提升用户观看时长。PCV信号源自分享、收藏、重播等消费后行为，能够反映内容的长期价值，但也可能因低质或噱头内容触发部分行为而带来风险。

在第一轮优化中，Brainstorm Agent选择直接引入PCV加权机制；Developing Agent将其实现为带实验开关保护的乘法评分公式；Evaluation Agent通过线上A/B测试发现，该方案方向正确但统计显著性不足，且伴随部分人群与多样性指标风险。

关键在于，AgentX未将此结果简单判定为失败，而是将其转化为第二轮优化的输入：针对直接提升高PCV内容可能放大噪声的问题，引入质量门控机制、用户活跃度自适应权重与时长导向底分。最终方案实现用户观看时长提升0.071%、真实曝光增长0.118%，同时用户体验指标保持稳定。

这一案例证明，AgentX的核心能力不在于一次性给出完美方案，而在于将真实反馈转化为下一轮更优的假设。推荐系统中最具价值的经验，往往隐藏在「第一轮不够好」的实验之中。

总结与展望

AgentX通过真实业务闭环验证了推荐系统自动研发的三大核心问题：

推荐算法迭代能否由Agent执行？可以，但前提是Agent需深入真实生产链路，理解系统知识、遵守工程约束，并接受线上A/B测试的检验，而非停留于文本生成或代码补全层面。
Agent产生的经验能否形成复利效应？可以。通过实验知识库、失败资产化与SGPO自进化机制，AgentX将每次执行轨迹转化为后续方案生成、代码实现与工具优化的数据来源。
Agentic推荐研发能否产生实际业务收益？已验证可行。真实部署中，AgentX带来8倍并发能力提升、3.7倍单位人力业务价值增长、主站App时长提升0.561%以及生活服务年化超1亿元收益。

展望未来，推荐研发的分工模式将发生变革：一层工程师与Agent系统协同，面向业务目标推进策略与模型迭代；另一层工程师专注进化Agent框架、工具链与基础模型能力。每次实验产生的轨迹数据，将同时服务于短期业务优化与长期智能成长。

当想法生成、代码实现、线上评估与经验沉淀均可被规模化、闭环化、可验证地自动执行时，推荐系统迭代将摆脱「增加人力」的线性增长模式，进入「经验、算力与智能共同复利」的新阶段。

AgentX的生产实践表明，自进化、批量化、Agent驱动的工业推荐研发已非设想，而是正在真实业务中释放价值的新型生产方式。

点击展开全文