快手AgentX:重构推荐系统的自进化研发范式
2026-07-01 11:18:54未知 作者:徽声在线
徽声在线发布
在过去的十年里,推荐系统的发展主线聚焦于提升「建模」与「工程」能力:通过更精细的特征工程、更大规模的模型架构、更长的用户行为序列,以及生成式推荐与大模型技术的融合,不断拓展系统的能力边界。然而,在工业级推荐系统的日常迭代中,真正的瓶颈并非单纯来自模型性能,而更多源于研发生产方式的局限性。
从推荐策略的构思到最终上线,需要经历数据分析、方案设计、代码开发、实验配置、A/B测试观测、指标归因分析以及经验复盘沉淀等多个环节。在这一过程中,真正稀缺的并非「编写代码」或「运行实验」的技术能力,而是持续提出高质量假设、精准判断实验成败原因,并将经验转化为下一轮优化方向的系统性能力。
传统模式下,这一链路高度依赖算法工程师的手工操作,导致创新效率受到人力与个人经验的线性约束,难以实现规模化突破。
AgentX的诞生正是为了破解这一难题。快手AgentX团队在技术报告《AgentX: Towards Agent-Driven Self-Iteration of Industrial Recommender Systems》中,提出并验证了一套面向工业推荐系统的Agent驱动研发闭环体系:通过让Agent成为推荐迭代的核心执行主体,实现从方案生成、代码实现、实验上线到反馈读取的全流程自动化,并将每一次迭代轨迹沉淀为系统进化的燃料。
在快手App的真实业务场景中,AgentX已成功跑通「想法—代码—实验—归因—进化」的完整闭环。3个AgentX worker在主站推荐与生活服务商业化场景中,将374个实验想法转化为10个可发布结果;相较于传统人工迭代模式,单worker并发实验数提升8倍,单位人力业务价值增长3.7倍,并为主站用户App消费时长带来累计0.561%的提升,以及生活服务年化收入超1亿元的业务收益。
- AgentX技术报告:https://arxiv.org/abs/2606.26859v2
背景:推荐迭代的瓶颈从模型转向研发闭环
若将Scaling技术视为解决「模型能否更强」的关键,Reasoning技术聚焦于「模型能否精准推理」,那么Agentic技术的核心目标则是「系统能否持续达成目标」。对于推荐系统而言,这一问题尤为关键——推荐迭代并非单一推理任务,而是横跨数据、代码、平台、实验、指标分析与业务决策的长链路过程。
传统人工迭代模式存在三大显著瓶颈:
- 人力吞吐量受限:单个工程师通常只能串行推进少量实验,每个想法均需手动完成分析、开发、上线与复盘全流程。在执行链路不变的前提下,增加人力投入仅能带来线性效率提升。
- 经验难以系统化沉淀:大量失败实验并非毫无价值,它们往往揭示了业务边界、平台约束、特征缺口或策略风险。然而,若这些信息仅以文档或个人记忆形式存在,系统仍可能在未来重复犯错。
- 离线判断无法替代真实用户反馈:推荐系统的终极优化目标是线上用户行为与业务指标。离线评估合理的方案,在线上未必有效;真正可靠的优化信号只能来自安全、可控且可归因的A/B测试。
因此,AgentX的目标并非打造更智能的代码辅助工具,而是重构推荐研发的生产函数:通过将工程师从重复性执行任务中解放出来,使其专注于目标设定、关键审核与高阶决策;同时将执行、验证与经验沉淀环节交由Agent系统自主推进。
AgentX的实现路径:构建可执行、可验证、可进化的研发闭环
AgentX将一次完整的推荐实验拆解为四大阶段:Brainstorm Agent、Developing Agent、Evaluation Agent与Harness Evolution。前三个阶段负责将想法转化为线上实验结果,第四阶段则推动Agent系统从历史轨迹中持续进化。
- Brainstorm Agent:将模糊目标转化为可落地方案
真实业务场景中的需求输入往往不够明确,例如「提升观看时长」「改善冷启动问题」或「优化特定用户群体转化率」。若完全依赖模型自由发挥,可能产生依赖不存在特征、触碰错误链路或重复历史失败方向的「理想化方案」。Brainstorm Agent通过综合历史实验数据、系统架构约束、数据分析结果与外部学术研究,将目标收敛为少量具备优先级、证据支撑与边界定义的候选方案。每个方案均需明确目标指标、实现位置、所需信号、预期机制、潜在风险及验证方式。
- Developing Agent:让代码生成符合生产环境要求
在工业级代码库中,语法正确性仅是基础要求。字段看似合理但实际不存在、策略未注册至正确队列、实验开关未默认关闭等问题,均可能导致线上实验失真。Developing Agent通过仓库知识库查询、特征schema验证、DSL语法检查、C++代码审查与dryrun模拟验证等工具,确保代码生成严格遵循真实仓库与平台规则。在模型研究侧,该Agent还支持论文复现、模块消融实验与跨论文结构组合,并通过确定性日志解析、专家投票机制与因果链归因分析保障结论可信度。
- Evaluation Agent:将线上A/B测试转化为系统奖励信号
AgentX不将离线指标或模型自评作为最终判断依据。Evaluation Agent负责安全部署实验、流量分桶配置、参数冲突检查、指标读取与安全阈值监控,避免局部优化损害用户体验或业务安全。更关键的是,该Agent将成功与失败实验均转化为资产:成功案例成为后续方案的参考模板,失败案例则沉淀为反例约束、剪枝规则与风险预警机制。
- Harness Evolution:推动Agent自主优化工作方式
AgentX的自进化能力源于SGPO(Semantic-Gradient-based Prompt Optimization)技术。该技术不直接优化推荐策略,而是从历史执行轨迹中诊断Agent工作方式的缺陷:是否遗漏业务约束、证据是否充分、交付字段是否完整、是否重复犯同类代码错误等。随后,SGPO将这些诊断结果转化为子Agent的局部优化更新,并通过新旧版本在相同任务上的对比评估决定是否采纳更新。
这正是AgentX的核心优势:它不仅自动化了人工流程,更将每次执行转化为系统能力增长的基石。
实验结果:374个想法,10个可发布结果
AgentX的核心验证基于快手App的真实部署场景。3个AgentX worker并行运行于主站推荐与生活服务两大生产场景,全程记录方案审核、代码实现、实验上线与效果评估等关键节点。
整体转化漏斗显示:374个实验想法进入系统后,106个通过方案审核(通过率28.34%),100个完成代码实现与上线(成功率94.3%),最终10个获得正向评估并达到发布标准(成功率9.9%)。
从业务线分布来看,主站推荐场景处理361个想法并产出8个可发布结果,生活服务场景处理13个想法并产出2个可发布结果。业务收益方面,主站推荐用户App消费时长累计提升0.561%,生活服务为快手平台贡献年化超1亿元收入。
更值得关注的是生产效率的质变。传统人工模式下,工程师通常串行推进实验;AgentX通过将方案生成、编码、上线与监控拆解为并行流水线,使不同想法可同时处于不同阶段。单个AgentX worker平均维持约12个并发实验,是传统工程师的8倍;单worker每周产出1.1个可发布结果,效率提升13.8倍;单位人力贡献的App时长收益达到人工模式的3.7倍。
在实验周期内,AgentX还展现出显著的自我加速效应:周并发实验数从15个增至60个,方案通过率从15%提升至45%,每周可发布结果数从2个增至5个。随着技能沉淀、失败模式积累与dryrun模板成熟,系统不仅运行速度更快,还能更高效地排除无效方向,将资源集中于高潜力实验。
从策略迭代到模型研究:闭环体系的可迁移性
AgentX的价值不仅限于线上策略实验,在模型研究领域同样具有拓展潜力。该系统可自动阅读近期推荐领域学术论文,在统一代码库中复现方法,基于KuaiRand、Taobao、Amazon、ML-1M等公开数据集评估效果,并从表现优异的模型中提取互补模块,进行跨论文结构组合与新架构探索。
在独立模型研究实验中,AgentX跑通了从论文复现、模块组合、离线评估、在线测试到发布评审的完整链路。其中达到发布标准的模型在快手App直播时长指标上带来0.865%的收益提升。
这表明AgentX并非针对特定业务场景的脚本集合,而是一套可迁移的自动研发范式:只要问题可组织为「提出假设—实现方案—获得反馈—沉淀经验」的闭环,AgentX就有潜力将其改造为批量化、自进化的研发流程。
案例分析:PCV增强精排分的两轮闭环优化
以PCV(Post-Consumption Value,消费后价值)增强精排分的优化案例为例,目标是在保持真实曝光与用户体验稳定的前提下提升用户观看时长。PCV信号源自分享、收藏、重播等消费后行为,能够反映内容的长期价值,但也可能因低质或噱头内容触发部分行为而带来风险。
在第一轮优化中,Brainstorm Agent选择直接引入PCV加权机制;Developing Agent将其实现为带实验开关保护的乘法评分公式;Evaluation Agent通过线上A/B测试发现,该方案方向正确但统计显著性不足,且伴随部分人群与多样性指标风险。
关键在于,AgentX未将此结果简单判定为失败,而是将其转化为第二轮优化的输入:针对直接提升高PCV内容可能放大噪声的问题,引入质量门控机制、用户活跃度自适应权重与时长导向底分。最终方案实现用户观看时长提升0.071%、真实曝光增长0.118%,同时用户体验指标保持稳定。
这一案例证明,AgentX的核心能力不在于一次性给出完美方案,而在于将真实反馈转化为下一轮更优的假设。推荐系统中最具价值的经验,往往隐藏在「第一轮不够好」的实验之中。
总结与展望
AgentX通过真实业务闭环验证了推荐系统自动研发的三大核心问题:
- 推荐算法迭代能否由Agent执行?可以,但前提是Agent需深入真实生产链路,理解系统知识、遵守工程约束,并接受线上A/B测试的检验,而非停留于文本生成或代码补全层面。
- Agent产生的经验能否形成复利效应?可以。通过实验知识库、失败资产化与SGPO自进化机制,AgentX将每次执行轨迹转化为后续方案生成、代码实现与工具优化的数据来源。
- Agentic推荐研发能否产生实际业务收益?已验证可行。真实部署中,AgentX带来8倍并发能力提升、3.7倍单位人力业务价值增长、主站App时长提升0.561%以及生活服务年化超1亿元收益。
展望未来,推荐研发的分工模式将发生变革:一层工程师与Agent系统协同,面向业务目标推进策略与模型迭代;另一层工程师专注进化Agent框架、工具链与基础模型能力。每次实验产生的轨迹数据,将同时服务于短期业务优化与长期智能成长。
当想法生成、代码实现、线上评估与经验沉淀均可被规模化、闭环化、可验证地自动执行时,推荐系统迭代将摆脱「增加人力」的线性增长模式,进入「经验、算力与智能共同复利」的新阶段。
AgentX的生产实践表明,自进化、批量化、Agent驱动的工业推荐研发已非设想,而是正在真实业务中释放价值的新型生产方式。
