阿里通义实验室发布FIPO算法 突破纯强化学习瓶颈
2026-04-07 23:01:59未知 作者:徽声在线
4月7日,阿里巴巴旗下的通义实验室智能计算团队正式对外发布了一项创新算法——FIPO(Future-KL Influenced Policy Optimization)。这一新算法通过引入Future-KL机制,能够精准奖励模型推理过程中的关键Token,从而有效攻克了纯强化学习(Pure RL)训练中长期存在的“推理长度停滞”难题。据该团队透露,在320亿参数规模的纯强化学习设定下,FIPO算法成功实现了对o1-mini以及同规模DeepSeek-Zero-MATH模型的性能超越,标志着阿里在智能计算领域取得了又一重要突破。


