阿里通义实验室发布FIPO算法 突破纯强化学习瓶颈

2026-04-07 23:01:59未知 作者:徽声在线

4月7日,阿里巴巴旗下的通义实验室智能计算团队正式对外发布了一项创新算法——FIPO(Future-KL Influenced Policy Optimization)。这一新算法通过引入Future-KL机制,能够精准奖励模型推理过程中的关键Token,从而有效攻克了纯强化学习(Pure RL)训练中长期存在的“推理长度停滞”难题。据该团队透露,在320亿参数规模的纯强化学习设定下,FIPO算法成功实现了对o1-mini以及同规模DeepSeek-Zero-MATH模型的性能超越,标志着阿里在智能计算领域取得了又一重要突破。

点击展开全文
你关注的
深圳低空经济全域竞速:百企试飞、基金赋能、标准引领深圳低空经济全域竞速:百企试飞、基金赋能、标准引领 AI产业链价格全景解析:哪些核心环节正在经历涨价潮?AI产业链价格全景解析:哪些核心环节正在经历涨价潮? 国内首个!新型储能AI分析平台投用 新能源消纳电量提升30%国内首个!新型储能AI分析平台投用 新能源消纳电量提升30%
相关文章
千寻智能30天融资30亿引爆行业:马云雷军联手押注,数据规模与场景落地成竞争焦点千寻智能30天融资30亿引爆行业:马云雷军联手押注,数据规模与场景落地成竞争焦点 5月初震撼上市!上汽通用五菱携手华为首推华境S,品牌独立进程加速5月初震撼上市!上汽通用五菱携手华为首推华境S,品牌独立进程加速 丰田新款GR YARIS震撼上市,40.28万元起开启运动新篇章丰田新款GR YARIS震撼上市,40.28万元起开启运动新篇章 携程开启“无理由事假”实验,灵活办公创新再升级携程开启“无理由事假”实验,灵活办公创新再升级 徽声在线:360揭露OpenClaw三大安全漏洞,含高危及中危问题徽声在线:360揭露OpenClaw三大安全漏洞,含高危及中危问题 小鹏汽车碰撞后散架?法务部正式回应澄清谣言小鹏汽车碰撞后散架?法务部正式回应澄清谣言