通义实验室发布通用智能体评测新基准PawBench并开源v1.0版

2026-06-05 19:06:35未知 作者:徽声在线

在6月5日这个具有里程碑意义的日子里,通义实验室正式对外发布了其全新打造的通用智能体评测基准——PawBench,并且其v1.0版本已经面向公众开源。这一评测基准是专为个人助理以及通用智能体场景量身定制的,它创新性地将底座模型与运行框架(Harness)整合到了同一个评测体系之中。值得一提的是,PawBench并非仅仅是一个简单的模型排行榜,它更注重于将“模型、Harness以及任务”这三个关键要素进行有机结合,开展全面而深入的交叉评测,从而为智能体的发展提供更为精准、全面的评估与指导。

点击展开全文
你关注的
从“几年一遇”到“一年几遇”,AI时代网络攻防失衡加剧 奇安信齐向东:主战场转向制造业与服务业从“几年一遇”到“一年几遇”,AI时代网络攻防失衡加剧 奇安信齐向东:主战场转向制造业与服务业 微信电脑端重大更新:可滚动截长图与支持发语音功能上线微信电脑端重大更新:可滚动截长图与支持发语音功能上线 上海布局太空算力新赛道,全球首颗光计算卫星研制正式启动上海布局太空算力新赛道,全球首颗光计算卫星研制正式启动
相关文章
成本危机下的AI革命:DeepSeek引爆美国企业采购潮成本危机下的AI革命:DeepSeek引爆美国企业采购潮 豆包再陷舆论风波:蘑菇误判事件引关注,商业化之路遇挑战豆包再陷舆论风波:蘑菇误判事件引关注,商业化之路遇挑战 腾讯追问AI下半场:“70后”汤道生对话“95后”姚顺雨腾讯追问AI下半场:“70后”汤道生对话“95后”姚顺雨 图达通CFO姚远深度解析:激光雷达从“上车”到物理AI的新征程图达通CFO姚远深度解析:激光雷达从“上车”到物理AI的新征程 MiniMax调整用户套餐引投诉潮,官方致歉并推出补偿措施MiniMax调整用户套餐引投诉潮,官方致歉并推出补偿措施 腾讯高管谈AI发展:速度有别,走弯路是为更好前行腾讯高管谈AI发展:速度有别,走弯路是为更好前行