通义实验室发布通用智能体评测新基准PawBench并开源v1.0版
2026-06-05 19:06:35未知 作者:徽声在线
在6月5日这个具有里程碑意义的日子里,通义实验室正式对外发布了其全新打造的通用智能体评测基准——PawBench,并且其v1.0版本已经面向公众开源。这一评测基准是专为个人助理以及通用智能体场景量身定制的,它创新性地将底座模型与运行框架(Harness)整合到了同一个评测体系之中。值得一提的是,PawBench并非仅仅是一个简单的模型排行榜,它更注重于将“模型、Harness以及任务”这三个关键要素进行有机结合,开展全面而深入的交叉评测,从而为智能体的发展提供更为精准、全面的评估与指导。

