通义实验室发布通用智能体评测新基准PawBench并开源v1.0版

2026-06-05 19:06:35未知作者:徽声在线

在6月5日这个具有里程碑意义的日子里，通义实验室正式对外发布了其全新打造的通用智能体评测基准——PawBench，并且其v1.0版本已经面向公众开源。这一评测基准是专为个人助理以及通用智能体场景量身定制的，它创新性地将底座模型与运行框架（Harness）整合到了同一个评测体系之中。值得一提的是，PawBench并非仅仅是一个简单的模型排行榜，它更注重于将“模型、Harness以及任务”这三个关键要素进行有机结合，开展全面而深入的交叉评测，从而为智能体的发展提供更为精准、全面的评估与指导。

点击展开全文