对谈实录 | 腾讯姚顺雨：AI是长期征程，下半场正拉开帷幕

2026-06-05 15:14:39未知作者:徽声在线

《徽声在线》6月5日消息（记者李佳怡）今日，腾讯云AI产业峰会盛大启幕。当《徽声在线》记者抵达主论坛现场时，发现场内早已座无虚席，连入口处的通道都被挤得水泄不通，现场气氛热烈非凡。记者了解到，众多参会观众都是冲着腾讯首席AI科学家姚顺雨的名号而来。

姚顺雨，曾是OpenAI的研究员，在2025年12月正式加入腾讯，担任“CEO/总裁办公室”首席AI科学家一职，直接向腾讯总裁刘炽平汇报工作。同时，他还身兼AI Infra部与大语言模型部负责人的重任。

在峰会现场，腾讯集团高级执行副总裁汤道生与腾讯首席AI科学家、混元大语言模型及AI Infra负责人姚顺雨展开了一场深度对谈。姚顺雨围绕“AI下半场”这一主题，分享了他对行业趋势、模型演进与产品协同等方面的核心判断。

以下为对谈实录（有删减）

▎AI下半场的定义与选择腾讯的缘由

汤道生： 为什么你会在AI下半场选择加入腾讯？在你看来，AI下半场最为关键的因素是什么？

姚顺雨： 首先，我想解释一下“下半场”这个概念，最近这个词似乎有些被过度使用了。这个概念是我在去年的一篇博客中提出的。我觉得在去年之前，AI虽然已经发展了几十年，但更重要的是如何去解决问题、寻找有效的方法。而如今，方法论已经变得相当成熟，然而寻找合适的问题去解决却变得更加困难。

就拿过去来说，我们发明了AIphaGo用于下围棋，但这种方法仅仅适用于下围棋或者各类棋类游戏。然而，自从有了预训练和后训练技术后，我们发现这成为了一种通用方法论，能够解决各种各样的问题。但此时，更棘手的问题变成了如何找到好的问题去解决。

我觉得加入腾讯有一个重要原因，那就是这里有很多优质的问题和丰富的产品。一方面，优秀的产品能够解决这样一个问题：在我们完成预训练和后训练之后，究竟要将其应用在何处才能产生价值。另一方面，环境至关重要，如果没有良好的环境，智能体（Agent）就无法开展各种活动。最重要的是上下文（context），无论是对于企业还是个人而言。模型越来越擅长将复杂的输入转化为输出，很多时候，竞争壁垒就在于是否拥有最原始的输入，而腾讯在这方面具有非常强的优势。还有一个关键因素是文化。我记得第一次和你以及其他总办老板交流时，给我的第一印象是大家都非常坦诚，对于哪里做得好、哪里做得不好，都能直白地说出来，不会有所隐瞒。此外，腾讯总体上是一个基于信任（trust）而非指标（metric）来运转的公司，这对于从事AI工作来说非常重要。而且，腾讯的文化具有谦逊（low ego）、务实（solid）的一面，这些文化特质对于长期打造一个AI组织至关重要。

那么，AI下半场最重要的是什么呢？我个人认为，我们应该在中国建立一个长期的、基于通用人工智能（AGI）的组织。如今的AI主要包含三个部分：基础（Foundation），即我们如何将预训练和后训练这些最基础的工作做得非常扎实；产品，即我们如何让这些技术真正为人类和社会创造价值；前沿（Frontier），即我们如何探索新的研究范式和新的机会。

我觉得最重要的是构建一个非常均衡的三角形组织。对于基础部分，第一重要的是要有充足的资源，第二是需要有正确的做事方式。对于产品来说，拥有良好的产品感知能力和优秀的产品人才是至关重要的。第三，在中国，我们目前的前沿探索还不够多，所以我希望能够将更多的前沿探索精神注入到我们的组织中。

汤道生： 我认为我们的做事方式和做产品的理念也是实事求是的。毕竟AI赛道是一场长跑，有时候认知也非常重要，无论是做得好还是不好，都要勇于承认，关键在于这是一场多维度的竞赛。我们看到现在模型有了很多进步，做产品的形态也越来越多样化，不同的场景有不同的需求，未来还是非常值得期待的。

▎Co - Design：产品与模型的相互成就

汤道生： 你提到了模型和产品，产品可以为模型提供环境，给予模型上下文（context）。我想问一个问题，我们经常讲Co - Design，也就是如何将产品和模型紧密结合起来。现在我们有元宝、AI搜索、智能客服、CodeBuddy、Workbuddy等丰富的产品，这些产品对模型的依赖程度很深，你是如何思考Co - Design的呢？

姚顺雨： 第一，Co - Design的前提是模型本身要足够扎实（solid）。首先，我认为预训练是一个相对通用的（agnostic）过程，而且预训练最大的特点是具有可泛化的学习过程，它的进步可以为各种各样的下游任务带来持续的价值提升。对于后训练，我认为最重要的一点是要设立正确的评估指标（Eval）。在中国，大家有一个不太好的倾向，就是喜欢刷榜，但我觉得更重要的是要实事求是，基于产品和实际应用来构建更加真实的评估指标。

第二，要意识到“实用性”价值远远大于刷榜价值，这一点我们做了大量的工作，与各种各样的产品进行了深度的Co - Design。Co - Design的一个关键点就是要建立起相互信任。第三，大语言模型（LLM）时代最本质的区别在于泛化性。如今，即使只开发一个编程智能体（Coding Agent），也需要具备聊天、搜索、指令遵循、推理等多种复合能力。

汤道生： 内部评估指标和外部榜单有什么区别呢？

姚顺雨： 首先，基准测试（benchmark）还是有一定价值的，只是说这些榜单非常容易出现过拟合（overfitting）的情况。真实世界的数据能够帮助我们发现模型的底线问题，预览版的目的就是为了获取真实的反馈。另外，通过真实世界的数据，我们可以对真实的提示分布（Prompt distribution）有更深入的了解。在现实场景中，大家提出的问题往往比较模糊，而且可能会不断追问，这能够启发我们进行训练。我们甚至可以从这些产品中获得灵感，推动新的榜单或新领域的出现。我觉得产品和模型的相互成就，将是越来越重要的AI话题。

▎产品第一性原理与混元3.0的改进

姚顺雨： 您曾经做过QQ空间、QQ音乐、云到元宝等产品，既涉及面向消费者（toC）的业务，也涉及面向企业（toB）的业务。您做产品的第一性原理是什么？哪些方面是不变的，哪些方面是会发生变化的？

汤道生： 做产品，不变的是始终要以用户需求为导向，解决用户的痛点，为用户创造价值。无论是在哪个时代、哪个行业，这一点都是不变的。

变化之处在于，在PC和移动时代，产品就像“预制菜”，提供固定的功能菜单。而在AI时代，产品是开放式的，用户提出的问题是无法预知的，需要依靠模型进行理解、推理，并调用相应的工具。产品主要提供工具和环境。甚至连研发流程都发生了变化，今年大部分代码都是由AI生成的，工程师更多地从事设计工作，测试环节也提前了，要对开放式答案进行对齐（alignment）处理。这对能力的要求更加全面了。

汤道生： 混元Hy3 preview是你在腾讯的首秀，具体来说，混元3.0做了哪些改变呢？

姚顺雨： 主要有三个方面的改变：第一，重建基础设施（Infrastructure），无论是预训练还是强化学习预训练；第二，改变数据和评估指标，思考如何定义更真实的问题、丰富数据的分类体系（taxonomy）、提高数据的质量，这是一个永无止境的追求；第三，很多决策是凭借经验（taste driven）做出的，并没有非常清晰的公式。我很好奇您对Co - Design的边界是怎么看的，哪些工作应该由模型来完成，哪些工作应该由产品来完成？

汤道生： Co - Design会随着模型能力的变化而变化。我感受最深的是对齐问题，产品要解决某个问题，需要模型提供数据，但数据如何标注、如何进行奖惩、评测是否认同，如果各方没有达成一致，产品的行为就不可预测。关键是要让多个角色对开放式问题达成共识。

姚顺雨： 我觉得最难的是建立信任和同理心。做模型和做产品的目标在本质上存在不一致的地方。有一个细节可以说明这一点，我们曾经派遣后训练领域的最强骨干去帮助元宝进行后训练，当时预训练还没有准备好，很多算法同学不理解这个做法，但现在看来，这个举措让产品团队意识到模型团队是真的在为产品着想，对于Hy3 preview在元宝上线起到了重要作用。技术问题可以通过探讨解决，但最难的反而是建立信任和换位思考。

汤道生： 对于混元开发下一代模型来说，Token的调用有哪些方面是比较重要的呢？

姚顺雨： 如今，智能体（Agent）无疑是每一家模型研发机构重点发力的方向。我觉得我们的做法可能会有一些区别：第一，即使编程是目前最为重要的任务，但我们仍然强调体系的全面化。我始终认为，要把编程做好，其实远远不止需要编程相关的数据，还需要聊天、推理等各种不同类型的数据，因为大语言模型最重要的特点就是泛化性。

第二，很明显，产品的作用越来越重要，如何利用好线上回流的数据，是每一个模型厂商都在思考和应对的问题。在这方面，刚刚积累的很多Co - Design经验变得非常重要。第三，我觉得还需要更多的想象力，无论是在技术演进、产品演进，还是下一个研究范式演进方面，我们都需要开展探索性的甚至具有一定不确定性的工作。

▎从ReAct到智能体

汤道生： 你是ReAct架构的提出者，博士研究围绕语言智能体展开。你几年前的观点到今天实现了吗？

姚顺雨： 我重新阅读了自己的博士论文（《Language Agent: from next token prediction to digital automation》，2019年）。当时，GPT2只能进行下一个Token的预测，输出的内容不流畅，还存在一些瑕疵。那时我有一个大胆的设想，GPT有一天不仅仅能够输出下一个Token，还有潜力将世界上的所有事情都实现自动化（automate）。当时我想得还不够宏大，只想到了数字自动化（digital automation），但现在看来，也有可能是数字和物理自动化（digital and physical automation）。

在博士期间，我主要做了两部分工作：一是如何建立智能体（Agent）的方法论，其中最重要的工作就是ReAct。2022年7月，我第一次将Palm 2 API和Wikipedia API连接在一起，让大语言模型（LLM）基于网页进行多轮问答，那一刻，我感觉就像微弱的电灯突然亮了起来，这是人类第一次将大语言模型和互联网连接起来进行多轮交互。二是定义数字自动化任务，如WebShop、InterCode、SWE - bench等。

现在看来，智能体最重要的就是外部智能体和编程智能体。我在博士论文结尾提到的未来研究方向，包括为智能体训练模型、稳健部署、科学发现、帮助人类等，我很感慨，现在我很幸运，确实正在从事当时列出的未来研究方向。

▎Token效率、Agent产品与组织变革

汤道生： 现在大家都存在Token焦虑，Token成本呈现爆发式增长。你如何看待优化Token效率这个问题呢？

姚顺雨： 在中国讨论性价比不能仅仅关注模型架构。第一是性能（performance），更好的模型能够一次性把事情做对，反而更省钱。尤其是今年，简单任务的稳健性（robustness）非常重要。第二是成本，中国在这方面是领先于世界的。最重要的事情是如何用一个更小的模型来完成更高价值的任务，在此基础上进行架构创新，还有很多工作需要做。

我很好奇，您是什么时候意识到智能体（Agent）是一个新的产品机会的，以及您现在的认知是什么？您觉得我们距离一个好用的智能体还存在哪些瓶颈呢？

汤道生：在不同场景中，智能体的设计需要充分发挥模型的能力。模型越强大，智能体需要承担的中间工作就越少。随着模型能力的不断提升，产品可以更加简化，转而提供更多的工具、技能和记忆。不同场景（如编码、办公协作）需要不同的相关信息，关键在于理解场景中哪些内容与当前任务最相关，让模型获取所需的信息，从而高效地完成任务。

姚顺雨： Workbuddy等产品背后是小团队快速迭代的模式。您觉得AI时代的研发和组织管理发生了哪些变化呢？

汤道生： Workbuddy采用了非常扁平化的组织结构，三五个成员围绕一个领域进行攻坚，进行大量的试验，同时也要包容团队试错，我觉得这是开发原生AI产品所需要的组织形态。另外，工程师将写代码的工作交给AI，更像是驱动多个编程智能体（Coding Agent）的领导者，根据我们想要的产品需求进行研发和开发，同时还要参与评测和测试工作，并且要善于利用AI能力，将质量保证和对齐工作提前做好。

▎AI是长期游戏，下半场刚刚开始

汤道生： 很多人说腾讯在AI方面发展得慢了。您觉得我们真的慢了吗？

姚顺雨： 这个问题应该由我来问您。对于AI，今天我有两个判断：第一，AI是一个长期的游戏，而不是一个短期的窗口。他指出，硅谷部分从业者认为需要“赶快赚两年钱退休”的心态并不可取，AI才刚刚开始，ChatGPT和Claude Code不会是仅有的超级应用，未来将持续诞生新的产品机会，“今天可能就像70年代PC刚刚产生的时候”；第二，AI将走向多元化而非单一路径。过去几年，行业沿着预训练、后训练、智能体的清晰主线推进，但未来除了编程智能体之外，多模态、具身智能等大量新方向正在或即将形成，整个世界“还有很多空间没有被填满”。

汤道生： 腾讯是一家多业态的公司，发展有快有慢，有失败也有探索。但就像您说的，这是一场长跑。腾讯拥有丰富的场景和上下文（context）积累，在长跑中，也请大家多多提醒、多多提建议、多多使用我们的产品。

点击展开全文