对话火山引擎谭待：短剧行业只是起点，Seedance志在世界模型

2026-06-23 18:23:42未知作者:徽声在线

徽声在线记者 | 伍洋宇
徽声在线编辑 | 文姝琪

“三年前，当我们将MaaS（模型即服务）确立为火山引擎的核心业务时，业界不少人认为售卖Token难以盈利。”在谈及如何构建市场竞争力时，火山引擎总裁谭待强调，战略前瞻性是保持行业领先地位的关键因素之一。

根据IDC最新数据，在中国公有云MaaS服务市场中，火山引擎以49.5%的份额稳居首位。截至今年6月，豆包大模型的日均Token调用量已突破180万亿次，较去年同期增长超10倍，展现出强劲的增长势头。

随着新一轮旗舰模型的发布，火山引擎正通过强化复杂任务场景下的落地能力与成本优势，进一步巩固其在国内企业级AI应用市场的领先地位。

6月23日，火山引擎举办2026FORCE大会，正式推出豆包2.1 Pro等多款视频、图像及音频模型，标志着其在多模态领域的技术突破。

谭待在会上指出，大模型需跨越“生产力质变点”才能真正满足生产场景需求。他特别提到，Claude Opus 4.6是首个实现这一突破的模型，而豆包2.1 Pro则在编程、智能体及视觉语言模型三大核心维度进行了全面升级。

根据火山引擎公布的行业基准测试结果（如SWE-Pro、OSWorld等），豆包2.1 Pro在代码生成及多模态能力上已达到或超越海外主流模型水平，展现出强大的技术竞争力。

在应用演示环节，火山引擎展示了豆包2.1 Pro在芯片设计RTL测试中的卓越表现——该模型连续运行近18小时，成功完成完整工程流程，验证了其在长周期、复杂任务中的稳定性。此外，该模型还支持500多个智能体同步协作，共同构建3D虚拟城市，展现了其强大的并行处理能力。

在成本控制方面，豆包2.1 Pro展现出显著优势。其输入定价为每百万Tokens 6元人民币，输出为30元，缓存命中价格更是低至1.2元。火山引擎表示，其综合使用成本较Claude Opus 4.6低近80%，而面向高频场景的Turbo版本价格更是减半，进一步降低了企业使用门槛。

目前，豆包2.1模型已通过火山引擎开放API服务，并逐步接入豆包、TRAE、扣子等旗下产品，为用户提供更加丰富的AI应用体验。

此外，火山引擎还预告了将于7月上线的视频生成模型Seedance 2.5。该模型支持生成长达30秒的原生视频，并已在具身智能、工业制造及自动驾驶等领域探索落地应用，展现出广阔的市场前景。

Seedance系列模型凭借其SOTA（State-of-the-Art）表现及AI短剧需求的增长，已成为市场的主导力量。然而，火山引擎并不满足于此。谭待表示，团队希望Seedance能够深入各行各业的生产环境，特别是高端生产力制造及世界模型的构建领域。

“面向高端生产力制造和世界模型的构建，是我们最为看重的方向。”谭待强调道。

针对行业普遍关注的Seedance供给问题，谭待解释称，视频生成模型与Coding/Agent模型在结构上存在差异，主要基于Diffusion架构，对底层芯片（尤其是高带宽HBM）的要求相对较低。火山引擎通过火山方舟的模型推理优化，使得Seedance能够充分利用包括低端芯片在内的各类算力资源。

“因此，Seedance与Coding、Agent模型在算力上不存在冲突，算力分配完全不是问题。”他补充道。

发布会后的媒体采访中，谭待还就API价格趋势、Seedance视频模型如何迈向世界模型、卖Token的商业模式、AI Coding的竞争格局以及Agent大规模落地的未来方向等话题进行了深入探讨。

针对近期AI大模型上市公司市值不断攀升的现象，谭待回应了火山引擎未来是否有独立拆分上市的计划。“据我所知，目前没有上市计划。”他明确表示。

火山引擎总裁谭待（图源：徽声在线）以下为谭待采访实录，略作编辑：

媒体：近期国产大模型的API价格涨跌互现，火山引擎如何制定新模型的定价策略？从经营和行业成本趋势来看，应如何理解这一策略？

谭待：我们评估模型价格时，不仅要看绝对价格，更要结合其创造的价值。随着模型能力的提升，其创造的价值也在快速增长。因此，从性价比角度来看，无论是火山引擎还是业界其他主流模型，都在不断提升。这也印证了当前模型已跨越“生产力质变点”，能够创造更多实际价值。

媒体：Seedance 2.0等视频模型为火山引擎带来了显著的创收能力，这种增长势头能否持续？短剧行业是否已接近饱和，视频模型的需求是否已达上限？

谭待：这是一个很好的问题。我想从三个方面来回答：

首先，外界传言的Seedance收入数据均不准确，且偏高。这给我带来了很大压力，财务部门经常询问我是否隐瞒了收入（笑）。

其次，影视短剧只是Seedance落地的一个场景，长期来看可能只是一个小市场。我们已在多个行业看到Seedance的广泛应用，如制造业和零售业用于制作产品说明视频，知识行业和教育行业用于知识视频化，高端制造领域如“具身智能”用于数据合成，以及自动驾驶领域用于合成极端天气或边缘路况等。

最后，我们认为Seedance是构建“世界模型”的基础。视频生成方式能够进行大规模无监督训练，对数据假设最少，是合成世界模型的有效方法。要构建优秀的视频模型，离不开强大的底层能力支持，如我们发布的豆包2.1 Pro在Coding和Agent能力上已超越Claude Opus 4.6，跨过了生产级门槛。因此，面向千行百业的广泛应用及作为世界模型的基础，才是Seedance未来的更大想象空间。

媒体：Seedance正成为越来越多视频生产服务商和代理商的重要API采购来源。火山引擎如何看待这一行业趋势？希望形成怎样的生态定位？在算力保障方面，资源分配机制是怎样的？

谭待：我先回答算力问题。视频生成模型（Seedance）与Coding/Agent模型在结构上存在差异，主要基于Diffusion架构，对底层芯片要求相对较低。我们在火山方舟的模型推理上进行了大量优化，使得Seedance能够充分利用各类算力资源，包括低端芯片。因此，Seedance与Coding、Agent模型在算力上不存在冲突，算力分配完全不是问题。这也是Seedance能够得到大规模广泛应用的重要原因——我们在模型结构和工程能力上进行了极大优化和创新。

至于行业生态，我们希望Seedance能够深入各行各业的生产环境，特别是面向高端生产力制造和世界模型的构建领域，这是我们最为看重的事情。

媒体：关于“世界模型”，目前有多种技术路线。字节跳动在该领域的路线是什么？训练数据主要依赖视频数据还是具身智能等真实交互数据？

谭待：我们内部正在尝试多种路线。但目前来看，“视频生成”是合成世界模型的有效路径之一。因为它对既有数据假设最少，可以直接利用海量视频进行无监督学习。现在很多具身智能公司也在使用Seedance合成数据，反哺其模型训练。因此，我们非常看好这条路，这也是Seedance未来更有价值的场景。

媒体：火山引擎在提及多模态生成时，会探讨“能生成”到“可商用”的边界。团队如何定义这一边界标准？多模态模型进一步大规模商用目前面临哪些挑战？

谭待：我们提出的“生产力质变点”概念非常重要。定义这一边界其实很简单：只需观察每个行业现有的业务流程及每个流程对模型能力的要求。达到这些要求，才算跨越了边界。

数据不会说谎。在Seedance 2.0发布之前，很多人认为视频生成只是玩具——周末的调用量远大于工作日，说明大家主要在休闲时使用。但Seedance发布后，数据发生了反转，工作日的调用量远大于周末。这充分说明大家是在办公、生产、数据合成等环节中使用它，实现了生产力的跨越。

媒体：有用户反映豆包的质量有所下降，是否与推出付费版有关？

谭待：我自己每天都在深度使用豆包，并未感觉到质量下降。另外需要澄清的是，豆包App并不属于火山引擎的业务范畴。但据我所知：首先，豆包App将保持免费服务，并持续提升质量；其次，它最近将推出面向生产力场景的专业任务模式，搭载我们最新发布的豆包2.1 Pro模型。火山引擎的API从一开始就是收费的，因此不存在为了收费而降低质量的情况。

媒体：火山引擎目前更看重基础模型能力的发展还是Harness（执行环境/工具链）的模式？

谭待：两者都至关重要。火山引擎的最终使命是帮助企业和开发者解决实际业务问题。客户需要的不仅仅是一个好模型或一个好API，而是一整套AI和Harness在企业环境中落地的解决方案。

这涉及模型如何与企业内部系统打通、如何与企业数据结合、如何做好安全及合规监管要求等问题。因此，我们强调“AI云原生架构”：从底层的模型到中层的MaaS（包含一定Harness），再到上层的Agent Kit（包含更多Harness工具），最后到顶层的各类AI工作台。我们提供零代码、低代码和高代码的解决方案，以满足企业不同角色的多元化需求。

优先级是交错前进的：模型未达到质变点时，提升模型能力最为重要；跨越质变点后，Harness和落地则变得同样重要。

媒体：智谱在港股估值极高，海外的Anthropic（Claude）和谷歌在AI Coding领域也取得了重大突破。火山引擎在拉近与最先进模型的距离上有哪些布局？如何看待市场的高期望？

谭待：面向Agent是我们非常重视的方向。Coding只是模型能力的一种展现形式，但它极其重要，因为它代表了模型具备很强的泛化能力，能够自动调用工具甚至自己编写软件来弥补工具的缺失。

Claude Opus 4.6是全球第一个跨过“生产力质变点”的模型。今年我们也看到有更多的模型跨过了这个门槛。我们最新推出的豆包2.1 Pro旗舰版本同样跨越了生产力质变点。从各项评测数据来看，它稳定超过了Claude Opus 4.6，在某些场景下甚至与更高的版本持平。这意味着它真正进入了可以流转复杂长程任务的生产环境。

媒体：有人认为大模型容易陷入“用户越活跃、推理成本越高”的毛利陷阱，也有友商认为单纯卖Token不是健康的生意。您如何看待？判断AI产品是否健康生意的主要指标是什么？

谭待：我认为卖Token是一个非常健康的生意模式，不知道谁说它不健康。

媒体：在打通AI技术商业化链条上，火山引擎做了哪些关键动作？另外，目前人脸素材使用引发了版权争议，Seedance 2.0对人脸做了限制验证，未来的版本在安全性上会有什么调整？

谭待：安全一直是我们最重视的问题。大家看到我们在正式对外开放API之前，花了好几个月时间打磨Seedance的安全策略。这不仅包括针对商业端的IP版权保护，也包括用户侧的人脸验证等。

我们在商业预览版里采用Opt-in（自愿授权）的模式，通过电子合同授权分成，形成良性商业闭环。未来如果做B端的人脸分身，也会采用正规的授权核验机制（类似剪映里的分身功能）。

媒体：关于算力，您提到自研DPU的路线。火山引擎在自研DPU及底层算力上有哪些思考和下一步计划？目前火山引擎底层中“国产算力”的占比大概是多少？

谭待：火山引擎刚成立不久就推出了自研DPU。在当前AI大规模计算中，如何更好地卸载网络、存储、虚拟化和计算的各种负载，提升整体效率，DPU和交换机起着至关重要的作用。我们一直有深度的自研投入。火山引擎这几年在AI上给人的印象是领先的，这离不开我们在底层基础架构上的深耕。

关于国产算力，我们使用得非常多。像火山方舟做了大量的算力适配优化，使得Seedance等模型能够充分利用各种国内外的算力资源。具体占比数字我有点记不清了，但份额是挺大的。

媒体：上半年友商在AI Coding上的声量很大，而火山引擎似乎在Seedance视频模型上声音更响。如何看待这种竞争差异？下半年在AI Coding上有怎样的增长预期？

谭待：其实我们一直极其重视Coding。去年在这个场地上，丁坤就着重讲过Coding，那时候很多友商还没开始发力。上半年大家觉得Seedance声音大，主要是因为它确实是当时全球的SOTA（领先水平），引发了很高的关注。

但在内部，我们一直认为Coding是更核心、更重要的能力。下半年我们会在这方面做更多动作。目前我们已经和大量高端半导体公司、互联网企业、SaaS公司深度合作，将豆包的代码模型和Trae（我们的AI IDE）深度应用在他们的研发流程里。

媒体：大家都觉得火山引擎做视频模型有一个优势，就是能联动内部的“红果短剧”。下半年Seedance要进入其他行业，商业化上有什么打法？

谭待：我没觉得联动红果是我们的优势。红果的策略是完全独立的，Seedance生成的视频经常还会被红果审核不通过（笑）。所以这不算优势。我们真正的优势就是“模型能力强”，要想进入更多行业，最核心的打法还是继续把模型做得更强。

媒体：不少大厂都在做包括AI芯片在内的全栈布局。您如何看待这种布局的迫切性？字节是否有补齐芯片这一环的计划？

谭待：站在一家云厂商的角度来看，我觉得自己有没有做底层的自研芯片其实不是特别重要。因为客户买的是你的模型能力，是看你能不能帮他解决问题，而不是看你底层用的是谁的芯片。比如Anthropic，他们也没有自己的芯片，但这不影响他们做出强大的模型。

媒体：上半年大家谈Token时开始谈及“Token的价值”指标，比如核心系统接入率、自动化效率等。火山引擎是如何推动团队提升Token价值的？

谭待：能力越强的模型，产生的价值肯定越大。但要把价值真正落地到行业里，必须要深刻理解行业，并与客户深度共创。比如我们懂写代码，懂互联网应用，但我们不一定懂制药或者教育。

因此，我们今年专门成立了FDE（前置部署工程师）团队，深入到每个行业中，和标杆客户深度共创。这样我们能更了解AI能为该行业做什么，客户也能了解AI的潜力，从而交付出更完整的方案，让Token真正进入实际生产中创造价值。

媒体：FDE团队的规模、人员背景是什么样的？目前覆盖了哪些行业？

谭待：FDE不是销售，也不是售前，他们必须具备很强的技术落地能力，特别是AI代码的落地能力。其次，我们非常注重成员的多元化行业背景。比如做生物工程出身的人去对接生物医药行业，他们在做落地时具备不可替代的Know-How。目前覆盖的行业比较多，像汽车、医疗、教育、金融、半导体等重点行业都有专门的团队跟进。

媒体：您今天提到了Agent Kit的升级，包括零代码、低代码和高代码的多个工具产品（如Trae、ArkClaw、Coze等）。你们是如何思考这种布局的？如何覆盖不同群体的？

谭待：企业组织里有不同角色的人，专业开发者、产品经理以及HR/财务等职能人员。他们对AI工作台的需求截然不同，有的需要零代码开箱即用，有的需要低代码拖拽，专业人员则需要高代码环境。

应用场景的负载也不一样，有的是纯代码开发，有的是处理Office/PPT等通用办公任务。目前很难有一个产品能包打天下，所以我们推出一套多元的工具箱矩阵，覆盖从零代码到高代码的不同维度。未来这套矩阵也许会演化收敛，我们随着AI的发展去逐步迭代。

媒体：关于视觉模型，你们更看好以像素为中心的视频生成路线，还是多种类型结合的路线？

谭待：我们肯定是多种方向都会去尝试。目前像素生成的路线（Diffusion）跑得比较快、效果比较好，所以我们投入的精力多一点；但其他流派如3D生成，我们也在做（比如豆包的3D模型）。无论哪种路线，最终的核心都是要把“生成”和“理解”做更好的贯通。

媒体：能否分享一下火山引擎模型出海的发展思路？

谭待：我们非常重视海外市场。当然，火山引擎主要深耕中国市场，在海外我们有另一个实体负责。

模型本身是天然面向全球的。如果能力足够好，自然会吸引全球客户。比如Seedance，现在有近一半的使用量来自海外，很多大型跨国公司和创作者平台（如Canva）都在使用。海外用户主要看重的就是模型能力和性价比。我们也在全球（如东南亚、中东、欧洲等地）建立了MaaS接入点，方便全球开发者更好地调用。

媒体：内部判断一个新场景是值得单独做一个Agent产品，还是仅仅作为一个现有Agent的技能（Skill）模块，有什么衡量指标吗？

谭待：首先看商业前景。如果这个场景的市场目标连10亿规模都达不到，那就最好别把它做成一个独立的Agent产品，写成一个Skill（技能）加进去就好了。随着模型能力变强，以前需要复杂Agent的任务，现在可能写个Skill或者配置一个动态工作流（Dynamic Workflow）就能解决。

媒体：结合当前产业需求，您认为当前中国大模型市场处于什么发展阶段？

谭待：还处于非常早期的阶段。如果去年大概跑了500米，今年就跑了一公里多一点。但这“一公里”非常关键，因为它标志着模型能力跨越了“生产力质变点”。现在国产模型只要达到或超过这个标准，就意味着它们真的能在生产环节中被使用并创造商业价值了。

媒体：大会提到截止目前豆包大模型日均Token调用量达到180万亿。这其中内部业务和外部客户的占比结构是怎样的？算力账本是怎样的？

谭待：这180万亿是所有豆包大模型（包含内部业务、外部调用以及豆包App）的总和。从单纯的Token数量上看，豆包App占比较大；但是从经济价值或者每个Token产生的消耗来看，外部客户（ToB场景）的占比更高。因为对外的调用基本都是在复杂的生产级别使用，单次处理所产生的价值更高。整体的算力账本我们内部没有单独去拉平评估过。

媒体：目前火山引擎在国内大模型市场的份额占到了49.5%。竞争这么激烈，火山引擎是靠什么护城河守住这个位置的？

谭待：核心就是两件事：

第一是模型能力，特别是能否率先跨越“生产级质变点”。

第二是如何把模型带进企业里去。这包括FDE模式的落地、对行业的深刻理解、生态伙伴的深度合作以及我们团队自身对AI解决方案的专业度。

可能还有一点就是战略预见性。三年前我们决定把MaaS作为最重要的业务去推时，业界很多人还觉得卖Token是个赔钱生意。对未来的确信也是我们保持竞争力的关键。

媒体：刚才提到数字员工有Token考核，那现实中的真人员工会不会也将Token使用量纳入考核？会有Token福利支持政策吗？

谭待：在我们内部，员工可以自愿开启一个系统来统计自己每天的Token使用量，但这纯粹是为了个人观察和提效，绝不会作为KPI考核。我们在实践中发现，有时候盲目套用AI是没用的——如果一件事情的目标设定或者第一性原理本身就错了，你用再多AI也解决不了。所以用AI前，还是要先回归业务本质想清楚目标。

媒体：如何看待近期AI公司市值不断突破新高的现象？火山引擎未来是否有单独拆分上市的计划？

谭待：据我所知，目前没有上市计划。

点击展开全文