任务成本仅Claude Opus 4.6的1/9，Step 3.7 Flash引领Agent效率革命

2026-06-02 10:01:49未知作者:徽声在线

1492年，哥伦布率领船队驶向大西洋深处。在远洋航行中，速度固然重要，但真正决定船队能否成功抵达彼岸的，是淡水、食物、船体结构、桅杆和帆索能否经受住漫长风暴的考验。实际上，正是这种看似并不浪漫的工程逻辑，改写了跨洋贸易的格局。

随后，荷兰人创新设计出「福禄特」商船：这种商船造价更低、所需船员更少、货舱容量更大，能够在大西洋航线上稳定往返。远洋航行因此从冒险家的孤勇之举，转变为一种可复制、可计算、可规模化扩张的商业模式。

今天的AI模型竞争，也正站在类似的十字路口。

过去，人们在谈论AI模型时，往往聚焦于参数规模、榜单排名和峰值性能。然而，徽声在线在使用Claude Code、Codex等编码助手后，深刻感受到当AI Agent开始应用于生产环境时，真正关心的问题已有所不同：能否持续处理高频请求，能否稳定调用各种工具，能否理解复杂的用户界面，以及能否嵌入企业现有流程并长期稳定运行。

这些问题的答案，往往无法在传统的跑分榜单中找到。

最近，阶跃星辰正式发布并开源了Step 3.7 Flash模型。作为面向生产级Agent的新一代Flash模型，它主要服务于Agent、编码、搜索和多模态工作流。

它的出现，恰好契合了这一关键转折点。生产级Agent所追求的，已不仅仅是速度和成本优势，更重要的是可靠性、易用性、易于部署，以及在真实工作流中持续产出有效结果的能力。

Flash模型：从旗舰的替代品到生产效率的基石

过去，Flash模型常被视为旗舰模型的轻量级版本，其卖点主要集中在速度和成本上。然而，随着Agent成为工作流的核心，Flash模型的角色发生了根本性变化。

如果一个模型在多轮任务中容易偏离目标，无论是企业还是个人用户都难以放心采用。相反，一个能够在速度、成本、工具调用、多模态理解和生态兼容性之间取得平衡的模型，才有可能成为Agent系统真正可依赖的基础能力。

从某种意义上说，Agent时代所需的Flash模型，已经从「更快的小模型」升级为「生产效率最高的基座模型」。

它既要接近旗舰模型的能力上限，又要能够承受大规模Agent调用的效率压力。Step 3.7 Flash的定位，正是后者——新一代Agentic基座模型。

而生产级Agent面临的第一道挑战，是理解真实的工作环境。

大量的Agent任务分布在复杂界面、办公文档、图表系统、浏览器页面、专业软件和内部工具之间。仅擅长文本问答的Agent，很难真正处理这些任务。

Step 3.7 Flash重点强化的，正是原生多模态理解与执行能力。

它能够理解用户界面、图表、文档、图片和应用界面，也能够在复杂视觉问题中自主裁剪、放大、重读图像。当遇到信息不确定的情况时，模型还能主动发起搜索，并对文本和图像信息进行交叉验证。

这里有一个反直觉的设计思路。对于一个11B激活的Flash模型来说，将海量视觉知识硬编码进权重是不划算的。阶跃星辰反其道而行之：权重中只保留最核心的推理引擎，将感知边界和世界知识外推到推理阶段，依靠极快的速度，通过「多看几眼、多查几遍」来弥补参数规模上的不足。

低延迟和高吞吐，在这里不再仅仅是部署时的优势，而是直接成为了模型能力的一部分，这种设计巧妙且机智。

例如，在一个驾驶舱操作的演示中，用户只需输入「如何起飞」，模型就会自动框选驾驶舱区域，识别仪表、按钮和关键操作信息，理解当前界面的操作逻辑，并生成分步骤的教程。

这里的重点不仅在于模型能够识别一张驾驶舱图片，更关键的是，它能够将一个密集、陌生、高度依赖上下文的视觉环境，转换为人可以按照执行的明确任务指引。

能看懂和能指导操作，两者的难度系数完全不在一个层级。

我们还将Step 3.7 Flash接入了一套手机GUI Agent流程，并使用一台vivo手机完成了演示。

手机通过USB连接Mac，开启ADB调试授权后，终端即可获取手机当前截图，并通过scrcpy同步显示手机画面。随后，脚本将这张截图发送给Step 3.7 Flash，让模型判断屏幕中正在发生什么。

例如，我们让Step 3.7 Flash查看手机里的微信读书热搜榜。它不仅能够读出页面上的文字，还能理解榜单结构：哪些是书名，哪些是封面，当前排名是多少，有多少人在读，推荐值对应哪本书。

这类能力的意义在于，Agent面对的是真实的应用程序，而非经过整理的干净截图。它必须先看懂页面，才有可能继续帮助用户查找书籍、比较热度、整理榜单，甚至执行下一步操作。

我们又将它应用于美团小判官这样的页面，让它处理一条商家申诉场景。页面中同时包含用户评价、图片证据、商户回复，以及「用户更有理」「商家更有理」等处理按钮。

对于模型来说，这已经不是简单的OCR识别，而是理解一段业务流程：谁在投诉、争议点是什么、证据是什么、平台接下来允许采取什么行动。多模态Agent要进入真实工作流，往往需要处理这种混合了文本、图片、判断和操作入口的界面。

在Blender场景中，用户输入「怎么删除这个方块」，模型会识别Blender的界面结构、图层、工具栏和当前编辑状态，然后给出删除指定方块的操作步骤。

再看应用界面设计分析。当用户要求模型说明「这些设计有什么有趣之处」时，模型会识别不同图片中的信息内容，理解设计元素之间的关系，并生成专业分析。

Step 3.7 Flash的另一项关键能力，是联网与视觉搜索增强。

Agent在真实业务中遇到的问题，往往涉及动态信息、外部资料、多源证据，以及大量不完整的输入。如果模型仅依赖自身知识，在时效性和准确性上很容易出错。

以「瑞石楼」演示为例，模型首先从用户上传的图片中读取可见线索，围绕这些线索生成检索词，使用网页抓取工具查找外部资料，最后将图片中的视觉信息与网上的文字信息整合成一个完整回答。

此时的搜索，已经不仅仅是返回一串网页链接那么简单，模型是围绕任务目标，主动查找、筛选、核对和组织证据。这正是Search Agent和Research Agent真正需要的工作方式。

官方提到，Step 3.7 Flash在SimpleVQA Search、V* (Python)等复杂视觉任务基准测试中，展现出接近更大规模旗舰模型的表现。这意味着模型能够在信息不充分的情况下继续推进任务，并减少未经证实的回答。

让40个Agent同时工作，这才是大模型发挥作用的正确方式

Agent与普通聊天机器人的区别，在于调用密度更高。

一次普通问答通常只有一轮交互，而Agent完成任务时，需要反复观察环境、调用工具和读取结果。Coding Agent需要读取代码、修改文件、运行命令；Search Agent需要检索、核对和整理信息；办公Agent需要处理表格、文档和邮件。

当调用次数大幅增加时，模型的速度和成本就成为系统级问题。

Step 3.7 Flash采用稀疏MoE架构，总参数为196B加1.8B ViT，激活参数仅11B，最高生成速度可达400 Tokens/s。对于高频Agent、Coding Agent、Search Agent、多模态Agent和企业知识工作Agent来说，这意味着在相同时间内可以完成更多轮观察、调用和推理。

例如，Step 3.7 Flash可以构建Agent集群，让40个不同身份的虚拟角色扮演产品评测团队，对一个产品问题进行并行判断，并实时汇总它们对5个MVP方向的偏好。

批量运行Agent的价值就在于此。

过去，一个模型进行一次分析的成本和延迟尚可接受。然而，当企业同时运行几十个Agent，分别扮演用户、专家、销售、产品、运营、客服等角色时，吞吐能力就成为前提条件。速度不够，反馈就会延迟；价格太高，规模化根本无法实现。

类似地，Agent并行实时构建大型知识图谱，也属于高频、多步骤任务。模型的价值不仅体现在生成速度上，更体现在单位时间内完成更多观察、检索和推理的能力上。

再看信息整理。我给它一个任务：「我要写一篇自动驾驶的综述，分头去查技术路线、政策法规、市场格局、代表公司四个方向」。

这类任务看似只是汇总资料，实际运行时会触发多轮搜索、来源核对、内容归类和结构化输出。任务链条越长，调用次数越密集，模型吞吐能力的差距就越容易被放大。

Step 3.7 Flash给我的直观感受是速度快，但速度的同时质量并未打折——它从全网搜集四个方向的资料，并分别归到对应板块，技术路线讲解清晰，政策法规和市场格局的信息也区分明确，没有出现将不同方向混为一谈的情况，结构化输出的层级结构完整。

值得一提的是，Step 3.7 Flash完成任务的性价比极高，尤其是对Agent这种高频任务形态更为友好。

一次Agent任务通常包括任务拆解、信息检索、网页阅读、工具调用、结果比对和输出整理，调用次数远高于普通问答。单次成本差异，在完整任务链中会被迅速放大。

官方数据显示，开启Advisor Mode后，Step 3.7 Flash的编程能力达到Claude Opus 4.6的97%，但每个任务的成本大约只有后者的九分之一。

也正因为如此，Step 3.7 Flash的价值不能仅用「快」来概括。从Agent工作负载的角度看，它同时解决了三件事：高吞吐减少等待时间，更低的任务成本支撑规模化运行，接近头部模型的编程能力使其有机会进入真实工作流，承担持续、复杂的任务。

此外，Agent要进入生产系统，关键还在于稳定调用工具。Step 3.7 Flash在高可靠工具调用与编排上进行了优化。官方称，它可以在长程多轮Agent工作流中稳定调用API、浏览器、终端、Office工具和外部系统，并保持任务轨迹一致，降低任务偏移和执行失败的概率。

官方披露了几组数据。Step 3.7 Flash在考察多工具协同的Toolathlon上达到49.5%，在考察真实环境下日常自主任务执行的ClawEval 1.1上达到67.1%，在横跨44种职业任务的GDPval上达到45.8%。在τ²-bench Telecom的低、中、高三档推理难度下，通过率均超过98%。

当然，Agent生产化还有一个容易被低估的条件：模型必须适配工作流。模型通常被嵌入一套harness中，周围有提示词模板、工具协议、浏览器环境、文件系统、代码执行器、评测集、权限系统和业务流程。

对此，Step 3.7 Flash针对Claude Code、Kilo Code、Roo Code、OpenCode、Hermes Agent、OpenClaw等主流Coding和Agent工具进行了兼容优化，也面向MCP、Skills等工具调用协议和开发链路进行了适配。

开发者因此可以更容易地将模型嵌入已有Agent框架中，而不必重新改造整套流程。对企业来说，适配价值不言而喻：模型越容易进入现有系统，试用和部署周期越短，工程成本越低。

目前，Step 3.7 Flash已在Kilo Code、Nous Research、Lemonade等Agent与开发者生态项目中完成接入验证。阶跃星辰也在与Fireworks AI、DeepInfra、Modal Labs等AI基础设施与推理平台推进适配，后续还将接入OpenRouter、ZenMux等海外模型聚合与开发者平台。

▲ https://huggingface.co/stepfun-ai/Step-3.7-Flash

截至目前，官方还提供关于Step 3.7 Flash的Model Page、GitHub、Hugging Face、ModelScope、国内开放平台API、海外开放平台API、Studio在线体验，以及阶跃AI App入口。

这些入口意味着，它同时面向开发者试用、企业API接入和开源生态使用。更重要的是，Step 3.7 Flash支持云端和本地部署。官方还提供了端侧多精度版本，面向个人工作站和本地环境进行优化。

海外开发者的实测反馈，也补充了官方数据之外的视角。有人在本地MoE测试中对比DeepSeek V4 Flash、Step 3.7Flash和Minimax M2.7，Step 3.7 Flash在agg@64下运行速度超越其他模型，达到2123.13 tok/s；

也有开发者提到，自己先用Gemini 3.5 Flash编写代码，再让Step 3.7 Flash检查，能够找出7个以上小bug和错误。无论是指向本地吞吐，还是指向代码排错，都切实地说明Step 3.7 Flash已经开始进入真实开发流程，并被开发者视为可以长期使用的生产力工具。

基座模型：为Agent而生

体验完Step 3.7 Flash后，徽声在线发现它比起追求某个维度的跑分，更强调工程实用性。

多模态、联网搜索、工具调用、框架兼容、本地部署、低成本、高吞吐。这些特性单独看都不算新鲜，但它们组合在一起，恰好补上了Agent在生产环境中最需要的短板。

这条路径并不花哨，但非常适合Agent当前所处的发展阶段。我们过去评价一个模型，关注的是它是否足够聪明。然而，在Agent时代，真正应该问的是另一个问题：这个模型，是为谁设计的。

这两个问题的出发点截然不同。

一个是模型为人优化，意味着它默认面对的是一个会阅读、会等待、会自行脑补的人类用户。你问一句，它答一句，慢几秒没关系，偶尔含糊也能靠用户自行弥补。

但Agent不会，Agent需要在观察、调用、推理、纠错的循环中连续运转，它一天发出的请求，可能比一个人一年说的话还多。它不会替模型打圆场，模型跑偏了，它就会跟着跑偏。

为人优化的模型，未必适合Agent。这也是为什么Flash这个词，在Agent时代有了新的含义。它不再只是旗舰模型的廉价替代品，而是需要从头按照Agent的需求重新设计。

Step 3.7 Flash的这些特点恰好对应了这一逻辑。

原生多模态，是因为Agent需要先看清任务现场；400 Tokens/s的速度，是因为高频调用经不起延迟；工具调用的稳定性，是因为长程任务断一环就全断；harness适配，是因为模型再强，进不去现有系统也白搭。

它不是冲着榜单去的，而是冲着「Agent究竟如何高效、高性价比地工作」去的。从Step 3.5 Flash到Step 3.7 Flash，阶跃星辰一路强化的，其实都是同一件事：让模型为Agent而生，推动Agent进入规模化商用。

这也将成为模型今后一个重要的进化路线，Step 3.7 Flash也还不是终点。但它让我们看到了一个变化：评判Agent时代的模型，不该只盯着它有多聪明，而要看它是否愿意把那些琐碎的工程问题，一个一个解决清楚。

1492年真正改变世界的，其实不是哥伦布那一次惊险的横渡。反而是后来那些福禄特商船能够一趟趟稳稳地出海、返航、装货，然后再出发。冒险家负责抵达彼岸，商船负责让彼岸变成航线。

模型竞争走到Agent这个阶段，道理也类似。真正拉开差距的，不只是跑分上的惊艳，更是那些能让Agent反复出发、可靠抵达，并把能力沉淀成航线的模型。

点击展开全文