任务成本仅Claude Opus 4.6的1/9,Step 3.7 Flash引领Agent效率革命
2026-06-02 10:01:49未知 作者:徽声在线
1492年,哥伦布率领船队驶向大西洋深处。在远洋航行中,速度固然重要,但真正决定船队能否成功抵达彼岸的,是淡水、食物、船体结构、桅杆和帆索能否经受住漫长风暴的考验。实际上,正是这种看似并不浪漫的工程逻辑,改写了跨洋贸易的格局。
随后,荷兰人创新设计出「福禄特」商船:这种商船造价更低、所需船员更少、货舱容量更大,能够在大西洋航线上稳定往返。远洋航行因此从冒险家的孤勇之举,转变为一种可复制、可计算、可规模化扩张的商业模式。
今天的AI模型竞争,也正站在类似的十字路口。
过去,人们在谈论AI模型时,往往聚焦于参数规模、榜单排名和峰值性能。然而,徽声在线在使用Claude Code、Codex等编码助手后,深刻感受到当AI Agent开始应用于生产环境时,真正关心的问题已有所不同:能否持续处理高频请求,能否稳定调用各种工具,能否理解复杂的用户界面,以及能否嵌入企业现有流程并长期稳定运行。
这些问题的答案,往往无法在传统的跑分榜单中找到。
最近,阶跃星辰正式发布并开源了Step 3.7 Flash模型。作为面向生产级Agent的新一代Flash模型,它主要服务于Agent、编码、搜索和多模态工作流。
它的出现,恰好契合了这一关键转折点。生产级Agent所追求的,已不仅仅是速度和成本优势,更重要的是可靠性、易用性、易于部署,以及在真实工作流中持续产出有效结果的能力。
Flash模型:从旗舰的替代品到生产效率的基石
过去,Flash模型常被视为旗舰模型的轻量级版本,其卖点主要集中在速度和成本上。然而,随着Agent成为工作流的核心,Flash模型的角色发生了根本性变化。
如果一个模型在多轮任务中容易偏离目标,无论是企业还是个人用户都难以放心采用。相反,一个能够在速度、成本、工具调用、多模态理解和生态兼容性之间取得平衡的模型,才有可能成为Agent系统真正可依赖的基础能力。
从某种意义上说,Agent时代所需的Flash模型,已经从「更快的小模型」升级为「生产效率最高的基座模型」。
它既要接近旗舰模型的能力上限,又要能够承受大规模Agent调用的效率压力。Step 3.7 Flash的定位,正是后者——新一代Agentic基座模型。
而生产级Agent面临的第一道挑战,是理解真实的工作环境。
大量的Agent任务分布在复杂界面、办公文档、图表系统、浏览器页面、专业软件和内部工具之间。仅擅长文本问答的Agent,很难真正处理这些任务。
Step 3.7 Flash重点强化的,正是原生多模态理解与执行能力。
它能够理解用户界面、图表、文档、图片和应用界面,也能够在复杂视觉问题中自主裁剪、放大、重读图像。当遇到信息不确定的情况时,模型还能主动发起搜索,并对文本和图像信息进行交叉验证。
这里有一个反直觉的设计思路。对于一个11B激活的Flash模型来说,将海量视觉知识硬编码进权重是不划算的。阶跃星辰反其道而行之:权重中只保留最核心的推理引擎,将感知边界和世界知识外推到推理阶段,依靠极快的速度,通过「多看几眼、多查几遍」来弥补参数规模上的不足。
低延迟和高吞吐,在这里不再仅仅是部署时的优势,而是直接成为了模型能力的一部分,这种设计巧妙且机智。
例如,在一个驾驶舱操作的演示中,用户只需输入「如何起飞」,模型就会自动框选驾驶舱区域,识别仪表、按钮和关键操作信息,理解当前界面的操作逻辑,并生成分步骤的教程。
这里的重点不仅在于模型能够识别一张驾驶舱图片,更关键的是,它能够将一个密集、陌生、高度依赖上下文的视觉环境,转换为人可以按照执行的明确任务指引。
能看懂和能指导操作,两者的难度系数完全不在一个层级。
我们还将Step 3.7 Flash接入了一套手机GUI Agent流程,并使用一台vivo手机完成了演示。
手机通过USB连接Mac,开启ADB调试授权后,终端即可获取手机当前截图,并通过scrcpy同步显示手机画面。随后,脚本将这张截图发送给Step 3.7 Flash,让模型判断屏幕中正在发生什么。
例如,我们让Step 3.7 Flash查看手机里的微信读书热搜榜。它不仅能够读出页面上的文字,还能理解榜单结构:哪些是书名,哪些是封面,当前排名是多少,有多少人在读,推荐值对应哪本书。
这类能力的意义在于,Agent面对的是真实的应用程序,而非经过整理的干净截图。它必须先看懂页面,才有可能继续帮助用户查找书籍、比较热度、整理榜单,甚至执行下一步操作。
我们又将它应用于美团小判官这样的页面,让它处理一条商家申诉场景。页面中同时包含用户评价、图片证据、商户回复,以及「用户更有理」「商家更有理」等处理按钮。
对于模型来说,这已经不是简单的OCR识别,而是理解一段业务流程:谁在投诉、争议点是什么、证据是什么、平台接下来允许采取什么行动。多模态Agent要进入真实工作流,往往需要处理这种混合了文本、图片、判断和操作入口的界面。
在Blender场景中,用户输入「怎么删除这个方块」,模型会识别Blender的界面结构、图层、工具栏和当前编辑状态,然后给出删除指定方块的操作步骤。
再看应用界面设计分析。当用户要求模型说明「这些设计有什么有趣之处」时,模型会识别不同图片中的信息内容,理解设计元素之间的关系,并生成专业分析。
Step 3.7 Flash的另一项关键能力,是联网与视觉搜索增强。
Agent在真实业务中遇到的问题,往往涉及动态信息、外部资料、多源证据,以及大量不完整的输入。如果模型仅依赖自身知识,在时效性和准确性上很容易出错。
以「瑞石楼」演示为例,模型首先从用户上传的图片中读取可见线索,围绕这些线索生成检索词,使用网页抓取工具查找外部资料,最后将图片中的视觉信息与网上的文字信息整合成一个完整回答。
此时的搜索,已经不仅仅是返回一串网页链接那么简单,模型是围绕任务目标,主动查找、筛选、核对和组织证据。这正是Search Agent和Research Agent真正需要的工作方式。
官方提到,Step 3.7 Flash在SimpleVQA Search、V* (Python)等复杂视觉任务基准测试中,展现出接近更大规模旗舰模型的表现。这意味着模型能够在信息不充分的情况下继续推进任务,并减少未经证实的回答。
让40个Agent同时工作,这才是大模型发挥作用的正确方式
Agent与普通聊天机器人的区别,在于调用密度更高。
一次普通问答通常只有一轮交互,而Agent完成任务时,需要反复观察环境、调用工具和读取结果。Coding Agent需要读取代码、修改文件、运行命令;Search Agent需要检索、核对和整理信息;办公Agent需要处理表格、文档和邮件。
当调用次数大幅增加时,模型的速度和成本就成为系统级问题。
Step 3.7 Flash采用稀疏MoE架构,总参数为196B加1.8B ViT,激活参数仅11B,最高生成速度可达400 Tokens/s。对于高频Agent、Coding Agent、Search Agent、多模态Agent和企业知识工作Agent来说,这意味着在相同时间内可以完成更多轮观察、调用和推理。
例如,Step 3.7 Flash可以构建Agent集群,让40个不同身份的虚拟角色扮演产品评测团队,对一个产品问题进行并行判断,并实时汇总它们对5个MVP方向的偏好。
批量运行Agent的价值就在于此。
过去,一个模型进行一次分析的成本和延迟尚可接受。然而,当企业同时运行几十个Agent,分别扮演用户、专家、销售、产品、运营、客服等角色时,吞吐能力就成为前提条件。速度不够,反馈就会延迟;价格太高,规模化根本无法实现。
类似地,Agent并行实时构建大型知识图谱,也属于高频、多步骤任务。模型的价值不仅体现在生成速度上,更体现在单位时间内完成更多观察、检索和推理的能力上。
再看信息整理。我给它一个任务:「我要写一篇自动驾驶的综述,分头去查技术路线、政策法规、市场格局、代表公司四个方向」。
这类任务看似只是汇总资料,实际运行时会触发多轮搜索、来源核对、内容归类和结构化输出。任务链条越长,调用次数越密集,模型吞吐能力的差距就越容易被放大。
Step 3.7 Flash给我的直观感受是速度快,但速度的同时质量并未打折——它从全网搜集四个方向的资料,并分别归到对应板块,技术路线讲解清晰,政策法规和市场格局的信息也区分明确,没有出现将不同方向混为一谈的情况,结构化输出的层级结构完整。
值得一提的是,Step 3.7 Flash完成任务的性价比极高,尤其是对Agent这种高频任务形态更为友好。
一次Agent任务通常包括任务拆解、信息检索、网页阅读、工具调用、结果比对和输出整理,调用次数远高于普通问答。单次成本差异,在完整任务链中会被迅速放大。
官方数据显示,开启Advisor Mode后,Step 3.7 Flash的编程能力达到Claude Opus 4.6的97%,但每个任务的成本大约只有后者的九分之一。
也正因为如此,Step 3.7 Flash的价值不能仅用「快」来概括。从Agent工作负载的角度看,它同时解决了三件事:高吞吐减少等待时间,更低的任务成本支撑规模化运行,接近头部模型的编程能力使其有机会进入真实工作流,承担持续、复杂的任务。
此外,Agent要进入生产系统,关键还在于稳定调用工具。Step 3.7 Flash在高可靠工具调用与编排上进行了优化。官方称,它可以在长程多轮Agent工作流中稳定调用API、浏览器、终端、Office工具和外部系统,并保持任务轨迹一致,降低任务偏移和执行失败的概率。
官方披露了几组数据。Step 3.7 Flash在考察多工具协同的Toolathlon上达到49.5%,在考察真实环境下日常自主任务执行的ClawEval 1.1上达到67.1%,在横跨44种职业任务的GDPval上达到45.8%。在τ²-bench Telecom的低、中、高三档推理难度下,通过率均超过98%。
当然,Agent生产化还有一个容易被低估的条件:模型必须适配工作流。模型通常被嵌入一套harness中,周围有提示词模板、工具协议、浏览器环境、文件系统、代码执行器、评测集、权限系统和业务流程。
对此,Step 3.7 Flash针对Claude Code、Kilo Code、Roo Code、OpenCode、Hermes Agent、OpenClaw等主流Coding和Agent工具进行了兼容优化,也面向MCP、Skills等工具调用协议和开发链路进行了适配。
开发者因此可以更容易地将模型嵌入已有Agent框架中,而不必重新改造整套流程。对企业来说,适配价值不言而喻:模型越容易进入现有系统,试用和部署周期越短,工程成本越低。
目前,Step 3.7 Flash已在Kilo Code、Nous Research、Lemonade等Agent与开发者生态项目中完成接入验证。阶跃星辰也在与Fireworks AI、DeepInfra、Modal Labs等AI基础设施与推理平台推进适配,后续还将接入OpenRouter、ZenMux等海外模型聚合与开发者平台。
▲ https://huggingface.co/stepfun-ai/Step-3.7-Flash
截至目前,官方还提供关于Step 3.7 Flash的Model Page、GitHub、Hugging Face、ModelScope、国内开放平台API、海外开放平台API、Studio在线体验,以及阶跃AI App入口。
这些入口意味着,它同时面向开发者试用、企业API接入和开源生态使用。更重要的是,Step 3.7 Flash支持云端和本地部署。官方还提供了端侧多精度版本,面向个人工作站和本地环境进行优化。
海外开发者的实测反馈,也补充了官方数据之外的视角。有人在本地MoE测试中对比DeepSeek V4 Flash、Step 3.7Flash和Minimax M2.7,Step 3.7 Flash在agg@64下运行速度超越其他模型,达到2123.13 tok/s;
也有开发者提到,自己先用Gemini 3.5 Flash编写代码,再让Step 3.7 Flash检查,能够找出7个以上小bug和错误。无论是指向本地吞吐,还是指向代码排错,都切实地说明Step 3.7 Flash已经开始进入真实开发流程,并被开发者视为可以长期使用的生产力工具。
基座模型:为Agent而生
体验完Step 3.7 Flash后,徽声在线发现它比起追求某个维度的跑分,更强调工程实用性。
多模态、联网搜索、工具调用、框架兼容、本地部署、低成本、高吞吐。这些特性单独看都不算新鲜,但它们组合在一起,恰好补上了Agent在生产环境中最需要的短板。
这条路径并不花哨,但非常适合Agent当前所处的发展阶段。我们过去评价一个模型,关注的是它是否足够聪明。然而,在Agent时代,真正应该问的是另一个问题:这个模型,是为谁设计的。
这两个问题的出发点截然不同。
一个是模型为人优化,意味着它默认面对的是一个会阅读、会等待、会自行脑补的人类用户。你问一句,它答一句,慢几秒没关系,偶尔含糊也能靠用户自行弥补。
但Agent不会,Agent需要在观察、调用、推理、纠错的循环中连续运转,它一天发出的请求,可能比一个人一年说的话还多。它不会替模型打圆场,模型跑偏了,它就会跟着跑偏。
为人优化的模型,未必适合Agent。这也是为什么Flash这个词,在Agent时代有了新的含义。它不再只是旗舰模型的廉价替代品,而是需要从头按照Agent的需求重新设计。
Step 3.7 Flash的这些特点恰好对应了这一逻辑。
原生多模态,是因为Agent需要先看清任务现场;400 Tokens/s的速度,是因为高频调用经不起延迟;工具调用的稳定性,是因为长程任务断一环就全断;harness适配,是因为模型再强,进不去现有系统也白搭。
它不是冲着榜单去的,而是冲着「Agent究竟如何高效、高性价比地工作」去的。从Step 3.5 Flash到Step 3.7 Flash,阶跃星辰一路强化的,其实都是同一件事:让模型为Agent而生,推动Agent进入规模化商用。
这也将成为模型今后一个重要的进化路线,Step 3.7 Flash也还不是终点。但它让我们看到了一个变化:评判Agent时代的模型,不该只盯着它有多聪明,而要看它是否愿意把那些琐碎的工程问题,一个一个解决清楚。
1492年真正改变世界的,其实不是哥伦布那一次惊险的横渡。反而是后来那些福禄特商船能够一趟趟稳稳地出海、返航、装货,然后再出发。冒险家负责抵达彼岸,商船负责让彼岸变成航线。
模型竞争走到Agent这个阶段,道理也类似。真正拉开差距的,不只是跑分上的惊艳,更是那些能让Agent反复出发、可靠抵达,并把能力沉淀成航线的模型。
