13个榜单登顶!明略科技(2718.HK)GUI-VLA模型Mano-P 1.0正式开源

2026-04-13 15:12:41未知 作者:徽声在线

近日,徽声在线从明略科技获悉,该公司已正式对外开源其自主研发的GUI感知智能体模型——Mano-P 1.0。这款模型集成了GUI感知、深度理解、智能规划、精准操作以及结果验证五大核心能力,能够仅凭视觉输入就理解并操控桌面软件、网页界面乃至复杂的图形化工作流,且支持在Apple M4芯片设备上实现本地化运行。

Mano-P的问世,标志着AI技术突破了“仅观不作”的传统局限,能够直接在真实的图形界面环境中跨平台执行复杂任务。该项目遵循Apache 2.0协议开源,代码完全公开透明,不仅支持商业用途,还鼓励二次开发创新。

通过提供纯视觉理解与本地执行能力,Mano-P为个人开发者及企业组织提供了构建低成本、个性化AI的强大工具,在确保数据主权的前提下,引领大家正式步入“私有化”个人AI的新纪元。

纯视觉驱动,开启智能交互新篇章

打通复杂业务流的“终极关卡”

在当前技术架构下,自动化操作往往受限于底层API接口、CDP协议或网页HTML解析的束缚,面对非标准应用或跨系统协作时显得力不从心。Mano-P以纯视觉理解为核心,摆脱了对外部接口与协议的依赖,能够直接理解并操控桌面软件、3D应用及各类专业工具,从根本上打破了传统基于浏览器的生态限制。

同时,Mano-P为现有Agent生态提供了坚实的执行能力支撑。目前,该模型可通过skill形式无缝集成至OpenClaw等AI Agent中,实现多窗口系统与跨应用工作流的顺畅穿梭,轻松执行点击、文本输入、窗口切换及视觉验证等闭环操作。

这一创新解决了长期困扰Agent工作流的人工干预难题,使模型不仅能够胜任全自动应用的构建与测试,更能向复杂的商业场景延伸,实现复杂任务的全程自主执行。

13个榜单登顶,刷新GUI专用模型性能纪录

树立端侧GUI Agent性能新标杆

为确保前沿技术能够在端侧设备上得到广泛应用,Mano-P采用了双版本交付架构:72B完整模型用于探索技术上限,同时提供4B量化模型(w4a16)以满足极致的端侧部署需求。

Mano-P 1.0的72B参数量完整模型版本,在全球多模态领域的13个权威基准测试榜单中,实现了针对小尺寸模型的全面领先,刷新了GUI专用模型的性能纪录。其能力矩阵全面覆盖了GUI Grounding、CUA(计算机使用代理)、多模态感知认知、视频理解以及长上下文学习等关键领域,为端侧GUI Agent树立了性能新标杆。


图片来源:明略科技

在业界权威的OSWorld专有模型基准测试中,Mano-P 72B模型以58.2%的任务成功率位居全球榜首,领先第二名opencua-72b(45.0%)多达13.2个百分点。此外,在ScreenSpot-V2、MMBench、UI-Vision等评测体系中,Mano-P同样以显著优势夺冠。

卓越的性能背后,是底层技术的不断创新。Mano-P引入了SFT(监督微调)、离线强化学习与在线强化学习的三阶段渐进式训练架构,并配合专有的GSPruning视觉Token剪枝技术,实现了端侧推理效率的质的飞跃。

在配备Apple M4 Pro芯片的设备上,4B量化模型可实现高达476 tokens/s的预填充速度与76 tokens/s的解码速度,峰值内存占用仅为4.3GB,完美适配主流边缘设备的算力与存储限制。

端侧本地部署,守护数据安全防线

实现物理隔离级数据保护机制

随着AI技术深入核心业务流,数据隐私与合规性已成为企业决策的关键考量因素。Mano-P支持本地端侧部署,数据零上云,通过“纯视觉理解+本地执行”的架构设计,实现了数据处理与外部网络的物理隔离。

在本地模式下,模型可直接在Mac mini/MacBook(M4芯片及以上,32GB+内存)上运行,或使用Mano-P算力棒连接(通过USB 4.0)。系统的屏幕截图、业务流转数据及任务指令均在本地闭环处理,从源头上消除了面向云端服务器的传输风险。

同时,Mano-P具备强大的离线长任务自主规划能力。在无网环境下,Mano-P同样能够自主推进复杂业务流程,并完成过程中的决策与纠错。这一特性不仅重塑了人机交互的信任边界,更使得端侧AI能够真正进入高安全性、高隐私要求的企业级生产环境。

全面开源战略,加速Personalized AI生态繁荣

共筑AI技术新未来

技术的真正价值在于广泛的应用与生态的共建。Mano-P遵循Apache 2.0协议正式开源,完整客户端代码全面公开并支持严格审计,允许商业化应用与二次开发。

为降低企业与个人用户的接入门槛,Mano-P设计了三种开箱即用的使用形态,精准覆盖不同技术栈的用户群体。无需繁琐配置复杂的API密钥,用户即可轻松构建专属的高性能GUI智能体。

按照既定的开源规划,明略科技本次率先开源Mano-CUA核心技能,用户可将其便捷配置到OpenClaw或Claude Code中,以构建更智能的CUA任务工作流程,并克服人工干预带来的瓶颈。


图片来源:明略科技

Mano-CUA本地模型和SDK组件预计将于本月内正式开源,以满足具有高安全性需求的开发者的期待。届时用户可直接调用本地化部署的GUI-VLA模型来构建自定义技能与工具,所有CUA操作都将在本地Mac设备上执行,确保数据不上传至外部服务器。

未来,明略科技还将全面开源Mano-P模型底层的训练方法、Token剪枝技术与混合精度量化方案,助力开发者打造符合自身业务需求的专属本地GUI-VLA模型。

面向未来,从技术突破到生态共建,Mano-P将GUI感知、视觉操作、本地运行与开源生态紧密结合,不仅为端侧智能体提供了坚实的技术支撑,更为“Personalized AI”的发展铺就了一条清晰的现实路径。无论是独立开发者还是对安全要求严苛的企业组织,都能以更低的门槛、更高的可控性,打造个性化AI。明略科技正以开放之姿,让“人人可以创造专属AI”的愿景逐步变为现实。

点击展开全文
你关注的
【出海聚焦】石油危机凸显中国电动车优势,性价比之外更有硬实力【出海聚焦】石油危机凸显中国电动车优势,性价比之外更有硬实力 AI玩具赛道迎重大变革:模型“套壳”问题有望短期解决,智能体研发加速推进AI玩具赛道迎重大变革:模型“套壳”问题有望短期解决,智能体研发加速推进 深圳低空经济全域竞速:百企试飞、基金赋能、标准引领深圳低空经济全域竞速:百企试飞、基金赋能、标准引领
相关文章
13个榜单登顶!明略科技(2718.HK)GUI-VLA模型Mano-P 1.0正式开源13个榜单登顶!明略科技(2718.HK)GUI-VLA模型Mano-P 1.0正式开源 12万部AI漫剧陷入存量竞争,破亿率仅0.117%!阅文1亿投入签约千名“AI导演”能否破局?12万部AI漫剧陷入存量竞争,破亿率仅0.117%!阅文1亿投入签约千名“AI导演”能否破局? 马斯克力推XChat:周五苹果商店首发,能否挑战微信霸主地位?马斯克力推XChat:周五苹果商店首发,能否挑战微信霸主地位? 徽声在线揭秘AI“造黄”黑色产业链:图片文字秒变色情视频,多平台教唆犯罪引公愤徽声在线揭秘AI“造黄”黑色产业链:图片文字秒变色情视频,多平台教唆犯罪引公愤 AI盈利拐点已至,如何精准捕捉产业核心弹性环节投资机遇?AI盈利拐点已至,如何精准捕捉产业核心弹性环节投资机遇? 英特尔凭何赢得马斯克青睐?氮化镓芯片突破揭秘Terafab合作内幕英特尔凭何赢得马斯克青睐?氮化镓芯片突破揭秘Terafab合作内幕