双料开源!明略科技(2718.HK)发布Cider端侧推理加速框架与Mano-P端侧模型

2026-05-06 16:07:55未知 作者:徽声在线

近期,明略科技在人工智能领域迈出了重要一步,正式对外开源了其自主研发的Cider端侧推理加速SDK(软件开发工具包)以及Mano-P端侧GUI智能体模型。这一举措不仅延续了此前Mano-CUA skill开源的势头,更进一步彰显了端侧模型在真实业务场景中的巨大应用潜力。Cider框架从底层计算算子与硬件调用机制入手,为端侧大模型在macOS系统下的本地运行提供了高效、低内存占用的解决方案。

Mano-P:端侧智能体落地的先锋力量

Mano-P作为明略科技精心打造的端侧GUI-VLA智能体模型,以其独特的纯视觉理解与操作能力脱颖而出。它不依赖于传统的API对接方式,也不局限于浏览器环境,而是能够直接与桌面软件、网页系统乃至更复杂的图形化工作流进行交互。这种能力使得Mano-P在处理复杂图形界面时显得游刃有余。

面对图形界面交互中高频的视觉处理需求,Mano-P展现出了强大的多模态视觉理解能力。它能够持续、快速地处理屏幕截图,精准捕捉微小的界面元素,并根据视觉反馈灵活调整后续操作。在传统的云端大模型架构下,这种高频的视觉交互往往伴随着高昂的token成本消耗,而Mano-P则通过端侧部署有效避免了这一问题。

值得一提的是,参数规模仅为4B的Mano-P端侧模型,在CUA任务上的表现丝毫不逊色于云端大模型,甚至在某些方面达到了相当的准确率。更重要的是,它彻底消除了云端接口调用的成本,使得所有应用截图、交互过程与任务数据都能严格锁定在用户本地设备中,实现了隐私安全的“物理隔离”。

Cider:Apple Silicon专属的端侧推理加速利器

端侧模型的可用性,关键在于本地推理速度、硬件利用率、内存占用、接入成本以及长期稳定性等多个方面。Cider框架的诞生,正是为了解决这些核心问题。作为明略科技自主研发的SDK,Cider基于Apple MLX生态构建,专为macOS与Apple Silicon量身打造。它巧妙地弥补了MLX原生框架在激活量化与特定张量计算能力上的不足,成为了一套面向广泛开源模型生态的高效端侧推理框架。


图片来源:明略科技

在Apple MLX原生架构已支持W4A16、W8A16等权重量化模式的基础上,Cider进一步拓展了推理路径,提供了W8A8与W4A8两种新模式。通过深度融合在线激活量化、INT8 TensorOps计算、量化矩阵乘和反量化流程,Cider充分释放了Apple Silicon的底层计算潜能,让开源模型在Mac上不仅能够运行,更能以高效、低内存占用的姿态流畅运行。

实测数据显示,在W8A8模式下,Cider的算子速度相比原生MLX模式提升了约1.4至1.9倍,具体表现取决于Batch Size的大小。而在W4A8模式下,Cider则能够进一步降低50%的权重内存占用,并在高并发场景下与原生MLX的全精度W4A16方案计算速度相媲美。


图片来源:明略科技

针对Qwen3-VL系列主流视觉语言模型,Cider在端到端预填充场景中展现出了惊人的加速效果。在不同长度的提示词下,相较于原生MLX W8A16模式,Cider的W8A8 PC模式为Qwen3-VL-4B模型带来了约17%至22%的预填充速度提升;而对于Qwen3-VL-2B模型,这一提速更是高达约57%至61%。


图片来源:明略科技

此外,Cider还针对多图推理中的RoPE位置处理等技术难点进行了深度优化与非侵入性修复,显著提升了复杂视觉任务的推理稳定性。这对于需要处理更长上下文、更复杂截图信息以及更密集推理请求的端侧VLM和GUI智能体而言,无疑是一次性能上的飞跃。

值得一提的是,Cider还积极探索了基于M4芯片的Apple Neural Engine与GPU的异构协同。长期以来,端侧大模型推理主要依赖GPU,而Apple芯片中的Neural Engine潜力尚未得到充分挖掘。Cider通过引入ANE+GPU的异构张量并行机制,让两类计算单元协同工作,在部分测试场景下额外获得了约3%至16%的加速效果。

极简接入,让开源模型轻松获得本地加速

Cider的兼容性极强,能够无缝适配任意LLM模型,包括Qwen、Llama、Mistral以及Qwen3-VL等VLM模型,并内置了OpenAI兼容的VLM推理服务。企业和开发者无需对模型结构进行重写,只需进行极少量的代码适配,即可轻松实现接入。

在预填充阶段,Cider支持启用W8A8 INT8 TensorOps以大幅提升计算速度;而在解码阶段,框架则能够智能回退至原有权重路径,有效避免引入不必要的额外开销。

无论是企业希望在内部网络中部署高度定制化的本地大语言模型,还是开发者致力于构建垂直领域的私有化人工智能应用矩阵,Cider都提供了一套坚实、可靠且极具延展性的底层推理基础设施支撑。

构建本地智能基础设施,引领私有化AI新潮流

过去,大模型应用主要依赖于云端算力。虽然云端模型具有更强的规模化能力,但在企业级场景中,数据传输成本、隐私安全、调用费用以及网络依赖等问题不容忽视。特别是在涉及内部系统、核心业务流程、敏感界面截图和任务数据的场景中,端侧AI能够让模型更贴近数据发生的地方,从而降低传输风险、提升响应速度并增强自主可控性。

Cider通过提升本地推理效率,使得“数据不出设备”成为了一种接近真实可用的工程方案。当本地模型具备更好的推理性能时,企业便有了在更多场景中探索私有化AI的底气,如本地智能助手、企业内部Agent、离线任务执行、端侧多模态分析以及高保密要求的自动化流程等。

展望未来,明略科技还计划开源完整的Mano-Action训练方法和相关工具,帮助企业和开发者基于自己的数据训练定制化GUI智能体模型,或在Mano-Action基础上开发新的训练技术,全面赋能企业定制与算法创新。


图片来源:明略科技

明略科技正将其在智能体、多模态模型和企业级AI应用领域的深厚积累,进一步延伸至底层推理框架与端侧模型研发的根基之中。我们致力于为广大开发者与企业用户提供一套完整、开箱即用的私有化人工智能基础设施,推动AI真正走向私有化部署、低成本运行与可信落地的新阶段。

点击展开全文
你关注的
【出海聚焦】石油危机凸显中国电动车优势,性价比之外更有硬实力【出海聚焦】石油危机凸显中国电动车优势,性价比之外更有硬实力 AI玩具赛道迎重大变革:模型“套壳”问题有望短期解决,智能体研发加速推进AI玩具赛道迎重大变革:模型“套壳”问题有望短期解决,智能体研发加速推进 深圳低空经济全域竞速:百企试飞、基金赋能、标准引领深圳低空经济全域竞速:百企试飞、基金赋能、标准引领
相关文章
双料开源!明略科技(2718.HK)发布Cider端侧推理加速框架与Mano-P端侧模型双料开源!明略科技(2718.HK)发布Cider端侧推理加速框架与Mano-P端侧模型 【深度调查】Token经济暗流:中转平台暴利背后的技术博弈与产业重构【深度调查】Token经济暗流:中转平台暴利背后的技术博弈与产业重构 UNOX智能蒸烤箱亮相上海,Christofle昆庭新品预览 | 一周品牌动态UNOX智能蒸烤箱亮相上海,Christofle昆庭新品预览 | 一周品牌动态 雷军宣布:新一代SU7首销锁单超8万,四天订单激增上万雷军宣布:新一代SU7首销锁单超8万,四天订单激增上万 东方甄选首店试营业引爆中关村 孙进亲推会员体系背后的战略转型东方甄选首店试营业引爆中关村 孙进亲推会员体系背后的战略转型 Meta公司即将为用户推出AI助手服务Meta公司即将为用户推出AI助手服务