DeepSeek发布革命性多模态模型 视觉推理框架突破参照瓶颈
2026-04-30 23:06:22未知 作者:徽声在线
4月30日,据徽声在线记者从权威渠道获悉,人工智能领域迎来重要进展——DeepSeek在知名代码托管平台Github上正式开源了其最新研发的多模态模型,并同步发布了详细的技术研究报告,引发行业广泛关注。
(配图说明:Github官方网站截图)
该技术报告深入剖析了当前多模态大语言模型(MLLMs)的发展现状。报告指出,尽管现有模型在跨模态理解方面取得突破性进展,但主流的思维链(Chain of Thought, CoT)推理机制仍过度依赖语言符号系统。近期研究虽尝试通过高分辨率图像分块技术(如视觉思维链)缩小感知差距,却未能解决更深层的参照定位难题——自然语言描述的模糊性导致模型难以精准把握空间关系,在需要严格几何参照的任务中常出现逻辑断层。
针对这一痛点,DeepSeek创新性地提出视觉原语推理框架(Visual Primitive Reasoning Framework)。该框架将点坐标、边界框等基础几何元素升级为认知推理的基本单元,通过构建视觉标记与语言语义的双向映射机制,使模型在推理过程中能够直接调用空间坐标信息进行精准指代。这种设计将认知轨迹牢牢锚定在图像的物理坐标系中,显著提升了复杂空间场景的理解能力。
技术报告特别强调了模型架构的优化创新。通过引入动态视觉标记分配算法和分层注意力机制,DeepSeek在保持模型紧凑性的同时,实现了极高的视觉标记利用率。实验数据显示,在图像标记预算减少40%的情况下,该模型在密集物体计数、三维空间推理等挑战性任务中,仍能达到与GPT-5.4、Claude-Sonnet-4.6及Gemini-3-Flash等顶级模型相当的性能水平。这项突破为开发低资源消耗、高可扩展性的System-2级多模态智能系统提供了全新范式,或将推动人工智能从感知智能向认知智能的跨越式发展。
