DeepSeek视觉革命：7000倍压缩开启空间推理新纪元

2026-05-01 09:07:55未知作者:徽声在线

徽声在线科技频道
撰稿人李明轩
审校周颖

4月30日，徽声在线科技频道独家获悉，DeepSeek正式发布技术白皮书《视觉原语驱动的认知推理架构（Thinking with Visual Primitives）》，首次完整披露其革命性识图系统的技术实现路径。这项突破性技术使模型具备类似人类的视觉指向能力，标志着多模态AI进入空间坐标推理新纪元。

该系统基于2840亿参数的混合架构模型构建，采用130亿活跃参数的动态推理引擎，以DeepSeek-V4-Flash作为基础框架。技术团队创新性地将视觉定位模块深度整合到语言模型核心，形成全球首个具备原生空间感知能力的认知系统。据内部人士透露，该技术将于Q3季度通过OTA升级方式推送至全量用户。

传统AI推理系统依赖纯文本思维链，而DeepSeek团队突破性地构建了双轨认知架构。系统工程师王伟解释道："我们开发了空间坐标编码器，将视觉元素转化为带有三维坐标属性的认知单元，使模型能够同时处理语义逻辑和空间关系。"这种创新架构使模型在处理复杂场景时，推理准确率提升37%。

在实测演示中，当输入一张包含23个物体的混乱场景图时，系统能精准标注出用户指定的"红色圆柱体右侧的蓝色方块"，并在后续问答中持续引用该空间锚点。这种持续追踪能力得益于团队研发的动态视觉记忆机制，可实时更新物体位置信息。

技术白皮书披露的动图演示显示，模型在解决迷宫问题时，会通过坐标点标记行进路径，并在遇到死胡同时自动回溯。这种类人推理模式使其在Topological-8基准测试中取得92.3分的成绩，超越GPT-5.4的85.7分和Claude-Sonnet-4.6的88.1分。

▲多模态推理过程可视化演示

在视觉问答挑战赛中，该系统展现出惊人的空间理解能力。面对"图中有多少个金属物体位于窗户下方且不接触地板"这类复合条件问题，其回答准确率达到89.4%，较Gemini-3-Flash提升21个百分点。这得益于团队构建的4D空间关系图谱，可同时处理物体的材质、位置、接触状态等12维属性。

p id="4GP9ULEU">在计算效率方面，研发团队突破性地提出三级视觉压缩方案。首席架构师陈琳介绍："我们通过ViT-XL特征提取器将图像转化为256维向量，再经空间注意力机制压缩至16维，最终在KV缓存中仅保留88个视觉标记。"这种创新架构使720P图像的处理延迟从行业平均的320ms降至87ms。

实测数据显示，在处理1024×768分辨率图像时，系统内存占用较传统方案降低82%，推理能耗减少67%。这种轻量化设计使其可在移动端设备实现实时空间推理，为AR导航、智能医疗等场景奠定基础。

开源项目地址：

https://github.com/deepseek-ai/Visual-Primitives-Engine

技术白皮书下载：

https://github.com/deepseek-ai/Visual-Primitives-Engine/releases/download/v1.0/Technical_Report.pdf

一、破解自然语言的指代困境：视觉锚点重构认知范式

研究团队在论文中深入剖析了现有系统的认知局限。传统模型在处理"左侧第三个物体"这类指令时，需通过滑动窗口遍历整个图像，导致计算复杂度呈指数级增长。DeepSeek提出的视觉原语理论，将空间坐标转化为认知基元，使模型能够直接操作空间关系而非像素矩阵。

在密集物体计数任务中，新系统展现出卓越的抗干扰能力。测试数据显示，当场景中存在50个相似物体时，其计数误差率仅为1.2%，而传统模型在相同条件下的误差率高达18.7%。这得益于团队开发的渐进式验证机制，模型会先框选所有候选对象，再通过特征匹配进行二次确认。

针对自然语言的模糊性，系统内置了指代消解引擎。当检测到"那个东西"等不确定表述时，会自动触发多模态交互流程，通过追问"您指的是蓝色包装的还是透明包装的？"来澄清意图。这种主动澄清机制使复杂场景下的任务完成率提升41%。

在拓扑推理测试中，系统展现出惊人的空间想象力。面对需要理解物体间遮挡关系的任务，其推理准确率达到88.6%，较Qwen3-VL提升29个百分点。这得益于团队构建的4D空间模型，可同时处理物体的三维坐标和时间维度变化。

架构创新方面，系统采用三明治式设计：底层是DeepSeek-ViT视觉编码器，中间层是空间关系推理引擎，顶层是自然语言生成模块。这种解耦设计使各组件可独立优化，研发效率提升3倍。特别值得关注的是空间关系引擎，其内置的几何代数模块可处理旋转、缩放等空间变换运算。

在数据构建方面，团队开发了自动化标注流水线。通过计算机视觉算法预标注后，再经人工校验确保数据质量。最终构建的4200万样本数据集包含87种空间关系类型，覆盖从简单定位到复杂拓扑的全场景需求。这种高质量数据使模型在冷启动阶段就具备强大的空间推理能力。

二、四阶训练体系：从空间感知到认知跃迁

为使模型真正掌握空间推理能力，团队设计了四阶段训练方案。在基础定位阶段，模型需在10万张合成图像中学习物体检测，掌握基本的框选能力。随后进入空间关系学习阶段，通过200万组对比数据理解上下、前后等基础方位。

第三阶段是复杂场景训练，模型需处理包含30个以上物体的真实场景，学习在干扰信息中提取关键空间关系。最终阶段是认知迁移训练，通过强化学习让模型自主发现最优推理路径。这种渐进式训练使模型的空间IQ从92提升至137（成人平均为100）。

在计数任务训练中，系统采用分治策略教学。首先学习批量框选所有目标，再通过特征聚类进行分组验证。这种教学方法使模型在处理100个以上物体的场景时，仍能保持95%以上的准确率。测试数据显示，其计数速度达到每秒28个物体，较传统方法提升5倍。

迷宫导航训练则引入了生存压力机制。模型每走错一步都会扣除奖励值，撞墙则直接终止当前回合。这种严苛的训练条件使模型学会谨慎规划路径，在复杂迷宫中的通关率达到91.3%，较基线模型提升34个百分点。特别值得关注的是，模型在训练过程中自主发现了"右手定则"等导航策略。

▲迷宫导航训练数据示例

路径追踪训练采用动态难度调整机制。系统会根据模型表现实时增加障碍物密度和移动速度，确保训练强度始终处于模型能力边界。经过300万回合训练后，模型在动态场景中的追踪准确率达到87.6%，较初始状态提升52个百分点。

在强化学习阶段，团队创新性地提出稠密奖励模型。将任务分解为20个子目标，每个步骤的完成质量都会影响最终奖励。这种设计使模型必须认真对待每个推理环节，无法通过投机取巧获得高分。测试显示，稠密奖励机制使模型的策略收敛速度提升3倍。

三、视觉编码革命：7000倍压缩背后的技术突破

为实现高效空间推理，团队重构了视觉编码体系。传统方法将图像转化为数千个视觉标记，而DeepSeek方案通过三级压缩将其降至88个。首席工程师张磊解释："我们开发了空间注意力聚合层，可将相邻标记的语义信息进行融合，在保持信息量的同时大幅减少计算量。"

在迷宫任务测试中，压缩后的视觉表示仍能保留98.7%的关键信息。这得益于团队提出的语义保持压缩算法，通过特征重要性评估确保关键信息不被丢失。实测显示，即使将压缩比提升至10000倍，模型仍能保持85%以上的任务完成率。

为验证压缩效果，团队进行了消融实验。当关闭空间压缩模块时，模型在720P图像上的推理延迟从87ms飙升至512ms，内存占用增加3.2倍。这充分证明三级压缩方案在保持性能的同时，实现了计算效率的质的飞跃。

在专家模型融合方面，团队采用渐进式蒸馏技术。先分别训练框定位专家和点指向专家，再通过动态权重调整实现能力融合。这种设计使融合后的模型在两项任务上的表现均超过单个专家，F1分数分别提升8.2%和11.7%。

特别值得关注的是稀疏注意力机制的创新。团队将传统密集注意力改为块稀疏模式，使计算复杂度从O(n²)降至O(n log n)。在处理1024个视觉标记时，这种优化使GPU利用率从48%提升至89%，推理速度提升2.3倍。

在视觉编码器选择上，团队经过对比实验发现，ViT-XL架构在空间关系建模方面表现最优。其自注意力机制能够捕捉长距离依赖关系，特别适合处理复杂场景。通过优化位置编码方案，使模型能够理解绝对位置和相对位置关系，空间推理准确率提升19%。

以756×756分辨率图像为例，传统方法需要处理2916个patch标记，而DeepSeek方案通过14×14分块、3×3空间压缩和4倍稀疏化，最终仅保留81个视觉KV条目。这种7056倍的压缩比使模型能够在移动端设备实现实时推理，为边缘计算场景开辟新可能。

在抗干扰能力测试中，系统展现出惊人的鲁棒性。当输入图像存在20%的遮挡时，其推理准确率仅下降3.7%，而传统模型在相同条件下的准确率下降28.4%。这得益于团队开发的多尺度特征融合机制，可同时利用局部细节和全局上下文进行推理。

结语：通往通用人工智能的新路径

研究团队在报告中也坦诚指出当前技术的局限性。在处理动态场景时，模型的时空预测能力仍有待提升；对于抽象空间关系的理解，如"A在B的东北方向且两者之间有障碍物"，准确率仅为76.3%。这些边界将成为下一阶段的研究重点。

尽管如此，这项突破仍为多模态AI发展指明新方向。通过将空间坐标转化为认知基元，模型获得了类似人类的视觉指向能力，这被认为是通往系统2级认知的重要里程碑。随着视觉推理能力的不断提升，AI系统将能够处理更复杂的现实世界任务，从自动驾驶到智能医疗都将因此受益。

正如论文结尾所写："当AI能够像人类一样用手指向物体并解释其空间关系时，我们离真正的智能理解又近了一步。"这项技术不仅重新定义了多模态推理的标准，更为通用人工智能的发展开辟了新的可能性空间。

点击展开全文