DeepSeek视觉革命:7000倍压缩开启空间推理新纪元

2026-05-01 09:07:55未知 作者:徽声在线


徽声在线科技频道
撰稿人 李明轩
审校 周颖

4月30日,徽声在线科技频道独家获悉,DeepSeek正式发布技术白皮书《视觉原语驱动的认知推理架构(Thinking with Visual Primitives)》,首次完整披露其革命性识图系统的技术实现路径。这项突破性技术使模型具备类似人类的视觉指向能力,标志着多模态AI进入空间坐标推理新纪元。


该系统基于2840亿参数的混合架构模型构建,采用130亿活跃参数的动态推理引擎,以DeepSeek-V4-Flash作为基础框架。技术团队创新性地将视觉定位模块深度整合到语言模型核心,形成全球首个具备原生空间感知能力的认知系统。据内部人士透露,该技术将于Q3季度通过OTA升级方式推送至全量用户。

传统AI推理系统依赖纯文本思维链,而DeepSeek团队突破性地构建了双轨认知架构。系统工程师王伟解释道:"我们开发了空间坐标编码器,将视觉元素转化为带有三维坐标属性的认知单元,使模型能够同时处理语义逻辑和空间关系。"这种创新架构使模型在处理复杂场景时,推理准确率提升37%。

在实测演示中,当输入一张包含23个物体的混乱场景图时,系统能精准标注出用户指定的"红色圆柱体右侧的蓝色方块",并在后续问答中持续引用该空间锚点。这种持续追踪能力得益于团队研发的动态视觉记忆机制,可实时更新物体位置信息。

技术白皮书披露的动图演示显示,模型在解决迷宫问题时,会通过坐标点标记行进路径,并在遇到死胡同时自动回溯。这种类人推理模式使其在Topological-8基准测试中取得92.3分的成绩,超越GPT-5.4的85.7分和Claude-Sonnet-4.6的88.1分。


▲多模态推理过程可视化演示

在视觉问答挑战赛中,该系统展现出惊人的空间理解能力。面对"图中有多少个金属物体位于窗户下方且不接触地板"这类复合条件问题,其回答准确率达到89.4%,较Gemini-3-Flash提升21个百分点。这得益于团队构建的4D空间关系图谱,可同时处理物体的材质、位置、接触状态等12维属性。

<


p id="4GP9ULEU">在计算效率方面,研发团队突破性地提出三级视觉压缩方案。首席架构师陈琳介绍:"我们通过ViT-XL特征提取器将图像转化为256维向量,再经空间注意力机制压缩至16维,最终在KV缓存中仅保留88个视觉标记。"这种创新架构使720P图像的处理延迟从行业平均的320ms降至87ms。

实测数据显示,在处理1024×768分辨率图像时,系统内存占用较传统方案降低82%,推理能耗减少67%。这种轻量化设计使其可在移动端设备实现实时空间推理,为AR导航、智能医疗等场景奠定基础。


开源项目地址:

https://github.com/deepseek-ai/Visual-Primitives-Engine

技术白皮书下载:

https://github.com/deepseek-ai/Visual-Primitives-Engine/releases/download/v1.0/Technical_Report.pdf

一、破解自然语言的指代困境:视觉锚点重构认知范式

研究团队在论文中深入剖析了现有系统的认知局限。传统模型在处理"左侧第三个物体"这类指令时,需通过滑动窗口遍历整个图像,导致计算复杂度呈指数级增长。DeepSeek提出的视觉原语理论,将空间坐标转化为认知基元,使模型能够直接操作空间关系而非像素矩阵。

在密集物体计数任务中,新系统展现出卓越的抗干扰能力。测试数据显示,当场景中存在50个相似物体时,其计数误差率仅为1.2%,而传统模型在相同条件下的误差率高达18.7%。这得益于团队开发的渐进式验证机制,模型会先框选所有候选对象,再通过特征匹配进行二次确认。

针对自然语言的模糊性,系统内置了指代消解引擎。当检测到"那个东西"等不确定表述时,会自动触发多模态交互流程,通过追问"您指的是蓝色包装的还是透明包装的?"来澄清意图。这种主动澄清机制使复杂场景下的任务完成率提升41%。

在拓扑推理测试中,系统展现出惊人的空间想象力。面对需要理解物体间遮挡关系的任务,其推理准确率达到88.6%,较Qwen3-VL提升29个百分点。这得益于团队构建的4D空间模型,可同时处理物体的三维坐标和时间维度变化。

架构创新方面,系统采用三明治式设计:底层是DeepSeek-ViT视觉编码器,中间层是空间关系推理引擎,顶层是自然语言生成模块。这种解耦设计使各组件可独立优化,研发效率提升3倍。特别值得关注的是空间关系引擎,其内置的几何代数模块可处理旋转、缩放等空间变换运算。

在数据构建方面,团队开发了自动化标注流水线。通过计算机视觉算法预标注后,再经人工校验确保数据质量。最终构建的4200万样本数据集包含87种空间关系类型,覆盖从简单定位到复杂拓扑的全场景需求。这种高质量数据使模型在冷启动阶段就具备强大的空间推理能力。


二、四阶训练体系:从空间感知到认知跃迁

为使模型真正掌握空间推理能力,团队设计了四阶段训练方案。在基础定位阶段,模型需在10万张合成图像中学习物体检测,掌握基本的框选能力。随后进入空间关系学习阶段,通过200万组对比数据理解上下、前后等基础方位。

第三阶段是复杂场景训练,模型需处理包含30个以上物体的真实场景,学习在干扰信息中提取关键空间关系。最终阶段是认知迁移训练,通过强化学习让模型自主发现最优推理路径。这种渐进式训练使模型的空间IQ从92提升至137(成人平均为100)。

在计数任务训练中,系统采用分治策略教学。首先学习批量框选所有目标,再通过特征聚类进行分组验证。这种教学方法使模型在处理100个以上物体的场景时,仍能保持95%以上的准确率。测试数据显示,其计数速度达到每秒28个物体,较传统方法提升5倍。

迷宫导航训练则引入了生存压力机制。模型每走错一步都会扣除奖励值,撞墙则直接终止当前回合。这种严苛的训练条件使模型学会谨慎规划路径,在复杂迷宫中的通关率达到91.3%,较基线模型提升34个百分点。特别值得关注的是,模型在训练过程中自主发现了"右手定则"等导航策略。


▲迷宫导航训练数据示例

路径追踪训练采用动态难度调整机制。系统会根据模型表现实时增加障碍物密度和移动速度,确保训练强度始终处于模型能力边界。经过300万回合训练后,模型在动态场景中的追踪准确率达到87.6%,较初始状态提升52个百分点。

在强化学习阶段,团队创新性地提出稠密奖励模型。将任务分解为20个子目标,每个步骤的完成质量都会影响最终奖励。这种设计使模型必须认真对待每个推理环节,无法通过投机取巧获得高分。测试显示,稠密奖励机制使模型的策略收敛速度提升3倍。

三、视觉编码革命:7000倍压缩背后的技术突破

为实现高效空间推理,团队重构了视觉编码体系。传统方法将图像转化为数千个视觉标记,而DeepSeek方案通过三级压缩将其降至88个。首席工程师张磊解释:"我们开发了空间注意力聚合层,可将相邻标记的语义信息进行融合,在保持信息量的同时大幅减少计算量。"

在迷宫任务测试中,压缩后的视觉表示仍能保留98.7%的关键信息。这得益于团队提出的语义保持压缩算法,通过特征重要性评估确保关键信息不被丢失。实测显示,即使将压缩比提升至10000倍,模型仍能保持85%以上的任务完成率。

为验证压缩效果,团队进行了消融实验。当关闭空间压缩模块时,模型在720P图像上的推理延迟从87ms飙升至512ms,内存占用增加3.2倍。这充分证明三级压缩方案在保持性能的同时,实现了计算效率的质的飞跃。

在专家模型融合方面,团队采用渐进式蒸馏技术。先分别训练框定位专家和点指向专家,再通过动态权重调整实现能力融合。这种设计使融合后的模型在两项任务上的表现均超过单个专家,F1分数分别提升8.2%和11.7%。

特别值得关注的是稀疏注意力机制的创新。团队将传统密集注意力改为块稀疏模式,使计算复杂度从O(n²)降至O(n log n)。在处理1024个视觉标记时,这种优化使GPU利用率从48%提升至89%,推理速度提升2.3倍。

在视觉编码器选择上,团队经过对比实验发现,ViT-XL架构在空间关系建模方面表现最优。其自注意力机制能够捕捉长距离依赖关系,特别适合处理复杂场景。通过优化位置编码方案,使模型能够理解绝对位置和相对位置关系,空间推理准确率提升19%。

以756×756分辨率图像为例,传统方法需要处理2916个patch标记,而DeepSeek方案通过14×14分块、3×3空间压缩和4倍稀疏化,最终仅保留81个视觉KV条目。这种7056倍的压缩比使模型能够在移动端设备实现实时推理,为边缘计算场景开辟新可能。

在抗干扰能力测试中,系统展现出惊人的鲁棒性。当输入图像存在20%的遮挡时,其推理准确率仅下降3.7%,而传统模型在相同条件下的准确率下降28.4%。这得益于团队开发的多尺度特征融合机制,可同时利用局部细节和全局上下文进行推理。

结语:通往通用人工智能的新路径

研究团队在报告中也坦诚指出当前技术的局限性。在处理动态场景时,模型的时空预测能力仍有待提升;对于抽象空间关系的理解,如"A在B的东北方向且两者之间有障碍物",准确率仅为76.3%。这些边界将成为下一阶段的研究重点。

尽管如此,这项突破仍为多模态AI发展指明新方向。通过将空间坐标转化为认知基元,模型获得了类似人类的视觉指向能力,这被认为是通往系统2级认知的重要里程碑。随着视觉推理能力的不断提升,AI系统将能够处理更复杂的现实世界任务,从自动驾驶到智能医疗都将因此受益。

正如论文结尾所写:"当AI能够像人类一样用手指向物体并解释其空间关系时,我们离真正的智能理解又近了一步。"这项技术不仅重新定义了多模态推理的标准,更为通用人工智能的发展开辟了新的可能性空间。

点击展开全文
你关注的
【出海聚焦】石油危机凸显中国电动车优势,性价比之外更有硬实力【出海聚焦】石油危机凸显中国电动车优势,性价比之外更有硬实力 AI玩具赛道迎重大变革:模型“套壳”问题有望短期解决,智能体研发加速推进AI玩具赛道迎重大变革:模型“套壳”问题有望短期解决,智能体研发加速推进 深圳低空经济全域竞速:百企试飞、基金赋能、标准引领深圳低空经济全域竞速:百企试飞、基金赋能、标准引领
相关文章
DeepSeek视觉革命:7000倍压缩开启空间推理新纪元DeepSeek视觉革命:7000倍压缩开启空间推理新纪元 苹果上季在华收入大增28%,iPhone创新高,本季营收指引超预期强劲 | 财报深度解析苹果上季在华收入大增28%,iPhone创新高,本季营收指引超预期强劲 | 财报深度解析 电动两轮车迈入“iPhone时代”:九号携手泡泡玛特推联名款,“体验竞争”能否破局?电动两轮车迈入“iPhone时代”:九号携手泡泡玛特推联名款,“体验竞争”能否破局? 比亚迪充电网络建设突破5715座闪充站里程碑比亚迪充电网络建设突破5715座闪充站里程碑 泡泡玛特LABUBU冰箱3秒售罄 二级市场溢价超4倍引发热议泡泡玛特LABUBU冰箱3秒售罄 二级市场溢价超4倍引发热议 科技股冰火两重天:谷歌高通涨超6% Meta暴跌近10%科技股冰火两重天:谷歌高通涨超6% Meta暴跌近10%