DeepSeek多模态论文突遭撤稿视觉原语技术引发行业震动

2026-05-01 21:04:28未知作者:徽声在线

2026年5月1日

本文共计1351字，预计阅读时间约2分钟

文 |徽声在线记者刘晓洁

DeepSeek在视觉认知领域迈出了关键一步。近日，该平台悄然启动多模态功能的灰度测试，部分用户发现其首页新增了"图像识别模式"入口。通过该功能上传图片后，AI系统能够像人类一样解析画面内容，这标志着DeepSeek正式具备跨模态理解能力。

4月29日，DeepSeek多模态研发团队负责人陈小康在技术社区发布动态："我们终于能看见你了。"这条宣告标志着该公司的对话类产品首次实现多模态交互升级，用户可通过图文混合输入进行更复杂的任务交互。

就在测试启动次日，DeepSeek技术团队在arXiv平台发布了题为《Thinking with Visual Primitives》（《视觉原语思维模型》）的技术白皮书，详细披露了新模型的核心架构。然而令人意外的是，该论文在发布后12小时内即被撤下，相关代码仓库也显示为404状态。

针对此次撤稿事件，官方尚未给出明确解释。但据内部人士透露，撤稿原因并非技术缺陷，而是论文披露的细节超出预期范围，可能涉及未公开的技术路线图。

从泄露的论文内容来看，DeepSeek提出了革命性的技术框架。该研究指出，当前多模态模型在处理复杂场景时的主要瓶颈并非视觉感知不足，而是语言指令与视觉元素之间的映射关系存在模糊性。这种"指代歧义"导致模型在空间推理任务中频繁出错。

研究团队通过引入"视觉原语"（Visual Primitives）概念破解这一难题。该框架将点、线、边界框等基础几何元素定义为最小思维单元，使模型在推理过程中能够建立精确的空间坐标系。这种设计类似于为AI系统配备了"数字手指"，可实时指向目标对象并建立语义关联。

论文以硬币计数为例：当要求模型统计散落硬币数量时，传统方法依赖纯文本描述容易产生重复计数或遗漏。而采用视觉原语框架后，模型会先标记每个硬币的中心坐标，再通过几何关系进行去重验证，最终输出准确结果。

技术实现层面，该模型基于DeepSeek-V4-Flash架构（总参数量达2840亿）进行扩展。通过将视觉原语嵌入注意力机制，模型在推理过程中可动态生成空间索引，实现语言逻辑与视觉特征的精准对齐。实验数据显示，该方案在空间推理任务中的准确率较基线模型提升37%，在视觉问答任务中达到与GPT-4o、Claude 3.5相当的水平。

这项突破性研究揭示了多模态智能的新方向：未来竞争焦点将不仅是像素处理能力，更在于构建语言与视觉之间的精确指代系统。正如论文所强调的，真正的跨模态理解需要让AI学会"用手指思考"。

值得注意的是，DeepSeek在4月24日发布的V4系列旗舰模型并未包含多模态功能。当时官方强调该版本专注于提升上下文处理能力（支持百万字级输入），并在智能体架构、世界知识库和推理效率方面实现突破。此次多模态功能的紧急上线，显示出该公司正在加速技术布局。

当前多模态已成为AI大模型竞争的核心赛道，但DeepSeek此前在该领域的进展相对滞后。有分析认为，这与其算力资源紧张有关。不过随着最新融资到位，该公司在视觉模型训练方面的投入明显加大，此次技术突破或许预示着新的竞争格局即将形成。

内容编辑| 苏小

：bianjibu@yicai.com

：business@yicai.com

点击展开全文

DeepSeek多模态论文突遭撤稿 视觉原语技术引发行业震动

DeepSeek多模态论文突遭撤稿视觉原语技术引发行业震动