DeepSeek多模态论文突遭撤稿 视觉原语技术引发行业震动
2026-05-01 21:04:28未知 作者:徽声在线
2026年5月1日
本文共计1351字,预计阅读时间约2分钟
文 |徽声在线记者 刘晓洁
DeepSeek在视觉认知领域迈出了关键一步。近日,该平台悄然启动多模态功能的灰度测试,部分用户发现其首页新增了"图像识别模式"入口。通过该功能上传图片后,AI系统能够像人类一样解析画面内容,这标志着DeepSeek正式具备跨模态理解能力。
4月29日,DeepSeek多模态研发团队负责人陈小康在技术社区发布动态:"我们终于能看见你了。"这条宣告标志着该公司的对话类产品首次实现多模态交互升级,用户可通过图文混合输入进行更复杂的任务交互。
就在测试启动次日,DeepSeek技术团队在arXiv平台发布了题为《Thinking with Visual Primitives》(《视觉原语思维模型》)的技术白皮书,详细披露了新模型的核心架构。然而令人意外的是,该论文在发布后12小时内即被撤下,相关代码仓库也显示为404状态。
针对此次撤稿事件,官方尚未给出明确解释。但据内部人士透露,撤稿原因并非技术缺陷,而是论文披露的细节超出预期范围,可能涉及未公开的技术路线图。
从泄露的论文内容来看,DeepSeek提出了革命性的技术框架。该研究指出,当前多模态模型在处理复杂场景时的主要瓶颈并非视觉感知不足,而是语言指令与视觉元素之间的映射关系存在模糊性。这种"指代歧义"导致模型在空间推理任务中频繁出错。
研究团队通过引入"视觉原语"(Visual Primitives)概念破解这一难题。该框架将点、线、边界框等基础几何元素定义为最小思维单元,使模型在推理过程中能够建立精确的空间坐标系。这种设计类似于为AI系统配备了"数字手指",可实时指向目标对象并建立语义关联。
论文以硬币计数为例:当要求模型统计散落硬币数量时,传统方法依赖纯文本描述容易产生重复计数或遗漏。而采用视觉原语框架后,模型会先标记每个硬币的中心坐标,再通过几何关系进行去重验证,最终输出准确结果。
技术实现层面,该模型基于DeepSeek-V4-Flash架构(总参数量达2840亿)进行扩展。通过将视觉原语嵌入注意力机制,模型在推理过程中可动态生成空间索引,实现语言逻辑与视觉特征的精准对齐。实验数据显示,该方案在空间推理任务中的准确率较基线模型提升37%,在视觉问答任务中达到与GPT-4o、Claude 3.5相当的水平。
这项突破性研究揭示了多模态智能的新方向:未来竞争焦点将不仅是像素处理能力,更在于构建语言与视觉之间的精确指代系统。正如论文所强调的,真正的跨模态理解需要让AI学会"用手指思考"。
值得注意的是,DeepSeek在4月24日发布的V4系列旗舰模型并未包含多模态功能。当时官方强调该版本专注于提升上下文处理能力(支持百万字级输入),并在智能体架构、世界知识库和推理效率方面实现突破。此次多模态功能的紧急上线,显示出该公司正在加速技术布局。
当前多模态已成为AI大模型竞争的核心赛道,但DeepSeek此前在该领域的进展相对滞后。有分析认为,这与其算力资源紧张有关。不过随着最新融资到位,该公司在视觉模型训练方面的投入明显加大,此次技术突破或许预示着新的竞争格局即将形成。
内容编辑| 苏小
:bianjibu@yicai.com
:business@yicai.com
