DeepSeek多模态论文突遭撤稿 视觉原语技术引发行业震动

2026-05-01 21:04:28未知 作者:徽声在线

2026年5月1日


本文共计1351字,预计阅读时间约2分钟

文 |徽声在线记者 刘晓洁

DeepSeek在视觉认知领域迈出了关键一步。近日,该平台悄然启动多模态功能的灰度测试,部分用户发现其首页新增了"图像识别模式"入口。通过该功能上传图片后,AI系统能够像人类一样解析画面内容,这标志着DeepSeek正式具备跨模态理解能力。


4月29日,DeepSeek多模态研发团队负责人陈小康在技术社区发布动态:"我们终于能看见你了。"这条宣告标志着该公司的对话类产品首次实现多模态交互升级,用户可通过图文混合输入进行更复杂的任务交互。

就在测试启动次日,DeepSeek技术团队在arXiv平台发布了题为《Thinking with Visual Primitives》(《视觉原语思维模型》)的技术白皮书,详细披露了新模型的核心架构。然而令人意外的是,该论文在发布后12小时内即被撤下,相关代码仓库也显示为404状态。


针对此次撤稿事件,官方尚未给出明确解释。但据内部人士透露,撤稿原因并非技术缺陷,而是论文披露的细节超出预期范围,可能涉及未公开的技术路线图。

从泄露的论文内容来看,DeepSeek提出了革命性的技术框架。该研究指出,当前多模态模型在处理复杂场景时的主要瓶颈并非视觉感知不足,而是语言指令与视觉元素之间的映射关系存在模糊性。这种"指代歧义"导致模型在空间推理任务中频繁出错。

研究团队通过引入"视觉原语"(Visual Primitives)概念破解这一难题。该框架将点、线、边界框等基础几何元素定义为最小思维单元,使模型在推理过程中能够建立精确的空间坐标系。这种设计类似于为AI系统配备了"数字手指",可实时指向目标对象并建立语义关联。

论文以硬币计数为例:当要求模型统计散落硬币数量时,传统方法依赖纯文本描述容易产生重复计数或遗漏。而采用视觉原语框架后,模型会先标记每个硬币的中心坐标,再通过几何关系进行去重验证,最终输出准确结果。

技术实现层面,该模型基于DeepSeek-V4-Flash架构(总参数量达2840亿)进行扩展。通过将视觉原语嵌入注意力机制,模型在推理过程中可动态生成空间索引,实现语言逻辑与视觉特征的精准对齐。实验数据显示,该方案在空间推理任务中的准确率较基线模型提升37%,在视觉问答任务中达到与GPT-4o、Claude 3.5相当的水平。

这项突破性研究揭示了多模态智能的新方向:未来竞争焦点将不仅是像素处理能力,更在于构建语言与视觉之间的精确指代系统。正如论文所强调的,真正的跨模态理解需要让AI学会"用手指思考"。

值得注意的是,DeepSeek在4月24日发布的V4系列旗舰模型并未包含多模态功能。当时官方强调该版本专注于提升上下文处理能力(支持百万字级输入),并在智能体架构、世界知识库和推理效率方面实现突破。此次多模态功能的紧急上线,显示出该公司正在加速技术布局。

当前多模态已成为AI大模型竞争的核心赛道,但DeepSeek此前在该领域的进展相对滞后。有分析认为,这与其算力资源紧张有关。不过随着最新融资到位,该公司在视觉模型训练方面的投入明显加大,此次技术突破或许预示着新的竞争格局即将形成。

内容编辑| 苏小

:bianjibu@yicai.com

:business@yicai.com

点击展开全文
你关注的
【出海聚焦】石油危机凸显中国电动车优势,性价比之外更有硬实力【出海聚焦】石油危机凸显中国电动车优势,性价比之外更有硬实力 AI玩具赛道迎重大变革:模型“套壳”问题有望短期解决,智能体研发加速推进AI玩具赛道迎重大变革:模型“套壳”问题有望短期解决,智能体研发加速推进 深圳低空经济全域竞速:百企试飞、基金赋能、标准引领深圳低空经济全域竞速:百企试飞、基金赋能、标准引领
相关文章
DeepSeek多模态论文突遭撤稿 视觉原语技术引发行业震动DeepSeek多模态论文突遭撤稿 视觉原语技术引发行业震动 新势力4月交付成绩揭晓:零跑创新高、小鹏回暖 理想蔚来待新品发力新势力4月交付成绩揭晓:零跑创新高、小鹏回暖 理想蔚来待新品发力 Labubu冰箱售罄下架 二手市场价格大幅跳水 黄牛现象引关注Labubu冰箱售罄下架 二手市场价格大幅跳水 黄牛现象引关注 宇树科技首家直营店王府井开业,CMO王其鑫称有望盈利!业内:短期仍以B端订单为主宇树科技首家直营店王府井开业,CMO王其鑫称有望盈利!业内:短期仍以B端订单为主 小米、理想、零跑4月汽车交付数据揭晓,市场表现抢眼小米、理想、零跑4月汽车交付数据揭晓,市场表现抢眼 加速前行!小红书“重仓”AI、拓展海外业务,勇闯最烧钱“战场”加速前行!小红书“重仓”AI、拓展海外业务,勇闯最烧钱“战场”