“Token”范式或将终结？AI新路径探索

2026-05-26 11:33:28未知作者:徽声在线

文章转载自徽声在线

作者：晓静

“我语言的边界，即是我认知的边界。”（Die Grenzen meiner Sprache bedeuten die Grenzen meiner Welt.）

哲学家维特根斯坦在1921年写下这句名言时，他探讨的是人类认知的局限性。百年后的今天，这句话精准地揭示了大语言模型所面临的结构性挑战：如果AI的“语言”仅限于离散的token序列，那么它的“认知世界”将永远被限制在token所能表达的范围内。

这不禁引发了一个长期争议的问题：大语言模型范式能否引领我们走向AGI（通用人工智能）？

2024年12月，OpenAI前首席科学家Ilya Sutskever在NeurIPS大会上发表主题演讲，他预言“预训练时代即将落幕”。到了2026年3月，图灵奖得主Yann LeCun离开Meta，创立了AMI Labs，并断言“大语言模型路线是错误的”。

这两位深度学习领域的泰斗，一位选择颠覆自己亲手开启的预训练时代，另一位则坚持世界模型路线，探索“LLM的下一个时代”。

当然，这并不意味着当前的模型不实用或缺乏商业价值。实际上，大模型的用户数量和渗透率都在持续增长，产业价值日益凸显。然而，从技术路径的角度来看，他们想要表达的是：这条路存在一个结构性的天花板，而这个天花板恰好挡在了通往AGI的道路上。

2026年5月，MIT的何恺明团队和字节跳动的Seed实验室几乎同时发表了论文，给出了一个更为明确的信号：语言生成的核心建模过程不必始终局限于离散token空间，也可以转移到连续embedding或latent空间中完成，最后再映射回文本。

这是来自工程实验的首批硬证据，表明逐token预测可能是通向AGI路上的一个局部最优解。而连续空间范式则开辟了另一条可能天花板更高的道路。

图：美国国家人工智能科学院院士，麻省理工学院电气工程与计算机科学系副教授何恺明，图片由AI生成

天花板究竟在哪里？

我们可以从维特根斯坦的角度来理解这个问题。

人类的离散语言并非思维的原生格式。大脑内部的认知活动是连续的、并行的、高维的。例如，当我们想到一个苹果时，激活的并非“苹果”这两个字的token，而是一大片感觉皮层的连续活动模式，包括颜色、质感、重量以及咬下去的声音。人类之所以将这团连续体验压缩成“苹果”这个离散符号，纯粹是因为大脑的带宽限制迫使我们进行序列化处理。

人类语言是进化设计的一种有损压缩协议，它是跨脑传输的工程妥协。

目前，我们使用的主流商业化大模型产品，其底层架构都是自回归的（即预测下一个token）。

自回归大模型所做的，是在这种压缩协议的输出格式上进行建模。它无法真正理解“世界如何运作”，而只能了解“人类选择用什么符号序列来描述世界”。这些模型极其擅长模拟人类的语言行为，但模拟语言行为与理解世界之间，存在着一条认识论的鸿沟。

例如，身体感受如疼痛是怎样的；空间直觉如知道如何接住球但无法描述如何接住的；因果干预的具身反馈如“如果我把这个椅子推倒会怎样”的直觉。这些隐藏在人类大脑中的“感觉”，从未被任何人类语言编码过。因此，它们从未进入训练数据，在token序列上做任何建模，无论参数多大、数据多多，都无法触及这些维度。

这就是token范式的天花板所在。

“逃逸”token空间的实验

从token空间逃逸的首批实验正在悄然进行。

何恺明团队的ELF（Embedded Language Flows，嵌入式语言流）做了一件反直觉的事情：它将文字生成的全过程保留在连续向量空间中完成，只在最后一步，真的只有最后一步，才将连续向量投影回人类可读的文字。它利用Flow Matching（一种2022年由Yaron Lipman等人提出的连续正则化流框架）从噪声出发，沿着学习到的速度场平滑演化到目标嵌入。仅需32个采样步，其生成质量就超过了离散模型用1024步的结果。而且，其训练数据仅约450亿token，只有主流方法的十分之一。

图：ELF仅用32步采样即超越MDLM、Duo等离散模型1024步的生成质量，且未使用蒸馏加速。模型参数105M，训练数据约为同类方法的十分之一。

四天后发布的Cola DLM（字节Seed团队）：它先用Text VAE将语言压缩成更深层的语义潜空间，再在这个纯语义空间里用Flow Matching建模全局先验，最后才解码回文字。论文明确指出：扩散过程做的是“潜在先验运输”，而非“token级别的观测恢复”。该模型拥有20亿参数，在8个基准测试中，与同体量自回归模型和已经扩展到1000亿参数的LLaDA2.0进行严格对比，连续路线的扩展曲线表现健康。

图：Cola DLM整体架构图

这两篇论文的核心都在于表达：token并非语言建模的必要条件。连续空间可以做得更好、更快、更节省资源。

图：自回归模型逐token生成，每一步不可逆地选择一个离散符号，已选token锁定后续所有可能性。

图：连续流模型从噪声出发，沿速度场平滑演化到目标嵌入，全程可逆可调，仅在终点映射回文字，ELF论文。

AI巨头也在质疑“Tokenization”吗？

这两篇论文只是学术界的信号，而科技巨头们则正在用真金白银进行下注。

Google是最早且最坚定地走向“原生多模态统一”的巨头。Gemini的技术报告明确指出：它是“from the ground up”训练的多模态模型，“并非通过将冻结的视觉编码器接到文本解码器上”（not by bolting a frozen vision encoder onto a text decoder）。

文本、图像、音频、视频在同一个模型里交错训练，共享注意力层。这一设计哲学从2023年12月的Gemini 1.0延续到了2026年的3.1 Pro。2026年3月发布的Gemini Embedding 2更是将这件事推到了表征层面：一个embedding模型，原生接受文本、图像、文档、音频、视频输入，全部映射到同一个3072维向量空间。

Google所做的，本质上就是为所有模态建造一个统一的连续坐标系，在这个坐标系里，模态之间的边界不复存在。

OpenAI则走了一条更为曲折的道路。GPT-4V时代的架构是拼接式的，由一个视觉编码器外挂到语言模型上，跨模态信息需要经过额外的投影层传递。GPT-5系列公开强化了多模态推理能力，但OpenAI并未披露足够详细的架构信息。可以确定的是，OpenAI正在将文本、视觉、视频等能力更深地整合进核心模型体验；不能确定的是，它是否已经完成了统一Transformer层面的架构切换。

据外媒报道，Sora在运营期间被员工视为拖累核心算力的“吞金兽”。因此，OpenAI选择砍掉视频应用，将算力集中到GPT-5.5的Agent架构和Codex代码工具上。这也可以推测出：OpenAI认同多模态统一的方向，但在视频生成这个具体维度上暂时退场，等待更高效的架构方案成熟后重新进入。

字节跳动的Seed团队在Cola DLM论文的最后一句话中指出：“为离散文本与连续模态的统一建模指出了一条具体路径”。Seed团队透露，其视频生成模型Seedance系列已经在使用类似的连续潜空间架构，其独特优势在于：它同时拥有抖音/TikTok级别的海量视频数据和前沿模型研究能力。如果连续统一空间确实是下一代架构的答案，那么字节跳动将是最有条件最先在工业规模上验证它的公司。

Anthropic的选择在所有巨头中最为独特，它刻意回避了多模态生成。截至2026年5月，Claude没有原生图像生成能力，没有视频理解能力，也没有音频处理能力。2026年4月发布的Claude Design生成的是结构化设计产出物，如原型图、线框图、幻灯片等，而非像素级图像。

Anthropic将几乎所有资源都投入到了文本推理和代码执行上。这一策略在商业上正在得到验证：Claude Code的年化收入达到了25亿美元，2026年5月Anthropic的隐含估值冲到了1.2万亿美元（据36氪报道），这主要得益于企业客户为推理和代码能力付费。然而，从范式演进的角度来看，这是一个在积累技术债的选择。如果两到三年后竞争的核心转向“谁能在统一连续空间里同时理解和生成所有模态”，那么Anthropic将处于被动地位。

在巨头之外，两个最值得关注的独立押注来自Ilya Sutskever和Yann LeCun。Sutskever创办的SSI（Safe Superintelligence）在2025年5月完成了20亿美元的融资，估值达到了320亿美元——尽管没有产品、没有论文、没有任何公开技术细节。投资人看中的纯粹是他对“下一个范式”的判断力。他在NeurIPS 2024上所说的“预训练即将终结”，指的是靠堆数据预测next token的方式已经到了收益递减的阶段，下一步需要的是质变。

LeCun在2026年3月离开了工作超过十年的Meta，创办了AMI Labs，并融资10.3亿美元，估值35亿。他的JEPA路线与ELF/Cola DLM在哲学上相通，都是离开token空间、在连续表征空间进行建模，但方向不同。JEPA不追求生成逼真的输出，而是强调在抽象空间里预测事物演化的物理后果。

LeCun在5月的访谈中表示：“自回归机制逐个预测token，本质上是在字符级别做统计复现，而非建模世界的因果规律。参数量的增加无法解决这个结构性缺陷。”他认为，生成只是模拟，而预测才是理解。

如果token范式衰退，谁将失去未来？

做视频tokenizer的公司将首当其冲。VQ-VAE、MAGVIT、OmniTokenizer等工作的核心价值主张是“高质量视频离散编码”。英伟达的Cosmos Tokenizer、微软的VidTok等大厂也在竞争这一领域。然而，如果语言生成都开始将核心计算迁移到连续空间，那么视频这类天然连续的数据，更没有理由被默认压成离散token序列。

真正的问题将变成：什么样的视觉表征既能高效压缩，又能保留足够的物理、时序和语义结构。

然后是“多模态”这个产品叙事本身。当所有模态共享一个连续空间时，“多模态能力”将成为默认配置，而不再是差异化卖点。就像今天没人把“支持中文和英文”当成一个AI产品的核心竞争力一样。做模态桥接和对齐的中间层产品也将面临同样的问题——如果基础模型原生在统一空间运行，文本和视觉之间不存在需要被弥补的“鸿沟”，那么弥补鸿沟的生意就没有理由存在。

再往下游推一步，今天整个行业按token收费，是因为自回归模型的成本结构极其透明，输入输出的token数可以直接算出算力消耗。

但如果核心计算迁移到连续空间，扩散模型可能用固定步数生成任意长度文本，输出长度与计算量脱钩，“消耗了多少token”就不再是成本的真实度量。

只是，AI的发展速度太快，衡量AI商业价值的真正定价体系还未固定下来，下一个范式可能就会发生。而具体会多快，没有人能够准确预测。

大语言模型能走到AGI吗？

回到开头的问题，大语言模型范式能走到AGI吗？

从token范式本身的结构来看，不能。它的训练信号存在信息论上的硬上限。人类语言作为有损压缩协议，在编码时就不可逆地丢弃了世界的大量结构。在压缩产物上做任何建模，都无法还原被丢弃的维度。

但“杀死tokenization”也不等于到达AGI。ELF和Cola DLM证明了连续空间更高效、更优雅，但它们的训练数据仍然来自人类产出的内容，一个有损压缩后的世界。LeCun看到了这一层，所以他押注“能预测物理后果的世界模型”。Sutskever大概也看到了这一点。

但这也许只是第一步。如果模型不再受困于人类语言的压缩格式时，它需要的新训练信号从哪里来？

答案大概不在更多的数据里，而在某种主动探索中——在世界中行动，承受后果，从反馈中学习。这也是现在备受关注的RSI，即AI的递归自我改进（Recursive Self-Improvement）。这也将是我们在后续文章中继续探讨的主题。

点个“爱心”，再走吧

点击展开全文