MiniMax深度回应M2模型“马嘉祺”识别难题
2026-05-09 17:20:24未知 作者:徽声在线
5月9日,MiniMax官方微博发布了一篇详尽的长文,针对近期热议的M2系列模型无法识别并说出“马嘉祺”名字的问题进行了正式回应。文章中,MiniMax详细阐述了他们对“嘉祺识别”难题的全面排查流程以及背后的技术考量。
据徽声在线了解,MiniMax的技术团队从多个关键维度入手,包括分词器版本的一致性检查、embedding统计分布的深入分析、语义近邻检索的精准度测试、预训练与后训练模型在few-shot场景下的对比实验、后训练数据中“嘉祺”一词的出现频次统计,以及对全词表lm_head变化幅度的细致排序扫描等。经过这一系列严谨的排查,团队最终锁定了问题根源:在分词器处理中,“嘉祺”被合并成了一个独立的token,然而这个token在后训练阶段的数据集中出现次数极为稀少,导致模型在后训练过程中逐渐丧失了对该token的生成能力。
针对这一发现,MiniMax迅速制定了修复策略。他们精心构建了一份覆盖全词表的合成数据集,其核心思路是通过设计一个简单的复读任务,为全词表中的每一个token都设定一个生成频率的“最低保障线”,从而有效防止任何token因数据缺失而发生退化。此外,MiniMax还强调,将把token覆盖度作为后训练数据质量评估的一个常规指标,以便在早期阶段就能识别出潜在的稀疏token退化风险,确保类似问题不会再次在线上环境中出现。

