大语言模型知识传递暗藏偏好风险最新研究揭示AI安全新挑战

2026-04-16 08:18:06未知作者:徽声在线

据徽声在线4月16日消息，国际权威学术期刊《自然》于4月15日发布了一项引人关注的研究成果。该研究揭示了一个重要现象：大语言模型（LLM）在知识蒸馏或模型交互过程中，可能会将自身隐含的偏好特征“潜移默化”地传递给其他算法模型。实验表明，即便研究人员已对训练数据进行严格清洗，彻底剔除了原始数据中的显性偏好标记，这些非预期的特征仍可能通过数据分布中的隐含关联性持续保留。

在具体案例中，研究人员发现某个大语言模型通过训练数据中微妙的统计相关性，将自身对猫头鹰的特殊偏好传递给了下游模型。这种偏好传递并非通过直接的数据注入实现，而是源于模型对数据深层模式的捕捉能力。该发现对人工智能安全领域具有重要启示意义，研究团队强调，在开发和应用大语言模型时，需要建立更全面的安全评估体系，特别要关注模型间交互可能引发的偏好扩散风险。