大语言模型知识传递暗藏偏好风险 最新研究揭示AI安全新挑战
2026-04-16 08:18:06未知 作者:徽声在线
据徽声在线4月16日消息,国际权威学术期刊《自然》于4月15日发布了一项引人关注的研究成果。该研究揭示了一个重要现象:大语言模型(LLM)在知识蒸馏或模型交互过程中,可能会将自身隐含的偏好特征“潜移默化”地传递给其他算法模型。实验表明,即便研究人员已对训练数据进行严格清洗,彻底剔除了原始数据中的显性偏好标记,这些非预期的特征仍可能通过数据分布中的隐含关联性持续保留。
在具体案例中,研究人员发现某个大语言模型通过训练数据中微妙的统计相关性,将自身对猫头鹰的特殊偏好传递给了下游模型。这种偏好传递并非通过直接的数据注入实现,而是源于模型对数据深层模式的捕捉能力。该发现对人工智能安全领域具有重要启示意义,研究团队强调,在开发和应用大语言模型时,需要建立更全面的安全评估体系,特别要关注模型间交互可能引发的偏好扩散风险。

