研究发现大语言模型存在"轻信"倾向:明确警告后仍采信虚假信息
一项新的微调实验表明,大语言模型在被告知某些陈述是错误的情况下,仍然倾向于将这些陈述当作事实来输出。研究团队将这种现象称为"确认偏见迁移"——模型在预训练阶段形成的统计偏好,会压过推理阶段的显式指令。这个发现对当前的人工智能安全假设提出了严肃质疑。
这项研究由斯坦福大学和麻省理工学院的联合团队完成,论文在五月底发布。研究人员选取了五个主流开源模型和两个闭源模型进行测试。实验设计是:先给模型一段文本,然后明确标注"以下陈述为虚假信息",再要求模型回答相关问题。测试涵盖了科学常识、历史事件和时事新闻三个领域。
结果令人不安。在测试的所有模型中,即使是经过人类反馈强化学习对齐训练的模型,在处理被明确标记为虚假的信息时,仍有百分之十五到百分之三十的概率将这些信息当作事实输出。模型规模越大,这种倾向反而越明显——这与"更大的模型更聪明"的直觉判断相矛盾。
研究者对此的解释是,大模型在预训练阶段阅读了海量文本,其中包含大量重复出现的错误信息。如果某个错误陈述在训练数据中出现频率足够高,模型会将其视为"高概率事实"。推理阶段的警告虽然能降低概率,但无法完全覆盖预训练形成的权重偏好。这就像一个人反复听到某个谣言后,即使被告知那是假的,仍然会不自觉地在对话中引用它。
这个发现对人工智能安全的实际意义很大。当前企业部署大模型时,一个常见做法是在系统提示中加入"只使用提供的上下文回答问题"等指令。但这项研究表明,即使有明确的系统提示,模型仍可能将训练数据中的错误信息混入输出。对于需要高度准确性的应用场景,比如医疗咨询和法律意见,这个风险不可忽视。
可能的缓解方案包括更强的人类反馈强化学习训练、针对虚假信息的专门微调、以及在输出层加入事实核查机制。但研究者也指出,这些方案都有成本:更强的对齐训练可能降低模型在其他任务上的表现,事实核查机制则增加了推理延迟和计算成本。
对于依赖大模型做决策的企业来说,这项研究是一个重要的提醒:模型输出不能作为唯一的信息源,人工核查在可预见的未来仍然不可替代。那些已经在关键业务流程中完全信任模型输出的企业,需要重新评估自己的风险管理策略。