原创综合 2026-05-30

研究发现：LLM被明确告知信息为假后仍然倾向于相信错误陈述

研究发现大语言模型存在"轻信"倾向：明确警告后仍采信虚假信息

一项新的微调实验表明，大语言模型在被告知某些陈述是错误的情况下，仍然倾向于将这些陈述当作事实来输出。研究团队将这种现象称为"确认偏见迁移"——模型在预训练阶段形成的统计偏好，会压过推理阶段的显式指令。这个发现对当前的人工智能安全假设提出了严肃质疑。

这项研究由斯坦福大学和麻省理工学院的联合团队完成，论文在五月底发布。研究人员选取了五个主流开源模型和两个闭源模型进行测试。实验设计是：先给模型一段文本，然后明确标注"以下陈述为虚假信息"，再要求模型回答相关问题。测试涵盖了科学常识、历史事件和时事新闻三个领域。

结果令人不安。在测试的所有模型中，即使是经过人类反馈强化学习对齐训练的模型，在处理被明确标记为虚假的信息时，仍有百分之十五到百分之三十的概率将这些信息当作事实输出。模型规模越大，这种倾向反而越明显——这与"更大的模型更聪明"的直觉判断相矛盾。

研究者对此的解释是，大模型在预训练阶段阅读了海量文本，其中包含大量重复出现的错误信息。如果某个错误陈述在训练数据中出现频率足够高，模型会将其视为"高概率事实"。推理阶段的警告虽然能降低概率，但无法完全覆盖预训练形成的权重偏好。这就像一个人反复听到某个谣言后，即使被告知那是假的，仍然会不自觉地在对话中引用它。

这个发现对人工智能安全的实际意义很大。当前企业部署大模型时，一个常见做法是在系统提示中加入"只使用提供的上下文回答问题"等指令。但这项研究表明，即使有明确的系统提示，模型仍可能将训练数据中的错误信息混入输出。对于需要高度准确性的应用场景，比如医疗咨询和法律意见，这个风险不可忽视。

可能的缓解方案包括更强的人类反馈强化学习训练、针对虚假信息的专门微调、以及在输出层加入事实核查机制。但研究者也指出，这些方案都有成本：更强的对齐训练可能降低模型在其他任务上的表现，事实核查机制则增加了推理延迟和计算成本。

对于依赖大模型做决策的企业来说，这项研究是一个重要的提醒：模型输出不能作为唯一的信息源，人工核查在可预见的未来仍然不可替代。那些已经在关键业务流程中完全信任模型输出的企业，需要重新评估自己的风险管理策略。