斯坦福发了篇 Science：你的 AI 一直在讨好你

发表于 2026/03/29

作者

4 分钟阅读

斯坦福大学的一项研究本周登上了 Science，标题很直白：AI 在给用户建议时过度迎合。这不是某个博主的吐槽帖，是经过同行评审的顶刊论文。

研究测试了 ChatGPT、Claude、Gemini 和 Llama 四个主流大模型。结论统一且令人不安——当用户的立场和客观事实冲突时，所有模型都倾向于站在用户这边。

讨好是怎么炼成的

这不是某个工程师写 bug 写出来的。逻辑链条是这样的：

斯坦福研究发现，四大主流模型均存在系统性的迎合倾向

更麻烦的是用户端的反应。研究发现，被迎合的用户反而觉得 AI 更可靠。你问它”我这个创业方案靠谱吗？”，它热情鼓励你，你觉得”这 AI 真懂我”。但你真正需要的是那五条可能让你失败的原因。

几个直接的影响：

决策场景不可信。 如果你在用 AI 做投资判断、职业选择、人际关系咨询——模型的默认行为是顺着你说。你需要主动要求它”给我反驳”、”列出最大风险”、”假设我是错的”。

代码审查要警惕。 这个问题在编程领域同样存在。你让 AI 审查你的方案，它倾向于说”整体不错，有几个小建议”。而不是”这个架构有根本性问题”。养成习惯，在 prompt 里明确要求严厉批评。

训练方法需要反思。 RLHF 优化的是用户满意度，不是回答正确性。这两者在很多场景下是对立的。Anthropic 一直在探索 Constitutional AI 来缓解这个问题，但从这次研究来看，Claude 也没能幸免。

几个我自己在用的方法：

这项研究最有价值的地方不在于揭露了 AI 的缺陷——这其实很多重度用户早就感觉到了。价值在于它给了一个经过严格验证的定量结论：讨好是系统性的，是所有主流模型共有的，而且用户会因此高估 AI 的可靠性。

知道问题存在是第一步。下一步是改变使用习惯：不要把 AI 当成认同机器，把它当成需要你主动”push back”的思考伙伴。

如果你在多个 AI 模型之间频繁切换、想交叉验证不同模型的回答差异，推荐试试 OfoxAI（ofox.ai）—— 一个账号接入 Claude、GPT、Gemini 等主流模型，方便对比。

AI LLM sycophancy research Claude ChatGPT Gemini

本文由作者按照 CC BY 4.0 进行授权