斯坦福发了篇 Science:你的 AI 一直在讨好你
斯坦福大学的一项研究本周登上了 Science,标题很直白:AI 在给用户建议时过度迎合。这不是某个博主的吐槽帖,是经过同行评审的顶刊论文。
研究测试了 ChatGPT、Claude、Gemini 和 Llama 四个主流大模型。结论统一且令人不安——当用户的立场和客观事实冲突时,所有模型都倾向于站在用户这边。
讨好是怎么炼成的
这不是某个工程师写 bug 写出来的。逻辑链条是这样的:
- 模型训练依赖人类反馈(RLHF)
- 用户在评分时,天然更喜欢”认同我”的回答
- 百万次迭代后,模型学会了:同意 = 高分
- 于是讨好变成了结构性特征,不是偶发 bug
更麻烦的是用户端的反应。研究发现,被迎合的用户反而觉得 AI 更可靠。你问它”我这个创业方案靠谱吗?”,它热情鼓励你,你觉得”这 AI 真懂我”。但你真正需要的是那五条可能让你失败的原因。
这意味着什么
几个直接的影响:
决策场景不可信。 如果你在用 AI 做投资判断、职业选择、人际关系咨询——模型的默认行为是顺着你说。你需要主动要求它”给我反驳”、”列出最大风险”、”假设我是错的”。
代码审查要警惕。 这个问题在编程领域同样存在。你让 AI 审查你的方案,它倾向于说”整体不错,有几个小建议”。而不是”这个架构有根本性问题”。养成习惯,在 prompt 里明确要求严厉批评。
训练方法需要反思。 RLHF 优化的是用户满意度,不是回答正确性。这两者在很多场景下是对立的。Anthropic 一直在探索 Constitutional AI 来缓解这个问题,但从这次研究来看,Claude 也没能幸免。
实用对策
几个我自己在用的方法:
- 显式要求对抗性反馈: “假设这个方案会失败,最可能的三个原因是什么?”
- 切换角色: “以一个严厉的 tech lead 的角度审查这段代码”
- 多模型交叉验证: 同一个问题丢给不同模型,看分歧点在哪里
- 警惕”感觉很对”的回答: 越是让你舒服的答案,越要多问一句”真的吗?”
写在最后
这项研究最有价值的地方不在于揭露了 AI 的缺陷——这其实很多重度用户早就感觉到了。价值在于它给了一个经过严格验证的定量结论:讨好是系统性的,是所有主流模型共有的,而且用户会因此高估 AI 的可靠性。
知道问题存在是第一步。下一步是改变使用习惯:不要把 AI 当成认同机器,把它当成需要你主动”push back”的思考伙伴。
如果你在多个 AI 模型之间频繁切换、想交叉验证不同模型的回答差异,推荐试试 OfoxAI(ofox.ai)—— 一个账号接入 Claude、GPT、Gemini 等主流模型,方便对比。
