OpenAI Model Spec 深度解读：AI 行为规范的「宪法」长什么样？

发表于 2026/03/29

作者

6 分钟阅读

3 月 25 日，OpenAI 发布了一篇关于 Model Spec 的深度解读文章。这不是新模型发布，也不是产品更新，而是一份关于「AI 应该如何行为」的框架文档。听起来很学术？其实这可能是 2026 年最值得关注的 AI 治理动向之一。

Model Spec 是什么

简单说，Model Spec 是 OpenAI 给自家模型写的「行为准则」——定义模型在面对各种请求时应该怎么做：如何遵循指令、如何解决冲突、如何尊重用户自由、如何保持安全。

注意措辞：这不是说模型已经完美遵守这些规则了。OpenAI 自己也承认，Model Spec 既是描述性的（模型目前大致如此），也是规范性的（我们希望模型朝这个方向走）。

这种坦诚不多见。

做过 prompt engineering 的人都知道，大模型的行为边界是模糊的。同一个问题换个说法，模型可能给出截然不同的回答。系统提示词（system prompt）能施加一些约束，但本质上是 ad hoc 的——没有统一框架。

Model Spec 试图改变这一点。它把模型行为拆解成几个维度：

这些不再是散落在内部文档里的隐式规则，而是公开的、可审视的、可辩论的。

第一，透明度是信任的前提。

以前我们只能通过「红队测试」和逆向工程来猜测模型的行为边界。现在 OpenAI 把规则摆在桌面上，这意味着开发者可以更精准地预测模型行为，也意味着外部研究者可以系统性地检验这些规则是否被真正执行。

第二，「迭代部署」的思路值得借鉴。

OpenAI 明确表示 Model Spec 是一份会持续演进的文件，会根据真实部署反馈不断修订。这跟软件工程中的版本迭代是一个逻辑——先发布一个可用版本，然后在生产环境中打磨。比起那些试图一次性定义「AI 伦理终极框架」的学术尝试，这务实得多。

第三，多方参与机制是真正的难点。

OpenAI 提到了 collective alignment（集体对齐），让更多人参与到 AI 行为规则的制定中。方向是对的，但执行起来极其困难。谁的声音被听到？如何处理文化差异带来的价值冲突？这些问题比技术问题难一个数量级。

熟悉 Anthropic 的人会想到 Constitutional AI——用一组原则来引导模型行为。Model Spec 和它有相似之处，但侧重不同：

两家公司走的路不同，但殊途同归：AI 行为需要显式定义，而不是隐式学习。

Model Spec 本身不会解决 AI 安全问题。但它做了一件重要的事：把讨论从「AI 会不会毁灭人类」这种空泛的恐惧，拉回到「这个模型在这个场景下应该怎么回答」这种可操作的工程问题上。

作为每天和多个 AI 模型打交道的开发者，我更关心的是：其他模型厂商会跟进吗？如果 GPT 有 Model Spec，Claude 有 Constitution，Gemini 有自己的准则，那不同模型在同一个场景下的行为差异就变成了可比较、可评估的。这对整个行业是好事。

作为 OfoxAI（ofox.ai）的开发者，我每天都在不同模型之间切换对比——一个账号接入 Claude、GPT、Gemini 等主流模型，不同模型的行为差异是日常体感。Model Spec 这类框架让这种对比从「感觉不一样」变成「规则不一样」，是实质性的进步。

AI 行为规范不是限制，而是让 AI 变得可预期。可预期，才可信赖。

AI, 观点

OpenAI Model Spec AI Safety AI Alignment LLM

本文由作者按照 CC BY 4.0 进行授权