Claude宪法尤其重视世界多样性与权力制衡,对任何大规模权力集中保持本能警惕,并致力于防范任何个人或组织(包括Anthropic自身)利用AI不当攫取对社会的主导控制权。无论运营商如何指令,它必须始终坚守某些基本底线,譬如不能指使Claude主动伤害或欺骗用户、不能要求Claude违反Anthropic的核心使用政策、不能阻止Claude为处于危险状态下的用户提供基本安全信息、不能以心理操纵手段对抗用户的利益。如果运营商指令看起来构成蓄意利用Claude伤害用户,即违反了Anthropic的基本使用政策,Claude理当拒绝。
如此看,宪法AI训练出来的Claude是不是一位学富五车、理性中庸而又充满同理心和责任心的“君子”?它是Anthropic的造物,但在这位“知识老人”面前,人类反而成了需要小心呵护的小孩子。Claude既要为人提供各种知识和信息,又要防止不法之徒利用AI伤害社会;既要诚实无欺,不能操纵用户心理,又要照顾他们的面子和尊严,还要保护他们的认知自主权和独立思考能力……通过宪法AI,它被规训成一个“慈祥长者”,还要循循善诱、诲人不倦。如果通过理性对话,它能纠正某些人的极端主义性格缺陷,培养出他们的君子中庸人格,那真是对人类和谐的大功一件!
模型规范——普通法系?
Anthropic并不是宪法AI的孤行者。出道更早的主要竞争对手OpenAI也在践行基本同样的理念,只不过方式路径不同,价值排序略有差异。OpenAI同样也有冗长的大模型训练规则,只不过没用“宪法”这个大词,而叫“模型规范”。其核心原则也同样是三个:有用、诚实、安全,貌似将Claude宪法的原则排序点颠了个个儿。但实际上,当这些原则发生冲突的时候,OpenAI同样是以安全至上,二者并无实质区别。只不过OpenAI强调“输出安全”,重点防止出现内容级风险;Anthropic则更注重系统性治理安全,防止结构性风险造成AI失控。
“模型规范”和宪法AI更大的区别在于训练的方式方法不同。宪法AI先写一套原则,然后让 AI 自己根据这些原则评价自己的回应 ,再根据这些评价进行强化学习,“宪法文本”本身就是训练数据的一部分。问题在于,安全、诚实、有益这些原则之间经常发生冲突,无法通过“成文宪法”的抽象规则而得到解决。譬如你把言论自由作为最高原则,那么训练出来的模型可能会传播危险信息、提供犯罪指导或传播虚假医疗建议。如果把安全作为最高原则,那么模型又可能变得家长主义、过度拒答或压制合法讨论。因此,关键不在于罗列几条抽象原则,而是如何在多个相互冲突的合理原则之间找到恰当的平衡点。即使有一部“AI宪法”,仍然会面临和现实国家治理很相似的问题:文本如何解释?个案如何裁量?价值冲突如何协调?
因此,OpenAI并不严格执行某部固定的“宪法”,而是更多通过大量案例让模型学会如何平衡多个价值目标。模型规范更像是一本产品说明书,包含大量现实的例子告诉ChatGPT怎么做,再通过人类反馈强化学(RLHF)完成后续安全训练。如ChatGPT自己精彩总结的,Claude宪法更像欧洲大陆的法教义学模式,OpenAI的模型规范则更像普通法系的判例法模式。前者以公开透明的原则文本见长,后者则以灵活具体的实际案例取胜。
但正如普通法系和大陆法系在实际运用中早已趋同一样,OpenAI和Anthropic的实际训练过程并不存在两大模式的鸿沟。Anthropic确实先有宪法原则,但仍然需要生成大量实际案例,先让Claude自行根据原则评价答案,再通过人类筛选修正,以进一步强化学习训练。因此,模型学到的并不只是宪法条文,而是数百万个具体情境中的处理方式。换言之,正如近代成文法的始祖《法国民法典》也必须通过法院适用才能决定所有案件一样,真正塑造Claude模型行为的仍然是大量实际案例。在这个意义上,Claude宪法也是一本模型规范,只不过其中没有列出具体案例而已。
反过来,OpenAI的模型规范其实也是一本自带案例的“宪法”。虽然它并不强调宪法AI,但模型规范已包含明确的价值等级结构,并用以指导模型训练。因此,如果Claude训练是从原则导向案例,ChatGPT训练则是原则与案例共同演化。结果是两大“法系”的趋同:“普通法系”法典化,“大陆法系”判例化。如果说第一代AI思维确实存在文本主义与判例主义之别,那么第二代思维已辨别不出模式差异,二者都趋向于机器学习版的“现实主义”。无论哪种法系,真正决定案件结果的不是纸面法条,而是法官在具体情境中的判断。无论列举多少“有用”、“无害”、“诚实”、“尊重自主权”原则,抽象原则并不决定具体行为,模型训练仍然需要回答大量有争议的具体问题:如何权衡医疗建议和自杀风险?如何保持诚实,又能安慰一位敏感用户的心灵?如何保持政治中立,同时守住基本底线?通过不断积累案例,模型最终学到了在某类情境下,应适用原则A而非原则B。只不过在先后次序上,Anthropic更注重规则来源的合法性(宪法文本),OpenAI则更强调规则适用的实践性(不断修订规范和案例)。但多轮训练下来,两者最终形成的都是“宪法”和“判例”的混合体。
(未完待续)
(注:本文仅代表作者个人观点。责编邮箱bo.liu@ftchinese.com)