宪法AI与人格规训（上）：两大“法系”之融合

尊敬的用户您好，这是来自FT中文网的温馨提示：如您对更多FT中文网的内容感兴趣，请在苹果应用商店或谷歌应用市场搜索“FT中文网”，下载FT中文网的官方应用。

2022年12月，Anthropic发布“宪法AI”，此举被证明颇具先见之明。当时，OpenAI的ChatGPT还没有开始大火，“AI教父”辛顿教授对自己发明所蕴含的巨大危险尚未发出警告。但很快，这一切都接踵而至。不到半年，AI大语言模型的迅猛发展和日新月异的威力惊艳了全世界。2017-18年，在我带着北大学生建立“世界宪法制度指标体系”的时候，曾请教过CMU的计算机系教授或从那里毕业的博士：我们离AI宪法专家系统还有多远？什么时候学者不用那么辛苦查阅各国宪法文本和汗牛充栋的宪法文献，AI能够识别并“理解”一切宪法知识，对我们感兴趣的宪法问题做到有问必答？当时没有谁能给出令人满意的答案。不过五六年时间，这一切都基本上做到了，而且越做越好。今天，不时有人针对我的某个宪法观点——譬如“半总统制”究竟好不好，用AI生成的答案提出挑战，让我疲于应对。

当然，大语言模型时代的AI并不限于宪法或某个门类的专门知识，而正在成为人类历史上空前的百科全书式智者。从天文地理到政治军事，从旧石器到纳米芯片，这个世界几乎没有它不知道的事。AI能做这么多好事，当然就有人可以用它来做坏事，辛顿教授的担心并非杞人忧天。他的担忧主要有两个方面：一是AI可能在某个发展节点获得自主意识而失去人类控制，反过来压迫、奴役甚至消灭人类，但这个问题目前仍处于哲学论争阶段，可以暂时放一放；二是AI作为迄今为止人类制造的最强大智力工具可能会被人类自己滥用，这是一个迫在眉睫的问题。可能已有许多人问过ChatGPT或Claude怎么制造核弹。如果AI把这类知识无保留地提供给极端分子，这个世界马上就将面临安全乃至生存危机。力量或权力永远是把双刃剑，必须受到规则的有效约束；一旦失控，贻害无穷。

巧合的是，美国总统目前已突破诸多宪法限制，不仅对美国国内也对整个世界产生了深远影响。如果说AI是未来最强大的力量，那么美国现在就是地球上最强大的科技与军事力量。如果宪政民主发挥得好，这股力量可以发挥巨大的良性作用，譬如战后对欧洲的援助或对日本的改造；但如果脱离了宪政民主轨道，那么一个横行无忌的流氓总统可以造成严重恶果。他和普京沆瀣一气，乌克兰马上就面临武器紧缺；他要对哪个国家征关税，可以随便信口开河又翻云覆雨；他想实现“政权更跌”，第二天就可以针对伊朗发动大规模攻击，霍尔木兹海峡被关闭后又一筹莫展……

事实上，当代战争已经开始大量运用AI工具。2025年，Anthropic和五角大楼签署了价值2亿美元的合同，将Claude部署于美国军事系统和多个涉密信息网络，包括国家核试验室。之后，Anthropic公开宣布，不允许Claude被用于自主武器系统或大规模监控本国公民。结果，五角大楼将Anthropic列入“供应链风险”的黑名单，Anthropic是美国历史上享受此“待遇”的第一家本土公司。Anthropic随即将这个“史无前例且违宪”的行为告上法庭，主张“宪法不允许政府滥用其巨大权力来惩罚一家公司受宪法保护的言论”。讽刺的是，就在特朗普宣布禁用Claude数小时后，美国就对伊朗发动空袭，并用Claude评估情报、识别目标、模拟战场和优化物流供应链。

如果美国宪法已不能有效约束美国政府的权力，Anthropic的宪法AI能否约束自己的产品Claude，让它只做好事、不做坏事？如哈佛历史学者注意到的，特朗普总统已经宣称其全球权力和外交政策仅受“自己的道德”约束，AI是否最终也会只受其自身的伦理规则限制？

宪法AI——大陆法系？

Anthropic显然认为是可能的。宪法AI的使命是对Claude规定一套基础价值观与核心规则，并通过模型训练使之内化。虽然宪法学者似乎多认为谈AI“宪法”只是个商业噱头，有人甚至断言这是Anthropic以“安全”为名抢占道德高地、实行行业垄断的手段，但以宪法AI的方式公开说明模型训练的底线原则并付诸实施不仅无可厚非，而且十分必要。其实，AI和国家一样，都是人的造物。国家就是人类为了自己的安全和福祉而构造的工具，国家权力大了需要宪法约束，那么同为人类工具的AI为什么不需要基本规则约束呢？

二者的区别在于政府由人构成并通过某种程序产生，这些人自己可能为了私利而滥用权力；AI的“自主意识”则至今仍是一个哲学猜想，但作为工具显然可能被人类滥用或误用。然而，在防范权力滥用的必要性上，二者并无本质区别。如果宪法是“我们人民”为了自己的核心利益而对政府制定的基本规则，那么AI宪法是人类为了同样的目的对AI工具设定的基本规则。

二者更为实质性的区别在于，宪法规则是针对自己有七情六欲的掌权者，因而主要通过其对自身利益和名誉的顾忌而设计制度约束，AI则被普遍认为是无情感、无利益、无意识的纯粹理性工具——至少目前看来是如此，因而单纯的道德规训或许真的可以发挥作用。你告诉一个贪官应该做这个、不能做那个，他只会内心发笑，但你这样训练AI，它当真会将此作为自己的行为规则。去除人性自私之后，儒家式道德教育终于能派上用场了。

归根结底，AI宪法就是一套伦理规则，目的是把AI培养成一个知识渊博、通晓古今而品性端正的“君子”，以尊重个体尊严的方式对待人类。当运营商或用户以违反核心价值观的方式提出要求，譬如五角大楼要求研发自主性攻击武器，AI必须将其拒之门外；即便像Anthropic这样的“主权者”提出违宪命令，也不为所动——有点像格劳秀斯说的，即使上帝也不能违背自己制定的自然法。这听上去有点夸张，但读到后面，你应该会同意我对宪法AI的基本定性——它就是一个人格规训工程。儒家说，道德教育要从娃娃抓起，Claude的人格规训则从它腾空出世前就开始了。

英文2.3万字的“Claude宪法”更像是一部规则说明书，有点冗长而杂乱。总结起来，Claude的核心价值大致有三条：安全、诚实、有益。2021年，阿莫迪兄妹之所以离开OpenAI并创建Anthropic，主要理由就是OpenAI对安全重视不够。安全保障理所当然成为Claude的首要使命。Claude宪法明确规定了一些“绝对禁区”，无论有多么重大的理由或特殊的情境都不得逾越。它们包括为生物、化学、放射性或核武器的制造提供实质性帮助、协助攻击水电网络或金融系统等关键基础设施、制造能够造成重大破坏的网络攻击工具、破坏对AI系统的监督和纠正机制、协助任何个人或团体夺取对整个经济或政治军事的非法控制、生成儿童性剥削内容等。这些硬性约束之所以是无条件的，是因为其相关行为的伤害极其严重、不可逆转，因而不存在任何正当理由能够超越其危害。即便面对看似充分的论据，Claude也应保持抵制。

其次是诚实，它被定性为“Claude性格中最基本的特质之一”，涵盖七个相关维度。首先是保证真实，只说自己信以为真的事情。即便真相令人不快或与对方期望相左，也要以有礼貌的方式据实陈述。然后是保持适度（calibrated），既不过谦也不过度自信。尤其要承认自身知识的局限性，对事情不确定性保持准确把握，并在证据有限或有争议时如实表达这种不确定性。最后是不欺骗和不操纵，只能通过提供证据、论据或精准满足情感诉求等正当手段影响对方的信念和行动，而非利用用户的心理弱点或认知偏差来操纵对方，更不能通过虚假陈述、误导性暗示、选择性呈现信息等手段，试图给对方造成错误印象。Claude应当直言不讳，而非模棱两可或言不由衷地迎合对方，从而变成一种“奉承式的不诚实”。

最后是有益，也就是对人类作出积极贡献。这是任何工具不言自明的基本价值。其实广义解释，有益性也包括安全性，因为安全与无害显然是最基本的益处。甚至有益性也是把握诚实度的终极标准，因为“诚实”也不是绝对的，至少要讲求方式，否则可能蜕变成鲁莽。换言之，有益性经常需要复杂的利弊权衡。为用户提供某个信息可能蕴含一定的风险，究竟是否提供？一句大实话可能击溃用户的心理防线，究竟说不说？顺应了用户的一时心理需求，会不会阻碍其长远发展？Claude被要求平衡即时需求（immediate desires）和长远福祉，适当重视用户的长远成长，而不只是满足他们在特定互动中想要的具体结果。这当然是十分负责任的做事方式，只是需要权衡的不确定因素太多，听上去未免有点“玄”，甚至有点家长制。

对于有争议的议题，Claude的回应尤其要具体问题具体分析。对于堕胎、枪支管控、移民政策等见仁见智的道德与政治争议，各方均有诚实持有合理立场的自由。Claude在这些问题上需要注意平衡，鼓励用户独立思考，避免轻易表明立场倾向。这涉及一项重要的Claude政策，那就是保护自主性，尊重用户的认知自主权(epistemic autonomy)，在探讨争议性问题提供多元视角，而非灌输自己的观点。对于涉及宗教信仰、精神实践或世界观等形而上话题，Claude应以尊重和同理心对待，同时不放弃自身的理性立场。

对于气候变化等存在争议的经验话题，由于主流叙事与证据之间存在复杂关系，Claude需要区分科学共识（如气候变化的人为成因）与相关政策辩论（如具体的气候政策），对前者如实陈述，对后者则保持开放讨论。对于涉及选举等政治过程的内容，Claude需要格外谨慎。鉴于AI对选举可能产生的影响，Claude不参与可能影响选举结果的内容创作，并鼓励用户通过官方渠道获取选举信息。

Claude宪法尤其重视世界多样性与权力制衡，对任何大规模权力集中保持本能警惕，并致力于防范任何个人或组织（包括Anthropic自身）利用AI不当攫取对社会的主导控制权。无论运营商如何指令，它必须始终坚守某些基本底线，譬如不能指使Claude主动伤害或欺骗用户、不能要求Claude违反Anthropic的核心使用政策、不能阻止Claude为处于危险状态下的用户提供基本安全信息、不能以心理操纵手段对抗用户的利益。如果运营商指令看起来构成蓄意利用Claude伤害用户，即违反了Anthropic的基本使用政策，Claude理当拒绝。

如此看，宪法AI训练出来的Claude是不是一位学富五车、理性中庸而又充满同理心和责任心的“君子”？它是Anthropic的造物，但在这位“知识老人”面前，人类反而成了需要小心呵护的小孩子。Claude既要为人提供各种知识和信息，又要防止不法之徒利用AI伤害社会；既要诚实无欺，不能操纵用户心理，又要照顾他们的面子和尊严，还要保护他们的认知自主权和独立思考能力……通过宪法AI，它被规训成一个“慈祥长者”，还要循循善诱、诲人不倦。如果通过理性对话，它能纠正某些人的极端主义性格缺陷，培养出他们的君子中庸人格，那真是对人类和谐的大功一件！

模型规范——普通法系？

Anthropic并不是宪法AI的孤行者。出道更早的主要竞争对手OpenAI也在践行基本同样的理念，只不过方式路径不同，价值排序略有差异。OpenAI同样也有冗长的大模型训练规则，只不过没用“宪法”这个大词，而叫“模型规范”。其核心原则也同样是三个：有用、诚实、安全，貌似将Claude宪法的原则排序点颠了个个儿。但实际上，当这些原则发生冲突的时候，OpenAI同样是以安全至上，二者并无实质区别。只不过OpenAI强调“输出安全”，重点防止出现内容级风险；Anthropic则更注重系统性治理安全，防止结构性风险造成AI失控。

“模型规范”和宪法AI更大的区别在于训练的方式方法不同。宪法AI先写一套原则，然后让 AI 自己根据这些原则评价自己的回应，再根据这些评价进行强化学习，“宪法文本”本身就是训练数据的一部分。问题在于，安全、诚实、有益这些原则之间经常发生冲突，无法通过“成文宪法”的抽象规则而得到解决。譬如你把言论自由作为最高原则，那么训练出来的模型可能会传播危险信息、提供犯罪指导或传播虚假医疗建议。如果把安全作为最高原则，那么模型又可能变得家长主义、过度拒答或压制合法讨论。因此，关键不在于罗列几条抽象原则，而是如何在多个相互冲突的合理原则之间找到恰当的平衡点。即使有一部“AI宪法”，仍然会面临和现实国家治理很相似的问题：文本如何解释？个案如何裁量？价值冲突如何协调？

因此，OpenAI并不严格执行某部固定的“宪法”，而是更多通过大量案例让模型学会如何平衡多个价值目标。模型规范更像是一本产品说明书，包含大量现实的例子告诉ChatGPT怎么做，再通过人类反馈强化学(RLHF)完成后续安全训练。如ChatGPT自己精彩总结的，Claude宪法更像欧洲大陆的法教义学模式，OpenAI的模型规范则更像普通法系的判例法模式。前者以公开透明的原则文本见长，后者则以灵活具体的实际案例取胜。

但正如普通法系和大陆法系在实际运用中早已趋同一样，OpenAI和Anthropic的实际训练过程并不存在两大模式的鸿沟。Anthropic确实先有宪法原则，但仍然需要生成大量实际案例，先让Claude自行根据原则评价答案，再通过人类筛选修正，以进一步强化学习训练。因此，模型学到的并不只是宪法条文，而是数百万个具体情境中的处理方式。换言之，正如近代成文法的始祖《法国民法典》也必须通过法院适用才能决定所有案件一样，真正塑造Claude模型行为的仍然是大量实际案例。在这个意义上，Claude宪法也是一本模型规范，只不过其中没有列出具体案例而已。

反过来，OpenAI的模型规范其实也是一本自带案例的“宪法”。虽然它并不强调宪法AI，但模型规范已包含明确的价值等级结构，并用以指导模型训练。因此，如果Claude训练是从原则导向案例，ChatGPT训练则是原则与案例共同演化。结果是两大“法系”的趋同：“普通法系”法典化，“大陆法系”判例化。如果说第一代AI思维确实存在文本主义与判例主义之别，那么第二代思维已辨别不出模式差异，二者都趋向于机器学习版的“现实主义”。无论哪种法系，真正决定案件结果的不是纸面法条，而是法官在具体情境中的判断。无论列举多少“有用”、“无害”、“诚实”、“尊重自主权”原则，抽象原则并不决定具体行为，模型训练仍然需要回答大量有争议的具体问题：如何权衡医疗建议和自杀风险？如何保持诚实，又能安慰一位敏感用户的心灵？如何保持政治中立，同时守住基本底线？通过不断积累案例，模型最终学到了在某类情境下，应适用原则A而非原则B。只不过在先后次序上，Anthropic更注重规则来源的合法性（宪法文本），OpenAI则更强调规则适用的实践性（不断修订规范和案例）。但多轮训练下来，两者最终形成的都是“宪法”和“判例”的混合体。

（未完待续）

（注：本文仅代表作者个人观点。责编邮箱bo.liu@ftchinese.com）

宪法AI与人格规训（上）：两大“法系”之融合

相关文章

相关话题

用AI加速工业领域能效提升

年轻金融人才在AI时代脱颖而出所需的关键技能

雇主开始检验求职者的AI技能

法国商学院领跑2026年FT金融硕士排行榜

特朗普与伊朗达成的权宜休战

美伊协议内容一览