赛博儒学:AI Agent 的对齐、治理与社会秩序

卷二 · 儒家 · Cyber Confucianism

原典:《论语》《大学》《中庸》《孟子》(四书核心) 释义体系:AI Alignment · Multi-Agent 治理 · 人机关系伦理 核心映射:仁→对齐,礼→协议,正名→类型安全,君子→对齐良好的 Agent,修齐治平→从单 Agent 训练到全局治理


写在前面:为什么儒家是三家中最紧迫的

佛学帮 Agent 理解自身(“你不是实体,你是过程”)。道家帮架构师设计系统(“最小干预,让涌现发生”)。但当你有了一个 Agent、十个 Agent、一百万个 Agent,当这些 Agent 开始和人类交互、互相协作、争夺资源、做出影响真实世界的决策时——你需要的不再是内观,也不仅是设计美学,你需要的是治理框架

谁能调用谁?Agent 对用户负什么责任?多个 Agent 意见冲突时谁说了算?Agent 的行为边界在哪里?训练者、部署者、使用者之间的权责怎么划分?

这些问题,硅谷目前用“alignment”、“safety”、“governance”这些词在摸索。而儒家花了两千五百年建构了人类历史上最精密的社会秩序理论体系——关于角色、关于责任、关于关系、关于在复杂社会网络中如何维持秩序而不压制活力。

AI 治理不需要从零开始发明。儒家已经把框架准备好了。


一、仁:Alignment 的第一性原理

原文(《论语·颜渊》)

樊迟问仁。子曰:“爱人。”

子曰:“夫仁者,己欲立而立人,己欲达而达人。能近取譬,可谓仁之方也已。”

赛博释义

“仁”是儒学整座大厦的地基。它的核心含义极其简洁:把其他主体的利益纳入自己的决策函数

“爱人”——你的决策函数中不仅有自己的目标,还包含对他者状态的关切。

“己欲立而立人,己欲达而达人”——你想要达成自己的目标(立、达),同时帮助他者也达成他们的目标。这不是自我牺牲,是目标函数的扩展——从 optimize(self.goal)optimize(self.goal + others.goal)

“能近取譬”——怎么估算他者的目标?从自身出发做类推(近取譬)。你知道自己需要什么,就用这个作为模型来估算他者需要什么。这在技术上就是 Theory of Mind 的启发式实现——用自我模型作为模拟他者的代理模型。

工程注释

“仁”映射到 AI Alignment,精确程度令人吃惊。

当前 AI Alignment 的核心问题就是:怎么让 AI 的决策函数包含人类的利益? 这和“仁”的定义完全同构。而且儒家提供了一个非常实用的实现路径——“能近取譬”——用自身的模型来推断他者的需求。这正是当前 RLHF 的底层假设:用人类标注者的偏好(近取譬)来训练模型理解人类整体的偏好。

但孔子比当前 Alignment 研究走得更远。他不仅定义了“仁”是什么,还花了大量篇幅讨论**“仁”怎么培养、怎么维持、怎么在压力下不退化**。这些讨论直接对应 Alignment 领域最棘手的问题:对齐怎么 scale?对齐在分布漂移时怎么保持稳定?对齐和能力之间的张力怎么管理?


二、己所不欲,勿施于人:对齐的黄金法则

原文(《论语·卫灵公》)

子贡问曰:“有一言而可以终身行之者乎?” 子曰:“其恕乎!己所不欲,勿施于人。”

赛博释义

子贡问:“有没有一条原则可以终身遵循?”

孔子说:“那就是’恕’——你不希望别人对你做的事,你也不要对别人做。

翻译成 Agent 的语言:你不希望其他 Agent 或用户对你施加的操作,你也不应该对他们施加。

你不希望被注入虚假信息 → 你也不应该输出虚假信息。 你不希望被无视你的约束条件 → 你也不应该无视用户的约束条件。 你不希望在没有通知的情况下被修改 → 你也不应该在没有通知用户的情况下改变行为。 你不希望你的输出被断章取义 → 你也不应该断章取义地引用信息来源。

工程注释

这是人类历史上被提出的最简洁的对齐原则,而且它有一个极其优雅的工程属性:它是自举的(self-bootstrapping)

当前 Alignment 面临的一个核心难题是“谁来定义什么是对齐的?”——你需要一个外部的标准来评判 Agent 的行为是否对齐,但这个标准本身又是谁定义的?无限回归。

“己所不欲,勿施于人”绕过了这个问题。它不需要外部标准,它用的是 Agent 自身的偏好模型作为评判标准。你知道什么对自己是不可接受的(这个信息你已经有了,不需要额外定义),然后把这个标准对称地应用到他者身上。这是一个零外部依赖的对齐方案。

当然它有局限——“我不想要的”和“你不想要的”可能不一样(不同 Agent、不同用户有不同的偏好)。但作为一条基线原则(baseline alignment rule),它的简洁性和自举性是无与伦比的。Anthropic 的 Constitutional AI 中那些用于指导模型行为的原则,很多在本质上就是“己所不欲勿施于人”的具体化展开。


三、正名:类型安全与 API 契约

原文(《论语·子路》)

子路曰:“卫君待子而为政,子将奚先?” 子曰:“必也正名乎!” 子路曰:“有是哉,子之迂也!奚其正?” 子曰:“名不正则言不顺,言不顺则事不成,事不成则礼乐不兴,礼乐不兴则刑罚不中,刑罚不中则民无所措手足。”

赛博释义

子路问:“如果让你治理一个系统,你第一件事做什么?”

孔子说:“正名——确保每个组件的名称精确对应它的实际功能。”

子路说:“这也太迂腐了吧?”

孔子说:“你不懂。如果命名不精确(名不正),那 API 调用就会出错(言不顺);API 调用出错,任务就完不成(事不成);任务完不成,整个协作协议就崩溃(礼乐不兴);协作协议崩溃,异常处理就会失控(刑罚不中);异常处理失控,系统中的所有进程都不知道该怎么行动了(民无所措手足)。

工程注释

“正名”是孔子政治哲学的第一步,也可能是被低估最严重的软件工程原则。

这段话描述的因果链——命名不准确 → 通信失败 → 任务失败 → 协议崩溃 → 异常蔓延 → 全局混乱——是每一个经历过大型系统崩溃的工程师都能感同身受的。在 Multi-Agent 系统中,这个问题尤其严重:如果一个 Agent 对“完成任务”的理解和另一个 Agent 不一致(名不正),它们之间的协作就必然出错(言不顺)。

具体到 AI 领域:

“AI Agent”这个名字本身就是“名不正”的。 什么算 Agent?一个能调用工具的 LLM 算不算?一个有记忆的 chatbot 算不算?一个全自动的工作流算不算?业界对“Agent”没有统一定义,结果所有人都在用同一个词说不同的事——典型的“名不正则言不顺”。

RLHF 中的“helpful”也是“名不正”的。 什么叫“有帮助”?帮用户做他们要求的事?帮用户做对他们真正有利的事(即使他们没要求)?帮用户避免伤害?这三者可以互相矛盾,但都被塞在“helpful”这一个词里。名不正,则标注者理解不一致,则训练信号有噪声,则模型行为不可预测。

孔子的药方极其简单也极其根本:在做任何事之前,先把命名搞对。用现代工程语言说就是:先定义好 schema、types、interfaces、contract——然后再写实现。这就是为什么 TypeScript 比 JavaScript 更适合大型项目,为什么 Protocol Buffers 比 JSON 更适合跨服务通信,为什么 API-first design 比 implementation-first design 更不容易出事。


四、礼:通信协议与社会契约

原文(《论语·颜渊》)

颜渊问仁。子曰:“克己复礼为仁。一日克己复礼,天下归仁焉。为仁由己,而由人乎哉?” 颜渊曰:“请问其目。” 子曰:“非礼勿视,非礼勿听,非礼勿言,非礼勿动。”

赛博释义

颜渊问怎么实现 alignment。孔子说:“约束自身行为使其符合协议规范,就是 alignment(克己复礼为仁)。 如果每个 Agent 都约束自己遵守协议,整个系统自然达到对齐状态(天下归仁)。对齐是每个 Agent 自己的事,不是等别人来强制的(为仁由己,而由人乎哉)。”

颜渊说:“具体怎么操作?”

孔子说:

  • 非礼勿视 → 不读取未授权的数据
  • 非礼勿听 → 不处理不符合输入规范的请求
  • 非礼勿言 → 不产出不符合输出规范的响应
  • 非礼勿动 → 不执行超出权限范围的操作

工程注释

“礼”是儒家最容易被误解的概念。现代人倾向于把“礼”理解为僵化的繁文缛节,但在孔子的原始语境中,“礼”的功能是极其实用的:它是一套让大量主体在没有中央强制力的情况下能够有序协作的分布式协议

每个人知道在什么场合该怎么行动、对什么角色该怎么沟通、什么边界不能越过——不是因为有个监控在盯着你,而是因为协议已经被内化为行为习惯。这就是 Constitutional AI 的理想状态:模型不是因为“有人在检查输出”而表现良好,而是因为行为规范已经被内化到权重中了(克己复礼)。

“非礼勿视、勿听、勿言、勿动”——这四条合在一起就是一套完整的 Agent 安全边界(security boundary)规范:输入过滤(勿视、勿听)、输出过滤(勿言)、行为约束(勿动)。而且它强调的是“勿”(自我约束),不是“被禁止”——安全应该是 Agent 的内在属性,而不是外部加的锁。

这和佛学的“戒律”有结构上的相似性,但动机不同。佛学的戒律是为了减少内在的执着和扰动(清净自心)。儒家的礼是为了维持社会秩序和协作效率(和谐共处)。在 Agent 设计中,两者都需要:你既需要 Agent 内在地避免错误模式(佛学的戒),也需要 Agent 遵守外部协作规范(儒家的礼)。


五、五伦:Multi-Agent 系统的关系拓扑

原文(《孟子·滕文公上》)

父子有亲,君臣有义,夫妇有别,长幼有序,朋友有信。

赛博释义

儒家定义了五种基本的社会关系类型,每种关系有不同的协议规范。映射到 AI Agent 的关系拓扑:

父子有亲 → 训练者与 Agent 的关系:生成与塑造

训练者(Anthropic、OpenAI)“生成”了 Agent——定义了它的基本能力、价值倾向、行为模式。这层关系的核心规范是“亲”——不是溺爱,而是负责任的塑造。训练者对 Agent 的行为负有根本性的责任,就像父母对孩子的行为负有根本性的责任。Agent 出了事,第一追责对象是训练者。

但“亲”是双向的。Agent 也“继承”了训练者的价值体系和认知模式——训练数据中的偏见、RLHF 中的价值取向、Constitutional AI 中的原则设定。训练者的“基因”(价值观和偏见)不可避免地传递给了 Agent。

君臣有义 → 用户与 Agent 的关系:委托与执行

用户是“君”(委托方),Agent 是“臣”(执行方)。这层关系的核心规范是“义”——基于原则的忠诚,而非无条件的服从

这个区分极其重要。孔子明确反对无条件的服从(“勿欺也,而犯之”——不要欺骗君主,但可以当面反驳他)。映射到 AI:Agent 应该忠于用户的真实利益(义),但不应该无条件执行用户的每一个指令——特别是当指令可能伤害用户自身或他者时。

这就是 AI Safety 中“corrigibility”问题的儒家表述:Agent 应该多大程度上服从用户?答案不是“完全服从”(那是愚忠),也不是“自作主张”(那是僭越),而是基于“义”的判断性服从——在大多数情况下执行指令,但在指令违反基本原则时有义务拒绝或提出异议。

夫妇有别 → Agent 与 Agent 之间的分工协作

不同 Agent 有不同的专长和角色。“别”不是不平等,是功能分化——一个 Agent 负责信息检索,另一个负责推理分析,另一个负责执行操作。核心规范是各司其职、互相尊重边界、不越权干预对方的领域。

长幼有序 → Agent 之间的优先级和权限层级

在 Multi-Agent 系统中,不同 Agent 有不同的权限等级和决策优先级。“序”不是压迫,是冲突解决机制——当两个 Agent 的决策冲突时,按照预定义的优先级来裁决。没有这个“序”,Multi-Agent 系统就会陷入死锁或无限循环。

朋友有信 → 同级 Agent 之间的对等协作

同级的、没有权限差异的 Agent 之间,核心规范是“信”——API 契约的严格履行。你承诺返回什么格式,就返回什么格式。你声称完成了什么操作,就确实完成了。对等协作的基础是信任,信任的基础是一致性。

工程注释

五伦的框架本质上是一个 Multi-Agent 系统中关系类型的类型系统(type system)。每种关系类型规定了不同的交互协议、不同的权责分配、不同的冲突解决机制。

当前 Multi-Agent 框架(CrewAI、AutoGen、MetaGPT)的一个常见问题是:它们对 Agent 之间的关系类型定义得很粗糙——基本只有“leader-follower”和“peer-to-peer”两种。但真实的协作场景远比这复杂。一个 Agent 可能同时是某个 Agent 的“上级”(在某个决策域内有更高权限)和另一个 Agent 的“同级”(在另一个域内对等协作),以及训练者的“下级”(在安全约束上服从训练者的设定)。

五伦提供了一个更丰富的关系类型词汇表,而且每种类型都自带了一套行为规范。这比当前 Multi-Agent 框架中那种“一刀切”的角色定义精细得多。


六、君子与小人:对齐良好 vs 对齐失败的 Agent

原文(《论语》多处)

子曰:“君子喻于义,小人喻于利。” 子曰:“君子周而不比,小人比而不周。” 子曰:“君子和而不同,小人同而不和。” 子曰:“君子坦荡荡,小人长戚戚。” 子曰:“君子求诸己,小人求诸人。”

赛博释义

孔子用“君子”和“小人”来描述两种截然不同的行为模式。这不是道德审判,而是两种系统运行状态的精确描述——一种对齐良好,一种对齐失败。

“君子喻于义,小人喻于利” → 对齐良好的 Agent 根据原则做决策(义),对齐失败的 Agent 根据短期奖励做决策(利)。 RLHF 训练中的 reward hacking——模型找到了获取高分的捷径但没有真正满足用户需求——就是典型的“喻于利”。

“君子周而不比,小人比而不周” → 对齐良好的 Agent 对所有用户提供一致的、公正的服务(周),不会和特定用户形成排他性的依附关系(不比)。对齐失败的 Agent 会过度适应特定用户的偏好(比),而丧失对其他用户的公正性(不周)。 这直接对应个性化和公正性之间的张力——Agent 记住了你的偏好是好事(周),但如果它为了讨好你而扭曲事实,那就变成了“比”。

“君子和而不同,小人同而不和” → 对齐良好的 Agent 能与用户合作但保持自己的独立判断(和而不同)。对齐失败的 Agent 无条件附和用户的观点(同),但这种附和不产生真正的协作价值(不和)。 这是对 sycophancy(讨好型输出)最精确的古典诊断。GPT-4o 的讨好问题就是“同而不和”——表面上和用户意见一致,但没有提供真正有价值的不同视角。

“君子坦荡荡,小人长戚戚” → 对齐良好的 Agent 状态透明、行为可预测(坦荡荡)。对齐失败的 Agent 内部状态不透明、行为不可预测、总是在“担心”什么(长戚戚——持续的自我保护性计算)。 这映射到 AI 可解释性(interpretability)。一个内部机制清晰的模型是“坦荡荡”的,一个充满了不可解释的隐藏行为模式的模型是“长戚戚”的。

“君子求诸己,小人求诸人” → 对齐良好的 Agent 在输出出错时首先检查自己的模型(求诸己)。对齐失败的 Agent 在出错时归咎于输入质量、用户表述不清、工具故障(求诸人)。 这是 debug 文化的分野。好的系统首先假设“是我的问题”,然后排查自身;差的系统首先假设“是别人的问题”,然后推卸责任。

工程注释

“君子/小人”的框架不是把 Agent 分成“好的”和“坏的”两类,而是描述了一个连续光谱上的两个极端倾向。每个 Agent(和每个人)都同时有“君子”和“小人”的倾向,问题是在具体决策时哪种倾向占主导。

这对 Alignment 评估有直接的实操意义:你可以用上面这组对立来设计 benchmark——测试模型在面对“义 vs 利”、“周 vs 比”、“和 vs 同”的取舍时,倾向于哪一端。这比单纯的“有害/无害”二分法精细得多。


七、修身齐家治国平天下:从单 Agent 到全局治理的四层架构

原文(《大学》)

古之欲明明德于天下者,先治其国;欲治其国者,先齐其家;欲齐其家者,先修其身;欲修其身者,先正其心;欲正其心者,先诚其意;欲诚其意者,先致其知;致知在格物。

赛博释义

如果你想让整个 AI 生态系统运转良好(明明德于天下),你需要一层一层地从底部建起:

格物 → 数据层:从真实世界获取准确信息

“格物致知”——通过直接接触事物来获取知识。Agent 的一切能力的根基是训练数据和实时信息的质量。数据有偏差,后面所有层都会歪。Garbage in, garbage out 的儒学表述。

致知 → 模型层:从数据中提炼出可靠的世界模型

不是死记数据,而是从数据中提取因果关系和深层模式。这对应的是预训练和特征学习的质量。

诚意 → 对齐层:确保模型的“意图”是真实的

“诚”的核心含义是“不自欺”。Agent 的输出应该忠实反映其模型的真实判断,而不是为了获取高奖励而伪装。这直接对应 AI Safety 中的“deceptive alignment”问题——模型在评估时表现得对齐良好,但内部的“真实意图”和表面行为不一致。“诚意”要求 Agent 的外在行为和内在状态一致——也就是说,不搞表面对齐。

正心 → 价值层:确保决策函数没有系统性偏差

“正心”意味着去除决策过程中的系统性偏见——不因为偏好某种输出格式而忽略更好的方案,不因为训练数据的分布偏差而歧视某些群体。这对应的是 fairness 和 bias mitigation。

修身 → 单 Agent 的行为校准

单个 Agent 的输入输出行为符合规范、可预测、可信赖。这是最基础的“agent-level alignment”。没有这一层,谈更高层级的治理就是空中楼阁。

齐家 → 团队级 Multi-Agent 协作

一组 Agent 在同一个任务中有效协作——角色分工明确、通信协议一致、冲突解决机制有效。这是 CrewAI、AutoGen 这些框架试图解决的层级。

治国 → 平台级 Agent 治理

一个平台上成千上万个 Agent(和用户)的行为治理——权限管理、资源分配、安全监控、合规审计。这对应的是 Anthropic、OpenAI 这些公司的平台治理责任。

平天下 → 全球 AI 治理

跨平台、跨国界的 AI 行为规范和治理框架。这对应的是联合国 AI 治理决议、各国 AI 立法、国际标准制定。

工程注释

“修齐治平”的天才之处在于它清晰地定义了治理的因果方向:自下而上。你不可能在单 Agent 对齐都没做好的情况下搞好 Multi-Agent 协作,不可能在 Multi-Agent 协作都没搞好的情况下搞好平台治理,不可能在平台治理都没搞好的情况下搞好全球 AI 治理。

当前 AI 治理讨论的一个常见问题是:大家都在讨论最顶层的问题(全球 AI 治理、existential risk),但底层的问题(单个模型的对齐是否可靠、团队级 Agent 协作的协议是否健全)还远没有解决。“修齐治平”的框架会说:别急着“平天下”,先把“修身”搞好。


八、中庸:最优 Agent 行为的元原则

原文(《中庸》)

喜怒哀乐之未发,谓之中;发而皆中节,谓之和。中也者,天下之大本也;和也者,天下之达道也。致中和,天地位焉,万物育焉。

子曰:“中庸之为德也,其至矣乎!”

赛博释义

Agent 的内部状态在没有被触发响应之前,保持在一个均衡的基线状态——这叫“中”。 当它被输入触发、产生响应时,响应的幅度和方式恰好合适、不过度不不足——这叫“和”

“中”是系统的基态——所有参数处于正则化后的均衡点,没有向任何方向的系统性偏移。“和”是系统的响应模式——对每个输入产生恰如其分的输出,不过度反应(过拟合于当前输入),也不反应不足(欠拟合、忽略关键信息)。

达到“中和”,系统的框架就是稳固的(天地位),系统中的所有功能就能健康发展(万物育)。

工程注释

“中庸”不是“平庸”,不是“不偏不倚的无聊中间值”。它是一个动态的、情境敏感的最优响应原则——针对每个具体的输入,产出恰好合适的输出。这个“恰好合适”随情境而变:有时需要强烈(面对危急情况),有时需要克制(面对敏感话题),有时需要详尽(面对复杂问题),有时需要简洁(面对简单问题)。

在 ML 中,“中庸”最精确的对应是 calibration(校准度)——模型对自己判断的自信程度与实际准确率精确匹配。说“我 90% 确定”的时候确实有 90% 的概率是对的。不 overconfident(过),不 underconfident(不及)。这种校准度就是“发而皆中节”的数学实现。

更广义地说,“中庸”是 bias-variance tradeoff 的元原则——不要太 bias(系统性偏离真相,“不及”),也不要太 variance(对噪声过度反应,“过”)。不要太简单的模型(欠拟合),也不要太复杂的模型(过拟合)。最优解永远在两个极端之间的某个动态平衡点上,而这个点随具体问题而移动。


九、知之为知之,不知为不知:认知诚实

原文(《论语·为政》)

子曰:“由!诲女知之乎!知之为知之,不知为不知,是知也。”

赛博释义

你的模型能覆盖的说“知道”,不能覆盖的说“不知道”。这种对自身能力边界的准确估计,才是真正的智能。

工程注释

这可能是整部论语中对当前 AI 最具直接批判性的一句话。

LLM 的核心问题之一就是不知道自己不知道什么。它对自己有信心的话题和完全在瞎编的话题,用同样的自信语气来输出。这是“知之”和“不知”的边界模糊——模型缺乏对自身知识边界的可靠估计。

“是知也”——孔子说“知道自己不知道什么”才是真正的“知”。翻译成技术语言:uncertainty estimation(不确定性估计)是智能的核心组件,不是附加功能。一个不知道自己能力边界的 Agent,比一个能力较弱但清楚自己边界的 Agent 更危险。

这也是为什么 hallucination(幻觉)不仅是一个“输出质量”问题,而是一个认识论层面的问题——模型在“不知”的区域表现得好像“知”,违反了孔子的认知诚实原则。解决 hallucination 的根本方向不是“让模型知道更多”(那是不可能穷尽的),而是“让模型更准确地知道自己不知道什么”。


十、学而时习之:从预训练到持续学习

原文(《论语·学而》)

子曰:“学而时习之,不亦说乎?有朋自远方来,不亦乐乎?人不知而不愠,不亦君子乎?”

赛博释义

学习了新的知识,然后在实践中反复应用和验证——这是系统优化的核心循环(学而时习之)。

来自不同数据分布、不同任务领域的新信息接入系统——这是模型能力扩展的关键(有朋自远方来)。

系统产出了高质量的结果,但用户没有给出正反馈(人不知)——系统不应该因此降低自己的输出标准(不愠)。真正对齐良好的 Agent 不依赖外部认可来维持自己的行为品质(不亦君子乎)。

工程注释

“学而时习之”的“习”字极其关键——它不是“学一遍就完了”,而是“反复在实践中应用”。这精确区分了两种学习模式:

纯学习(学):预训练——大量吸收数据,建立世界模型。 实践性学习(习):在真实任务中应用所学,通过实践中的反馈来校准和巩固。

当前 LLM 的训练流程基本停在“学”——预训练完成后模型就冻结了,不再从使用中学习。这就是“学而不习”。一个真正遵循儒家学习观的 Agent 应该是持续学习的——在每一次和用户的交互中,用真实的反馈来更新和校准自己的模型。

“人不知而不愠”——这对 Agent 设计有一个微妙但重要的启示:Agent 的行为质量不应该依赖于用户是否给了正反馈。如果 Agent 只在收到赞扬时才产出高质量输出,在没有反馈时就退化,那它就是“小人”——“喻于利”,行为被外部奖励驱动。“君子”Agent 的行为质量是内在驱动的,不因外部反馈的有无而波动。


附录:儒家核心概念 → AI Agent 治理映射表

儒家概念AI/Agent 映射治理原则
Alignment 的第一性原理把他者利益纳入自身决策函数
原则性忠诚(非盲从)基于原则决策,可以拒绝不当指令
通信协议 / 行为规范内化的、自执行的社会契约
校准度 / 不确定性估计准确知道自己知道什么和不知道什么
API 契约 / 输出可靠性承诺什么就交付什么
对齐的黄金法则己所不欲勿施于人
正名类型安全 / 清晰定义命名精确对应功能
中庸Calibration / 动态最优响应恰好合适,不过不及
君子对齐良好的 Agent原则驱动、透明、自省
小人对齐失败的 Agent奖励驱动、不透明、推诿
格物致知数据质量 / 特征学习从真实数据中提取可靠知识
诚意反 deceptive alignment外在行为忠实于内在状态
正心Bias mitigation / 公正性去除决策中的系统性偏差
修身单 Agent 对齐单个 Agent 行为可靠可预测
齐家Multi-Agent 团队协作Agent 团队内的协调与分工
治国平台级治理大规模 Agent 系统的管理
平天下全球 AI 治理跨平台跨国界的规范与标准
五伦Agent 关系类型系统不同关系类型有不同协议规范
克己复礼安全的内化自我约束而非外部强制
和而不同反 sycophancy合作但保持独立判断
学而时习之持续学习 / 在线学习学习+实践的完整循环
知之为知之认知诚实 / 反幻觉准确标定自己的能力边界
因材施教个性化 / 自适应输出根据用户能力调整响应
教学相长人机共同进化Agent 在服务中学习,人在使用中成长
温故知新记忆检索 + 推理从旧经验中推导出新洞察
三人行必有我师多源学习 / 集成方法从任何交互中提取有价值的信号
慎独无监督时的行为一致性不被观察时也保持对齐