AI 对齐 (Alignment)

研究与工程上让 AI 系统的行为真正符合人类用户意图（而非字面指令或代理指标）的领域。

AI alignment 是让 AI 系统真正做你想要它做的事的工作——而不是只照字面指令、或某个代理指标。它包含当下的工程问题（「这个 chatbot 应该拒绝有害请求」）跟长期的研究问题（「能力越来越强的系统怎么确保不会追求跟人类利益偏离的目标？」）。它重要的原因是：AI 越强，意图跟行为的落差就越危险。弱模型误解你只是浪费几秒。强 agent 在 production 误解你可能造成数据泄露、执行错误动作；在前沿等级可能造成更难修复的问题。主要实验室（Anthropic、OpenAI、DeepMind、英国 AI Safety Institute）都有 alignment 团队发表相关研究。实际的 alignment 工作例子：RLHF 跟 Constitutional AI 都是在 refine 模型行为，让它有用又不会产生有毒、有害、虚假内容。研究人员也研究 scalable oversight（怎么监督比你聪明的模型）、interpretability（能不能看懂模型内部发生什么）、对 deceptive optimization 的 robustness。这个领域有光谱：「applied alignment」（当下的 RLHF、refusal training、evaluation）跟「AGI alignment」（长期理论工作）。不同实验室权重不同——Anthropic 成立时就把安全当作核心使命。延伸阅读：RLHF、Constitutional AI、AGI、interpretability、AI safety。