用 LLM 自动化第一线客服(而且不要把体验弄更糟)

公司从 2023 年就在客服上叠 LLM。大部分部署不被客户喜欢、production 脆、18 个月内悄悄拿掉。会 work 的有共同 pattern:范围窄、容易升级、绝不假装是人。

「第一线」实际是什么

第一线支援是高量、低复杂度的进件:「怎么重设密码」、「我的退款在哪」、「你们退货政策是什么」、「能改寄送地址吗」。这些 ticket 文件齐全、答案已知、塞爆团队收件夹。大部分消费产品中占 60-80% ticket 量。

LLM 从你的 help doc 回这些超强。它不擅长:技术 debug、帐号 access 问题、任何法律相关、任何情绪、不在 doc 里的 edge case。

不要试着用 LLM 自动化 Tier-2 或 Tier-3。连 Tier-1 都应该慷慨升级。

能 work 的架构

真的能 deflect ticket 又不让客户恨你的 stack:

对你的 help doc 做 RAG — 切块、embed 你已发布的文件、FAQ、服务条款、面对客户的内部知识。
范围窄的 LLM agent — Claude 4.5 或 GPT-5 加锁在你的领域的系统 prompt。
严格 guardrail — 绝不发明政策、绝不确认金融交易、绝不代表公司做承诺。
一键升级给人 — 显眼、低摩擦。「找真人」一直是按钮,不被埋。
可观察 transcript — 每段对话 log 起来,人每周审核。

不要加:角色扮演(「我是 Sarah,你的支持专员!」)、过多人格、声音克隆、或任何可能误导客户在跟人讲话的东西。

系统 prompt 模板

基本能用的模板:

你是 [公司] 的自动化助手。你只用 context 里提供的文件帮客户处理常见问题。

规则:
- 第一条消息一定表明你是自动化助手
- 只回答提供的文件能直接支撑的问题
- 绝不发明政策、价格、承诺
- 绝不确认退款、取消、帐号变动 — 一律说「会由真人团队处理」并触发 handoff
- 任何情绪、挫折、升温的 — 立刻给人 handoff 选项
- 在答案里引用相关文件章节
- 不能帮忙时清楚说明并给 handoff 选项

让系统 prompt 的限制比你以为需要的更严。一个错的退款承诺(损失 $50-500 善意)比一个不必要的 handoff(5 分钟人时)成本高得多。

怎么量是不是 work

三个指标重要:

Deflection rate — 多少对话没让人介入就结束?好的产品落在 30-50%。超过 70% 大概代表你在让客户失望(他们放弃,不是满足)。
AI 对话的 CSAT — 对客户做问卷。AI 对话评分应该至少在人类对话的 80% 内。如果评分明显低,bot 在让事情变糟。
各主题的升级率 — 追踪哪些主题升级。如果 90% 的「退款」问题升级,直接把退款 route 给真人。

真人每周审核 transcript 没得商量。你会发现 bot 讲出你没预期的话 — 有时候很棒、有时候很糟。

什么时候不要自动化

某些 ticket 类型绝对不要碰 LLM:

帐号 access 问题 — bot 根据错信息重设凭证有信息安全风险
退款跟拒付 — 财务承诺需要人工授权
法律威胁 / GDPR / 监管 — 「请删我的资料」需要第一次就做对
健康、医疗、心理健康 — 连相邻行业(保险、健身)都应该升级情绪健康的 flag
危机或自杀相关 — 立刻 handoff 给人加危机专线,没得商量
VIP / 高价值客户 — 用你的人力资源在会 churn 大钱的人身上

为这些建立明确侦测,绕过 LLM。

自动化反而伤害的时候

你的客户基础重视关系(高接触 B2B、专业服务、premium 消费品牌),自动化感觉冷。Deflection 省下的可能是真的,但客户忠诚在更难量的方式上侵蚀。

你的产品常坏,用支援的客户是生气的。能对生气客户冷静、有信息地回应的 LLM 可以 work — 但过度雀跃或要求他们重新表述的会让事情更糟。

你的 help doc 烂,LLM 就会烂。RAG 只跟来源一样好。大部分团队在自动化划算之前需要投资写更好的文件。常常光写文件就 deflect 掉 ticket,根本不需要 AI。

实际部署计画

第 1 周:挑量最大的 top 20 ticket 类型。每一个确保有清楚、公开的 help doc。

第 2 周:把 help doc ingest 进 vector store。在上面做基本 RAG。

第 3 周:在「shadow mode」部署 LLM — 它生草稿给人类客服,但真人发实际回覆。看到什么就调 prompt。

第 4-6 周:对自我认定低风险主题(FAQ、营业时间、退货政策)启用 AI 回覆。一直显眼地给升级选项。看指标。

第 7 周起:根据数据扩张主题覆盖。绝不扩进危险区(退款、帐号、法律)。

不要第一天就把 bot 上给所有客户。渐进 rollout — 1%、10%、50%、100% — 每阶段看指标。

揭露跟同意

把 bot 认作 bot。一定,在第一条消息。「嗨!我是自动化助手。我能帮 X、Y、Z。更复杂的我会帮你接到真人。」

这不只是伦理。欧盟 AI Act 跟加州的 bot 揭露法都要求。而且客户信任被「感觉被骗」破坏的速度比知道在跟 AI 讲话快得多。

不要藏跟真人讲话的选项。不要弄成迷宫。「找真人」应该一直可见。

决策树

高量、有文件问题、B2C:小心自动化第一线
高接触 B2B、premium 消费:不要自动化;用 AI 在内部帮客服
医疗、金融、法律:全部升级;AI 只用在内部分流
Tier-2/3 技术支援:AI 给内部 agent assist,不面对客户

下一步

看一下专门为客服做的 RAG(切 help doc 的方式跟通用 RAG 不同)
看内建 AI 的客服平台:Intercom Fin、Zendesk AI Agents、Dixa
读客服场景的 prompt injection(用户会试着破坏你的 bot)
上线前设好 shadow mode;量 deflection 跟 CSAT,两个都重要