公司从 2023 年就在客服上叠 LLM。大部分部署不被客户喜欢、production 脆、18 个月内悄悄拿掉。会 work 的有共同 pattern:范围窄、容易升级、绝不假装是人。
「第一线」实际是什么
第一线支援是高量、低复杂度的进件:「怎么重设密码」、「我的退款在哪」、「你们退货政策是什么」、「能改寄送地址吗」。这些 ticket 文件齐全、答案已知、塞爆团队收件夹。大部分消费产品中占 60-80% ticket 量。
LLM 从你的 help doc 回这些超强。它不擅长:技术 debug、帐号 access 问题、任何法律相关、任何情绪、不在 doc 里的 edge case。
不要试着用 LLM 自动化 Tier-2 或 Tier-3。连 Tier-1 都应该慷慨升级。
能 work 的架构
真的能 deflect ticket 又不让客户恨你的 stack:
- 对你的 help doc 做 RAG — 切块、embed 你已发布的文件、FAQ、服务条款、面对客户的内部知识。
- 范围窄的 LLM agent — Claude 4.5 或 GPT-5 加锁在你的领域的系统 prompt。
- 严格 guardrail — 绝不发明政策、绝不确认金融交易、绝不代表公司做承诺。
- 一键升级给人 — 显眼、低摩擦。「找真人」一直是按钮,不被埋。
- 可观察 transcript — 每段对话 log 起来,人每周审核。
不要加:角色扮演(「我是 Sarah,你的支持专员!」)、过多人格、声音克隆、或任何可能误导客户在跟人讲话的东西。
系统 prompt 模板
基本能用的模板:
你是 [公司] 的自动化助手。你只用 context 里提供的文件帮客户处理常见问题。
规则:
- 第一条消息一定表明你是自动化助手
- 只回答提供的文件能直接支撑的问题
- 绝不发明政策、价格、承诺
- 绝不确认退款、取消、帐号变动 — 一律说「会由真人团队处理」并触发 handoff
- 任何情绪、挫折、升温的 — 立刻给人 handoff 选项
- 在答案里引用相关文件章节
- 不能帮忙时清楚说明并给 handoff 选项
让系统 prompt 的限制比你以为需要的更严。一个错的退款承诺(损失 $50-500 善意)比一个不必要的 handoff(5 分钟人时)成本高得多。
怎么量是不是 work
三个指标重要:
- Deflection rate — 多少对话没让人介入就结束?好的产品落在 30-50%。超过 70% 大概代表你在让客户失望(他们放弃,不是满足)。
- AI 对话的 CSAT — 对客户做问卷。AI 对话评分应该至少在人类对话的 80% 内。如果评分明显低,bot 在让事情变糟。
- 各主题的升级率 — 追踪哪些主题升级。如果 90% 的「退款」问题升级,直接把退款 route 给真人。
真人每周审核 transcript 没得商量。你会发现 bot 讲出你没预期的话 — 有时候很棒、有时候很糟。
什么时候不要自动化
某些 ticket 类型绝对不要碰 LLM:
- 帐号 access 问题 — bot 根据错信息重设凭证有信息安全风险
- 退款跟拒付 — 财务承诺需要人工授权
- 法律威胁 / GDPR / 监管 — 「请删我的资料」需要第一次就做对
- 健康、医疗、心理健康 — 连相邻行业(保险、健身)都应该升级情绪健康的 flag
- 危机或自杀相关 — 立刻 handoff 给人加危机专线,没得商量
- VIP / 高价值客户 — 用你的人力资源在会 churn 大钱的人身上
为这些建立明确侦测,绕过 LLM。
自动化反而伤害的时候
你的客户基础重视关系(高接触 B2B、专业服务、premium 消费品牌),自动化感觉冷。Deflection 省下的可能是真的,但客户忠诚在更难量的方式上侵蚀。
你的产品常坏,用支援的客户是生气的。能对生气客户冷静、有信息地回应的 LLM 可以 work — 但过度雀跃或要求他们重新表述的会让事情更糟。
你的 help doc 烂,LLM 就会烂。RAG 只跟来源一样好。大部分团队在自动化划算之前需要投资写更好的文件。常常光写文件就 deflect 掉 ticket,根本不需要 AI。
实际部署计画
第 1 周:挑量最大的 top 20 ticket 类型。每一个确保有清楚、公开的 help doc。
第 2 周:把 help doc ingest 进 vector store。在上面做基本 RAG。
第 3 周:在「shadow mode」部署 LLM — 它生草稿给人类客服,但真人发实际回覆。看到什么就调 prompt。
第 4-6 周:对自我认定低风险主题(FAQ、营业时间、退货政策)启用 AI 回覆。一直显眼地给升级选项。看指标。
第 7 周起:根据数据扩张主题覆盖。绝不扩进危险区(退款、帐号、法律)。
不要第一天就把 bot 上给所有客户。渐进 rollout — 1%、10%、50%、100% — 每阶段看指标。
揭露跟同意
把 bot 认作 bot。一定,在第一条消息。「嗨!我是自动化助手。我能帮 X、Y、Z。更复杂的我会帮你接到真人。」
这不只是伦理。欧盟 AI Act 跟加州的 bot 揭露法都要求。而且客户信任被「感觉被骗」破坏的速度比知道在跟 AI 讲话快得多。
不要藏跟真人讲话的选项。不要弄成迷宫。「找真人」应该一直可见。
决策树
- 高量、有文件问题、B2C:小心自动化第一线
- 高接触 B2B、premium 消费:不要自动化;用 AI 在内部帮客服
- 医疗、金融、法律:全部升级;AI 只用在内部分流
- Tier-2/3 技术支援:AI 给内部 agent assist,不面对客户
下一步
- 看一下专门为客服做的 RAG(切 help doc 的方式跟通用 RAG 不同)
- 看内建 AI 的客服平台:Intercom Fin、Zendesk AI Agents、Dixa
- 读客服场景的 prompt injection(用户会试着破坏你的 bot)
- 上线前设好 shadow mode;量 deflection 跟 CSAT,两个都重要