做过真实世界资料的人都盯着试算表想过「这要花我四小时清」。大小写不一致。日期格式混。电话号码有随机标点。自由文字类别里 'United States'、'USA'、'US'、'America' 都是同一个。AI 在这里真的有变革性 — 小心用的话。
AI 清得好的
- 标准化分类值(国家名、状态码、产品类别)
- 把日期跟电话号码重新格式化成一致格式
- 把全名拆成 first/last
- 根据规则合并或拆 column
- 检测名字跟 email 里明显的 typo
- 从 context 推断缺资料(「这列 city 是 Tokyo,country 大概是 Japan」)
- 生你会花 30 分钟的 regex
- 写规模化做清理的 Pandas / SQL code
AI 做得差的
- 任何需要它没有的领域知识(你行业特定的产品分类)
- 检测微妙的资料 corruption(看起来合理但错)
- 需要咨询外部来源拿真相的清理
- 高精度去重(「Apple Inc 的 John Smith 跟 Apple 的 J. Smith 是同一个人吗?」)
- 任何错不可接受的事
两个工作流
< 1000 行的 one-off 清理: 把资料直接贴进 Claude 或 GPT。描述你要什么。拿回清过的资料。抽查验证。
反复清理或 > 1000 行: 要 AI 写 code(Pandas、dbt、SQL、Excel 公式)做清理。自己跑 code。AI 在 chat 里不可靠处理几千行 — context 被截、结果不一致。
实际例子
你有联系人表,公司名很乱。「google」、「Google Inc」、「google.com」、「GOOGLE」全部要变「Google」。
200 行:贴、问。「标准化 company column。用 canonical 公司名。配对常见别名(例如 'google.com' → 'Google')。输出为 CSV。」
200,000 行:要 AI 生清理 code。「写 Python 接受带 'company' column 的 Pandas DataFrame,用我提供的 mapping 标准化值。Mapping 是:[...]。Mapping 里没的值,用字串 normalization 规则:小写、剥标点、剥 'inc/ltd/llc' 后缀、再 title-case。」
Code 方法可稽核、快、处理规模。
有用的 prompt pattern
这 CSV 有 [问题]。具体规则:
- [规则 1]
- [规则 2]
不要:[要避免的常见错误]
输出:同样 column 跟行数的清过 CSV。
任何你不确定的列,值留空、加 'review_flag=true' column。
review_flag column 很关键。强迫 AI 承认不确定而不是自信编造。
验证习惯
信任清过资料前永远验证:
- 行数符合输入(没不小心丢列)
- 随机抽 10 列检查正确性
- 检查金钱 column 的总和(清理不该改它们)
- 搜寻哨兵值(「unknown」、「n/a」、「」) — 它们有正确被清吗?
- 跟原本对 diff;改动看起来对吗?
重要资料,跑 AI 清理、然后要 AI 验证自己的工作:「比对输出跟输入。列出清理改了意义而不只是格式的列。」同模型常常抓到自己错误。
隐私考量
不要把敏感资料贴进 ChatGPT 或任何消费者层 AI:
- 客户 PII(名字、email、地址)
- 健康记录
- 金融交易资料
- 任何受监管的
用:有资料隐私保证的企业层、或自架模型(Llama、Qwen)给任何不该离开你环境的资料。非常敏感资料,清理工作流转成 AI 生 code、你本地跑 — 资料从不去 AI。
什么时候不要用 AI 清理
资料已结构化、你有清楚 mapping 时,直接写 code。5 行 Pandas operation 不值得 AI overhead。
你还不知「干净」是什么。AI 会尽责套用任何你给的规则。没决定规则,AI 清理把错决定编进去。
真相需要外部 lookup 的资料。「这是活跃商业吗?」「这地址对吗?」 — AI 猜;你需要 API。
Production 资料管线。AI 帮草拟清理逻辑;production 应该跑确定性 code,不是每列 AI call。
整合 AI 给资料的工具
- Claude with files — 贴 CSV、拿清过输出
- OpenAI Code Interpreter — 在你上传的资料上跑 Python
- Numerous、Rows、Coda — 带内建 AI 清理公式的试算表
- Hex / Mode — 带 AI 辅助 notebook 的分析平台
- dbt + AI — production 转换,AI 帮你写 dbt model
用 AI 前后的生产力倍数
资料清理特别,AI 是 2026 年最高倍数生产力工具之一:
- 过去 4 小时手动工作的任务:20 分钟
- 你会避免因为不想学语法的 regex:现在可行
- 你不然会跳过的清理任务:现在值得做
陷阱:对 AI 输出的信心而没验证。错清过的资料比乱的资料糟,因为之后没人质疑。把验证建进你工作流。
决策树
- One-off 清理、< 1000 行:贴进 Claude/GPT、验证
- 反复工作流或 > 1000 行:AI 生 code、你跑
- 敏感资料:自架模型或 AI 写 code 你本地跑
- Production 管线:AI 开发用、production 用确定性 code
- 高风险资料(金融、监管):AI 当草稿、人工审查强制
下一步
- 为你常见资料形状建清理规则文件
- 对你一直避免的清理任务试 AI;量省下时间
- 看 Pandas / SQL 清理 pattern 学长期技能
- 敏感资料,在 paste-into-ChatGPT 变习惯前看保护隐私的设置