用 AI 清理乱掉的 CSV / Excel 数据

做过真实世界资料的人都盯着试算表想过「这要花我四小时清」。大小写不一致。日期格式混。电话号码有随机标点。自由文字类别里 'United States'、'USA'、'US'、'America' 都是同一个。AI 在这里真的有变革性 — 小心用的话。

AI 清得好的

标准化分类值(国家名、状态码、产品类别)
把日期跟电话号码重新格式化成一致格式
把全名拆成 first/last
根据规则合并或拆 column
检测名字跟 email 里明显的 typo
从 context 推断缺资料(「这列 city 是 Tokyo,country 大概是 Japan」)
生你会花 30 分钟的 regex
写规模化做清理的 Pandas / SQL code

AI 做得差的

任何需要它没有的领域知识(你行业特定的产品分类)
检测微妙的资料 corruption(看起来合理但错)
需要咨询外部来源拿真相的清理
高精度去重(「Apple Inc 的 John Smith 跟 Apple 的 J. Smith 是同一个人吗?」)
任何错不可接受的事

两个工作流

< 1000 行的 one-off 清理: 把资料直接贴进 Claude 或 GPT。描述你要什么。拿回清过的资料。抽查验证。

反复清理或 > 1000 行: 要 AI 写 code(Pandas、dbt、SQL、Excel 公式)做清理。自己跑 code。AI 在 chat 里不可靠处理几千行 — context 被截、结果不一致。

实际例子

你有联系人表,公司名很乱。「google」、「Google Inc」、「google.com」、「GOOGLE」全部要变「Google」。

200 行:贴、问。「标准化 company column。用 canonical 公司名。配对常见别名(例如 'google.com' → 'Google')。输出为 CSV。」

200,000 行:要 AI 生清理 code。「写 Python 接受带 'company' column 的 Pandas DataFrame,用我提供的 mapping 标准化值。Mapping 是:[...]。Mapping 里没的值,用字串 normalization 规则:小写、剥标点、剥 'inc/ltd/llc' 后缀、再 title-case。」

Code 方法可稽核、快、处理规模。

有用的 prompt pattern

这 CSV 有 [问题]。具体规则:
- [规则 1]
- [规则 2]
不要:[要避免的常见错误]
输出:同样 column 跟行数的清过 CSV。
任何你不确定的列,值留空、加 'review_flag=true' column。

review_flag column 很关键。强迫 AI 承认不确定而不是自信编造。

验证习惯

信任清过资料前永远验证:

行数符合输入(没不小心丢列)
随机抽 10 列检查正确性
检查金钱 column 的总和(清理不该改它们)
搜寻哨兵值(「unknown」、「n/a」、「」) — 它们有正确被清吗?
跟原本对 diff;改动看起来对吗?

重要资料,跑 AI 清理、然后要 AI 验证自己的工作:「比对输出跟输入。列出清理改了意义而不只是格式的列。」同模型常常抓到自己错误。

隐私考量

不要把敏感资料贴进 ChatGPT 或任何消费者层 AI:

客户 PII(名字、email、地址)
健康记录
金融交易资料
任何受监管的

用:有资料隐私保证的企业层、或自架模型(Llama、Qwen)给任何不该离开你环境的资料。非常敏感资料,清理工作流转成 AI 生 code、你本地跑 — 资料从不去 AI。

什么时候不要用 AI 清理

资料已结构化、你有清楚 mapping 时,直接写 code。5 行 Pandas operation 不值得 AI overhead。

你还不知「干净」是什么。AI 会尽责套用任何你给的规则。没决定规则,AI 清理把错决定编进去。

真相需要外部 lookup 的资料。「这是活跃商业吗?」「这地址对吗?」 — AI 猜;你需要 API。

Production 资料管线。AI 帮草拟清理逻辑;production 应该跑确定性 code,不是每列 AI call。

整合 AI 给资料的工具

Claude with files — 贴 CSV、拿清过输出
OpenAI Code Interpreter — 在你上传的资料上跑 Python
Numerous、Rows、Coda — 带内建 AI 清理公式的试算表
Hex / Mode — 带 AI 辅助 notebook 的分析平台
dbt + AI — production 转换,AI 帮你写 dbt model

用 AI 前后的生产力倍数

资料清理特别,AI 是 2026 年最高倍数生产力工具之一:

过去 4 小时手动工作的任务:20 分钟
你会避免因为不想学语法的 regex:现在可行
你不然会跳过的清理任务:现在值得做

陷阱:对 AI 输出的信心而没验证。错清过的资料比乱的资料糟,因为之后没人质疑。把验证建进你工作流。

决策树

One-off 清理、< 1000 行:贴进 Claude/GPT、验证
反复工作流或 > 1000 行:AI 生 code、你跑
敏感资料:自架模型或 AI 写 code 你本地跑
Production 管线:AI 开发用、production 用确定性 code
高风险资料(金融、监管):AI 当草稿、人工审查强制

下一步

为你常见资料形状建清理规则文件
对你一直避免的清理任务试 AI;量省下时间
看 Pandas / SQL 清理 pattern 学长期技能
敏感资料,在 paste-into-ChatGPT 变习惯前看保护隐私的设置