做過真實世界資料的人都盯著試算表想過「這要花我四小時清」。大小寫不一致。日期格式混。電話號碼有隨機標點。自由文字類別裡 'United States'、'USA'、'US'、'America' 都是同一個。AI 在這裡真的有變革性 — 小心用的話。
AI 清得好的
- 標準化分類值(國家名、狀態碼、產品類別)
- 把日期跟電話號碼重新格式化成一致格式
- 把全名拆成 first/last
- 根據規則合併或拆 column
- 偵測名字跟 email 裡明顯的 typo
- 從 context 推斷缺資料(「這列 city 是 Tokyo,country 大概是 Japan」)
- 生你會花 30 分鐘的 regex
- 寫規模化做清理的 Pandas / SQL code
AI 做得差的
- 任何需要它沒有的領域知識(你產業特定的產品分類)
- 偵測微妙的資料 corruption(看起來合理但錯)
- 需要諮詢外部來源拿真相的清理
- 高精度去重(「Apple Inc 的 John Smith 跟 Apple 的 J. Smith 是同一個人嗎?」)
- 任何錯不可接受的事
兩個工作流
< 1000 行的 one-off 清理: 把資料直接貼進 Claude 或 GPT。描述你要什麼。拿回清過的資料。抽查驗證。
反覆清理或 > 1000 行: 要 AI 寫 code(Pandas、dbt、SQL、Excel 公式)做清理。自己跑 code。AI 在 chat 裡不可靠處理幾千行 — context 被截、結果不一致。
實際例子
你有聯絡人表,公司名很亂。「google」、「Google Inc」、「google.com」、「GOOGLE」全部要變「Google」。
200 行:貼、問。「標準化 company column。用 canonical 公司名。配對常見別名(例如 'google.com' → 'Google')。輸出為 CSV。」
200,000 行:要 AI 生清理 code。「寫 Python 接受帶 'company' column 的 Pandas DataFrame,用我提供的 mapping 標準化值。Mapping 是:[...]。Mapping 裡沒的值,用字串 normalization 規則:小寫、剝標點、剝 'inc/ltd/llc' 後綴、再 title-case。」
Code 方法可稽核、快、處理規模。
有用的 prompt pattern
這 CSV 有 [問題]。具體規則:
- [規則 1]
- [規則 2]
不要:[要避免的常見錯誤]
輸出:同樣 column 跟行數的清過 CSV。
任何你不確定的列,值留空、加 'review_flag=true' column。
review_flag column 很關鍵。強迫 AI 承認不確定而不是自信編造。
驗證習慣
信任清過資料前永遠驗證:
- 行數符合輸入(沒不小心丟列)
- 隨機抽 10 列檢查正確性
- 檢查金錢 column 的總和(清理不該改它們)
- 搜尋哨兵值(「unknown」、「n/a」、「」) — 它們有正確被清嗎?
- 跟原本對 diff;改動看起來對嗎?
重要資料,跑 AI 清理、然後要 AI 驗證自己的工作:「比對輸出跟輸入。列出清理改了意義而不只是格式的列。」同模型常常抓到自己錯誤。
隱私考量
不要把敏感資料貼進 ChatGPT 或任何消費者層 AI:
- 客戶 PII(名字、email、地址)
- 健康記錄
- 金融交易資料
- 任何受監管的
用:有資料隱私保證的企業層、或自架模型(Llama、Qwen)給任何不該離開你環境的資料。非常敏感資料,清理工作流轉成 AI 生 code、你本地跑 — 資料從不去 AI。
什麼時候不要用 AI 清理
資料已結構化、你有清楚 mapping 時,直接寫 code。5 行 Pandas operation 不值得 AI overhead。
你還不知「乾淨」是什麼。AI 會盡責套用任何你給的規則。沒決定規則,AI 清理把錯決定編進去。
真相需要外部 lookup 的資料。「這是活躍商業嗎?」「這地址對嗎?」 — AI 猜;你需要 API。
Production 資料管線。AI 幫草擬清理邏輯;production 應該跑確定性 code,不是每列 AI call。
整合 AI 給資料的工具
- Claude with files — 貼 CSV、拿清過輸出
- OpenAI Code Interpreter — 在你上傳的資料上跑 Python
- Numerous、Rows、Coda — 帶內建 AI 清理公式的試算表
- Hex / Mode — 帶 AI 輔助 notebook 的分析平台
- dbt + AI — production 轉換,AI 幫你寫 dbt model
用 AI 前後的生產力倍數
資料清理特別,AI 是 2026 年最高倍數生產力工具之一:
- 過去 4 小時手動工作的任務:20 分鐘
- 你會避免因為不想學語法的 regex:現在可行
- 你不然會跳過的清理任務:現在值得做
陷阱:對 AI 輸出的信心而沒驗證。錯清過的資料比亂的資料糟,因為之後沒人質疑。把驗證建進你工作流。
決策樹
- One-off 清理、< 1000 行:貼進 Claude/GPT、驗證
- 反覆工作流或 > 1000 行:AI 生 code、你跑
- 敏感資料:自架模型或 AI 寫 code 你本地跑
- Production 管線:AI 開發用、production 用確定性 code
- 高風險資料(金融、監管):AI 當草稿、人工審查強制
下一步
- 為你常見資料形狀建清理規則文件
- 對你一直避免的清理任務試 AI;量省下時間
- 看 Pandas / SQL 清理 pattern 學長期技能
- 敏感資料,在 paste-into-ChatGPT 變習慣前看保護隱私的設置