用 AI 清理亂掉的 CSV / Excel 資料

做過真實世界資料的人都盯著試算表想過「這要花我四小時清」。大小寫不一致。日期格式混。電話號碼有隨機標點。自由文字類別裡 'United States'、'USA'、'US'、'America' 都是同一個。AI 在這裡真的有變革性 — 小心用的話。

AI 清得好的

標準化分類值(國家名、狀態碼、產品類別)
把日期跟電話號碼重新格式化成一致格式
把全名拆成 first/last
根據規則合併或拆 column
偵測名字跟 email 裡明顯的 typo
從 context 推斷缺資料(「這列 city 是 Tokyo,country 大概是 Japan」)
生你會花 30 分鐘的 regex
寫規模化做清理的 Pandas / SQL code

AI 做得差的

任何需要它沒有的領域知識(你產業特定的產品分類)
偵測微妙的資料 corruption(看起來合理但錯)
需要諮詢外部來源拿真相的清理
高精度去重(「Apple Inc 的 John Smith 跟 Apple 的 J. Smith 是同一個人嗎?」)
任何錯不可接受的事

兩個工作流

< 1000 行的 one-off 清理: 把資料直接貼進 Claude 或 GPT。描述你要什麼。拿回清過的資料。抽查驗證。

反覆清理或 > 1000 行: 要 AI 寫 code(Pandas、dbt、SQL、Excel 公式)做清理。自己跑 code。AI 在 chat 裡不可靠處理幾千行 — context 被截、結果不一致。

實際例子

你有聯絡人表,公司名很亂。「google」、「Google Inc」、「google.com」、「GOOGLE」全部要變「Google」。

200 行:貼、問。「標準化 company column。用 canonical 公司名。配對常見別名(例如 'google.com' → 'Google')。輸出為 CSV。」

200,000 行:要 AI 生清理 code。「寫 Python 接受帶 'company' column 的 Pandas DataFrame,用我提供的 mapping 標準化值。Mapping 是:[...]。Mapping 裡沒的值,用字串 normalization 規則:小寫、剝標點、剝 'inc/ltd/llc' 後綴、再 title-case。」

Code 方法可稽核、快、處理規模。

有用的 prompt pattern

這 CSV 有 [問題]。具體規則:
- [規則 1]
- [規則 2]
不要:[要避免的常見錯誤]
輸出:同樣 column 跟行數的清過 CSV。
任何你不確定的列,值留空、加 'review_flag=true' column。

review_flag column 很關鍵。強迫 AI 承認不確定而不是自信編造。

驗證習慣

信任清過資料前永遠驗證:

行數符合輸入(沒不小心丟列)
隨機抽 10 列檢查正確性
檢查金錢 column 的總和(清理不該改它們)
搜尋哨兵值(「unknown」、「n/a」、「」) — 它們有正確被清嗎?
跟原本對 diff;改動看起來對嗎?

重要資料,跑 AI 清理、然後要 AI 驗證自己的工作:「比對輸出跟輸入。列出清理改了意義而不只是格式的列。」同模型常常抓到自己錯誤。

隱私考量

不要把敏感資料貼進 ChatGPT 或任何消費者層 AI:

客戶 PII(名字、email、地址)
健康記錄
金融交易資料
任何受監管的

用:有資料隱私保證的企業層、或自架模型(Llama、Qwen)給任何不該離開你環境的資料。非常敏感資料,清理工作流轉成 AI 生 code、你本地跑 — 資料從不去 AI。

什麼時候不要用 AI 清理

資料已結構化、你有清楚 mapping 時,直接寫 code。5 行 Pandas operation 不值得 AI overhead。

你還不知「乾淨」是什麼。AI 會盡責套用任何你給的規則。沒決定規則,AI 清理把錯決定編進去。

真相需要外部 lookup 的資料。「這是活躍商業嗎?」「這地址對嗎?」 — AI 猜;你需要 API。

Production 資料管線。AI 幫草擬清理邏輯;production 應該跑確定性 code,不是每列 AI call。

整合 AI 給資料的工具

Claude with files — 貼 CSV、拿清過輸出
OpenAI Code Interpreter — 在你上傳的資料上跑 Python
Numerous、Rows、Coda — 帶內建 AI 清理公式的試算表
Hex / Mode — 帶 AI 輔助 notebook 的分析平台
dbt + AI — production 轉換,AI 幫你寫 dbt model

用 AI 前後的生產力倍數

資料清理特別,AI 是 2026 年最高倍數生產力工具之一:

過去 4 小時手動工作的任務:20 分鐘
你會避免因為不想學語法的 regex:現在可行
你不然會跳過的清理任務:現在值得做

陷阱:對 AI 輸出的信心而沒驗證。錯清過的資料比亂的資料糟,因為之後沒人質疑。把驗證建進你工作流。

決策樹

One-off 清理、< 1000 行:貼進 Claude/GPT、驗證
反覆工作流或 > 1000 行:AI 生 code、你跑
敏感資料:自架模型或 AI 寫 code 你本地跑
Production 管線:AI 開發用、production 用確定性 code
高風險資料(金融、監管):AI 當草稿、人工審查強制

下一步

為你常見資料形狀建清理規則文件
對你一直避免的清理任務試 AI;量省下時間
看 Pandas / SQL 清理 pattern 學長期技能
敏感資料,在 paste-into-ChatGPT 變習慣前看保護隱私的設置