多模態模型是指能在單一架構內處理多種輸入 — 文字、圖片、音訊、有時是影片 — 的模型。2026 年主流前沿模型(Claude、GPT-5、Gemini)預設都是多模態。你可以貼一張錯誤訊息截圖、白板照片、圖表、PDF,模型把它當對話的一部分。這比聽起來重要,因為現實世界很大一部分資訊不是文字。
多模態到底是什麼意思
幾年前的標準流程是先 OCR 圖片成文字,再送進語言模型。現在模型本身就在處理像素。它不先把圖轉成文字,而是直接對圖推理。所以它能讀截圖裡的文字,也能描述版面、數物件、辨識圖表,做到純文字方法做不到的推論。
2026 年前沿模型實際接受的輸入:
- 文字 — 原始模態,還是主力。
- 圖片 — JPEG、PNG、截圖。多數 API 一則訊息能放好幾張。合理解析度:長邊約 1024 像素。
- PDF 跟文件 — 當成「頁面圖片序列 + 擷取文字」處理,Claude 特別強。
- 音訊 — Gemini 跟 GPT-4o 直接接受音訊,你能跟它講話。ElevenLabs、Whisper 等則是另開一步轉文字。
- 影片 — Gemini 2.5 Pro 直接接受影片,frame-level 推理。分析錄影、demo、監視畫面有用。
關鍵轉折:這些不是多個模型拼起來。模型只有一組權重,所有模態一起學,所以它能跨模態推理(「圖表顯示成長,但圖說宣稱衰退,哪個才對?」)。
多模態能做什麼
**強化版 OCR。**貼一張付費牆文章截圖、一則 tweet、廠商 UI 的 bug 報告、合約掃描檔 — 模型讀得出來。
**UI / 設計回饋。**丟你 app 的截圖問「這個 onboarding 畫面有什麼問題?」模型看得到版面、找出摩擦點。
**圖表跟資料判讀。**貼一張圖表、問趨勢、異常、或它暗示的數字。一次性分析有用,但高風險財務判讀容易錯。
**截圖轉 code。**貼一張 Figma 截圖,得到 HTML/CSS。v0 跟 Lovable 大量靠這個 — 多模態模型讀設計然後生 code。
**視覺 agent。**Anthropic 的 computer use 就是模型在 agent 跑的時候看著螢幕。同一個模型根據看到的東西決定點哪裡。
**文件 QA。**長 PDF(論文、合約、財報)以前要特殊工具,現在上傳就問。
誠實的弱點
多模態模型沒有眼睛。它有一個 image encoder 把圖轉成 token,語言模型再對這些 token 推理。所以:
**細節會掉。**截圖裡的小字、照片裡遠處的招牌、合約裡的小條款 — 多模態模型常常漏看或讀錯。要靠它前先測試。
沒辦法可靠地計數或量測。「這張照片裡有幾個人」「長條圖是 15 還是 17%」 — 答案不可靠。粗略判讀比精確量化強。
**圖片上也會幻覺。**模型會自信地描述根本沒有的東西,尤其被誘導性問題引(「描述角落那隻貓」 — 根本沒貓)。
**OCR-perfect 它不是。**高精度文字抽取(發票、證件、法律文件),AWS Textract、Google Document AI 這類專業 OCR 還是贏。多模態 LLM 是好幫手不是替代品。
**成本較高。**圖片輸入比文字貴 — 通常一張圖約 800-1500 input tokens。預算要算進去。
2026 年實際信得過的場景
Production 我會放心用:
- 客服工單裡讀截圖抽 context
- 研究跟報告流程裡分析圖表圖片
- 為無障礙產生 alt text
- 旅遊/烹飪 app 讀菜單、招牌、成分表
- 設計轉 code 的 prototype 流程
- 文件第一輪 review(配人工確認)
要小心的:
- 醫療影像(專科模型還是贏)
- 財務圖表精確讀數(數字要驗)
- 從照片辨識特定人(隱私、準確度)
- 監視 / 安防影像分析(需要 eval)
2026 年怎麼呼叫多模態
Anthropic SDK 的範例:
const msg = await client.messages.create({
model: "claude-sonnet-4",
max_tokens: 1024,
messages: [{
role: "user",
content: [
{ type: "image", source: { type: "base64", media_type: "image/png", data: imageBase64 } },
{ type: "text", text: "What's wrong with this UI?" }
]
}]
});
OpenAI、Gemini SDK 大同小異。多數現代 SDK 接受圖片 URL、base64 資料、或檔案上傳。
什麼時候不要用多模態
- **資訊已經是文字。**不要把網頁截圖丟進去當圖片,直接複製文字。便宜、快、準。
- 你要像素級精確輸出。「把浮水印消掉」是生成任務,多模態理解模型不生圖。請用 Flux、Midjourney、DALL-E。
- **要 99.9% OCR 準確度。**用專業 OCR,LLM 頂多輔助。
- **圖片含敏感資料。**每次 API 呼叫像素都送到 provider,要考慮合規。
延伸閱讀
- 什麼是 LLM
- 什麼是 context window
- 不會看起來假的 AI 商品照(電商用)
- 怎麼挑圖像生成工具(Midjourney vs Flux vs Ideogram)
- 用 AI 寫 UX 文案:什麼時候 work、什麼時候毀掉你的語氣