什麼是多模態(multimodal)模型?AI 能同時看、聽、讀

多模態模型是指能在單一架構內處理多種輸入 — 文字、圖片、音訊、有時是影片 — 的模型。2026 年主流前沿模型(Claude、GPT-5、Gemini)預設都是多模態。你可以貼一張錯誤訊息截圖、白板照片、圖表、PDF,模型把它當對話的一部分。這比聽起來重要,因為現實世界很大一部分資訊不是文字。

多模態到底是什麼意思

幾年前的標準流程是先 OCR 圖片成文字,再送進語言模型。現在模型本身就在處理像素。它不先把圖轉成文字,而是直接對圖推理。所以它能讀截圖裡的文字,也能描述版面、數物件、辨識圖表,做到純文字方法做不到的推論。

2026 年前沿模型實際接受的輸入:

文字 — 原始模態,還是主力。
圖片 — JPEG、PNG、截圖。多數 API 一則訊息能放好幾張。合理解析度:長邊約 1024 像素。
PDF 跟文件 — 當成「頁面圖片序列 + 擷取文字」處理,Claude 特別強。
音訊 — Gemini 跟 GPT-4o 直接接受音訊,你能跟它講話。ElevenLabs、Whisper 等則是另開一步轉文字。
影片 — Gemini 2.5 Pro 直接接受影片,frame-level 推理。分析錄影、demo、監視畫面有用。

關鍵轉折:這些不是多個模型拼起來。模型只有一組權重,所有模態一起學,所以它能跨模態推理(「圖表顯示成長,但圖說宣稱衰退,哪個才對?」)。

多模態能做什麼

**強化版 OCR。**貼一張付費牆文章截圖、一則 tweet、廠商 UI 的 bug 報告、合約掃描檔 — 模型讀得出來。

**UI / 設計回饋。**丟你 app 的截圖問「這個 onboarding 畫面有什麼問題?」模型看得到版面、找出摩擦點。

**圖表跟資料判讀。**貼一張圖表、問趨勢、異常、或它暗示的數字。一次性分析有用,但高風險財務判讀容易錯。

**截圖轉 code。**貼一張 Figma 截圖,得到 HTML/CSS。v0 跟 Lovable 大量靠這個 — 多模態模型讀設計然後生 code。

**視覺 agent。**Anthropic 的 computer use 就是模型在 agent 跑的時候看著螢幕。同一個模型根據看到的東西決定點哪裡。

**文件 QA。**長 PDF(論文、合約、財報)以前要特殊工具,現在上傳就問。

誠實的弱點

多模態模型沒有眼睛。它有一個 image encoder 把圖轉成 token,語言模型再對這些 token 推理。所以:

**細節會掉。**截圖裡的小字、照片裡遠處的招牌、合約裡的小條款 — 多模態模型常常漏看或讀錯。要靠它前先測試。

沒辦法可靠地計數或量測。「這張照片裡有幾個人」「長條圖是 15 還是 17%」 — 答案不可靠。粗略判讀比精確量化強。

**圖片上也會幻覺。**模型會自信地描述根本沒有的東西,尤其被誘導性問題引(「描述角落那隻貓」 — 根本沒貓)。

**OCR-perfect 它不是。**高精度文字抽取(發票、證件、法律文件),AWS Textract、Google Document AI 這類專業 OCR 還是贏。多模態 LLM 是好幫手不是替代品。

**成本較高。**圖片輸入比文字貴 — 通常一張圖約 800-1500 input tokens。預算要算進去。

2026 年實際信得過的場景

Production 我會放心用:

客服工單裡讀截圖抽 context
研究跟報告流程裡分析圖表圖片
為無障礙產生 alt text
旅遊/烹飪 app 讀菜單、招牌、成分表
設計轉 code 的 prototype 流程
文件第一輪 review(配人工確認)

要小心的:

醫療影像(專科模型還是贏)
財務圖表精確讀數(數字要驗)
從照片辨識特定人(隱私、準確度)
監視 / 安防影像分析(需要 eval)

2026 年怎麼呼叫多模態

Anthropic SDK 的範例:

const msg = await client.messages.create({
  model: "claude-sonnet-4",
  max_tokens: 1024,
  messages: [{
    role: "user",
    content: [
      { type: "image", source: { type: "base64", media_type: "image/png", data: imageBase64 } },
      { type: "text", text: "What's wrong with this UI?" }
    ]
  }]
});

OpenAI、Gemini SDK 大同小異。多數現代 SDK 接受圖片 URL、base64 資料、或檔案上傳。

什麼時候不要用多模態

**資訊已經是文字。**不要把網頁截圖丟進去當圖片,直接複製文字。便宜、快、準。
你要像素級精確輸出。「把浮水印消掉」是生成任務,多模態理解模型不生圖。請用 Flux、Midjourney、DALL-E。
**要 99.9% OCR 準確度。**用專業 OCR,LLM 頂多輔助。
**圖片含敏感資料。**每次 API 呼叫像素都送到 provider,要考慮合規。