什么是多模态(multimodal)模型?AI 能同时看、听、读

多模态模型是指能在单一架构内处理多种输入 — 文字、图片、音频、有时是视频 — 的模型。2026 年主流前沿模型(Claude、GPT-5、Gemini)默认都是多模态。你可以贴一张错误消息截图、白板照片、图表、PDF,模型把它当对话的一部分。这比听起来重要,因为现实世界很大一部分信息不是文字。

多模态到底是什么意思

几年前的标准流程是先 OCR 图片成文字,再送进语言模型。现在模型本身就在处理像素。它不先把图转成文字,而是直接对图推理。所以它能读截图里的文字,也能描述版面、数物件、辨识图表,做到纯文字方法做不到的推论。

2026 年前沿模型实际接受的输入:

文字 — 原始模态,还是主力。
图片 — JPEG、PNG、截图。多数 API 一则消息能放好几张。合理分辨率:长边约 1024 像素。
PDF 跟文档 — 当成「页面图片序列 + 抽取文字」处理,Claude 特别强。
音频 — Gemini 跟 GPT-4o 直接接受音频,你能跟它讲话。ElevenLabs、Whisper 等则是另开一步转文字。
视频 — Gemini 2.5 Pro 直接接受视频,frame-level 推理。分析录像、demo、监控画面有用。

关键转折:这些不是多个模型拼起来。模型只有一组权重,所有模态一起学,所以它能跨模态推理(「图表显示增长,但图说宣称下滑,哪个才对?」)。

多模态能做什么

**强化版 OCR。**贴一张付费墙文章截图、一则 tweet、厂商 UI 的 bug 报告、合同扫描件 — 模型读得出来。

**UI / 设计反馈。**丢你 app 的截图问「这个 onboarding 画面有什么问题?」模型看得到版面、找出摩擦点。

**图表跟数据判读。**贴一张图表、问趋势、异常、或它暗示的数字。一次性分析有用,但高风险财务判读容易错。

**截图转 code。**贴一张 Figma 截图,得到 HTML/CSS。v0 跟 Lovable 大量靠这个 — 多模态模型读设计然后生 code。

**视觉 agent。**Anthropic 的 computer use 就是模型在 agent 跑的时候看着屏幕。同一个模型根据看到的东西决定点哪里。

**文档 QA。**长 PDF(论文、合同、财报)以前要特殊工具,现在上传就问。

诚实的弱点

多模态模型没有眼睛。它有一个 image encoder 把图转成 token,语言模型再对这些 token 推理。所以:

**细节会掉。**截图里的小字、照片里远处的招牌、合同里的小条款 — 多模态模型常常漏看或读错。要靠它前先测试。

没办法可靠地计数或量测。「这张照片里有几个人」「条形图是 15 还是 17%」 — 答案不可靠。粗略判读比精确量化强。

**图片上也会幻觉。**模型会自信地描述根本没有的东西,尤其被诱导性问题引(「描述角落那只猫」 — 根本没猫)。

**OCR-perfect 它不是。**高精度文字抽取(发票、证件、法律文件),AWS Textract、Google Document AI 这类专业 OCR 还是赢。多模态 LLM 是好帮手不是替代品。

**成本较高。**图片输入比文字贵 — 通常一张图约 800-1500 input tokens。预算要算进去。

2026 年实际信得过的场景

Production 我会放心用:

客服工单里读截图抽 context
研究跟报告流程里分析图表图片
为无障碍生成 alt text
旅游/烹饪 app 读菜单、招牌、成分表
设计转 code 的 prototype 流程
文档第一轮 review(配人工确认)

要小心的:

医疗影像(专科模型还是赢)
财务图表精确读数(数字要验)
从照片辨识特定人(隐私、准确度)
监控 / 安防影像分析(需要 eval)

2026 年怎么调用多模态

Anthropic SDK 的示例:

const msg = await client.messages.create({
  model: "claude-sonnet-4",
  max_tokens: 1024,
  messages: [{
    role: "user",
    content: [
      { type: "image", source: { type: "base64", media_type: "image/png", data: imageBase64 } },
      { type: "text", text: "What's wrong with this UI?" }
    ]
  }]
});

OpenAI、Gemini SDK 大同小异。多数现代 SDK 接受图片 URL、base64 数据、或文件上传。

什么时候不要用多模态

**信息已经是文字。**不要把网页截图丢进去当图片,直接复制文字。便宜、快、准。
你要像素级精确输出。「把水印消掉」是生成任务,多模态理解模型不生图。请用 Flux、Midjourney、DALL-E。
**要 99.9% OCR 准确度。**用专业 OCR,LLM 顶多辅助。
**图片含敏感数据。**每次 API 调用像素都送到 provider,要考虑合规。