Multi-modal AI 能处理超过一种数据型态。纯文字 LLM 是 unimodal。一个能接图片加文字、跨两者推理的模型——「解释这张图表」、「这张 MRI 正常吗?」、「转录这张照片里的字」——就是 multi-modal。前沿现在延伸到音频(Whisper、GPT-4o voice)、视频(Gemini、Sora)、跨任意模态生成。 它重要的原因是:多数真实世界任务不是只有文字。客服涉及截图。医疗涉及影像。工程涉及图表。Multi-modal 模型能直接看照片回答「这片 PCB 哪里有问题?」,不用用户用文字描述。整个产品类别(视觉搜索、screen-reading agent、accessibility 工具)依赖它。 举个例子:Claude 3、GPT-4o、Gemini 都接受图片输入。贴一张 SQL 错误的截图,问怎么修——模型读错误信息、看可见的 code、建议修改。或是传一张手绘 UI 草图,拿到对应的 HTML/CSS。 底层上,多数目前模型把 vision encoder 接到 LLM,把图像特征投影到跟 text token 同样的 embedding 空间。真正「原生 multi-modal」架构(Gemini、GPT-4o 宣称)从一开始就一起训练所有模态。跨模态生成(text→image 用 DALL-E、text→video 用 Sora、语音合成)通常用 diffusion 或其他独立模型。延伸阅读:vision-language model、CLIP、image generation、text-to-speech。