多模态 (Multi-modal)

能处理或产生多种输入输出（文字 + 图片、音频、视频）的 AI 系统，不只单一模态。

Multi-modal AI 能处理超过一种数据型态。纯文字 LLM 是 unimodal。一个能接图片加文字、跨两者推理的模型——「解释这张图表」、「这张 MRI 正常吗？」、「转录这张照片里的字」——就是 multi-modal。前沿现在延伸到音频（Whisper、GPT-4o voice）、视频（Gemini、Sora）、跨任意模态生成。它重要的原因是：多数真实世界任务不是只有文字。客服涉及截图。医疗涉及影像。工程涉及图表。Multi-modal 模型能直接看照片回答「这片 PCB 哪里有问题？」，不用用户用文字描述。整个产品类别（视觉搜索、screen-reading agent、accessibility 工具）依赖它。举个例子：Claude 3、GPT-4o、Gemini 都接受图片输入。贴一张 SQL 错误的截图，问怎么修——模型读错误信息、看可见的 code、建议修改。或是传一张手绘 UI 草图，拿到对应的 HTML/CSS。底层上，多数目前模型把 vision encoder 接到 LLM，把图像特征投影到跟 text token 同样的 embedding 空间。真正「原生 multi-modal」架构（Gemini、GPT-4o 宣称）从一开始就一起训练所有模态。跨模态生成（text→image 用 DALL-E、text→video 用 Sora、语音合成）通常用 diffusion 或其他独立模型。延伸阅读：vision-language model、CLIP、image generation、text-to-speech。