多模態 (Multi-modal)

能處理或產生多種輸入輸出（文字 + 圖片、音訊、影片）的 AI 系統，不只單一模態。

Multi-modal AI 能處理超過一種資料型態。純文字 LLM 是 unimodal。一個能接圖片加文字、跨兩者推理的模型——「解釋這張圖表」、「這張 MRI 正常嗎？」、「轉錄這張照片裡的字」——就是 multi-modal。前緣現在延伸到音訊（Whisper、GPT-4o voice）、影片（Gemini、Sora）、跨任意模態生成。它重要的原因是：多數真實世界任務不是只有文字。客服涉及截圖。醫療涉及影像。工程涉及圖表。Multi-modal 模型能直接看照片回答「這片 PCB 哪裡有問題？」，不用使用者用文字描述。整個產品類別（視覺搜尋、screen-reading agent、accessibility 工具）依賴它。舉個例子：Claude 3、GPT-4o、Gemini 都接受圖片輸入。貼一張 SQL 錯誤的截圖，問怎麼修——模型讀錯誤訊息、看可見的 code、建議修改。或是傳一張手繪 UI 草圖，拿到對應的 HTML/CSS。底層上，多數目前模型把 vision encoder 接到 LLM，把圖像特徵投影到跟 text token 同樣的 embedding 空間。真正「原生 multi-modal」架構（Gemini、GPT-4o 宣稱）從一開始就一起訓練所有模態。跨模態生成（text→image 用 DALL-E、text→video 用 Sora、語音合成）通常用 diffusion 或其他獨立模型。延伸閱讀：vision-language model、CLIP、image generation、text-to-speech。