跳到內容

其他

多模態 (Multi-modal)

Multi-modal

能處理或產生多種輸入輸出(文字 + 圖片、音訊、影片)的 AI 系統,不只單一模態。

登入以收藏
Multi-modal AI 能處理超過一種資料型態。純文字 LLM 是 unimodal。一個能接圖片加文字、跨兩者推理的模型——「解釋這張圖表」、「這張 MRI 正常嗎?」、「轉錄這張照片裡的字」——就是 multi-modal。前緣現在延伸到音訊(Whisper、GPT-4o voice)、影片(Gemini、Sora)、跨任意模態生成。 它重要的原因是:多數真實世界任務不是只有文字。客服涉及截圖。醫療涉及影像。工程涉及圖表。Multi-modal 模型能直接看照片回答「這片 PCB 哪裡有問題?」,不用使用者用文字描述。整個產品類別(視覺搜尋、screen-reading agent、accessibility 工具)依賴它。 舉個例子:Claude 3、GPT-4o、Gemini 都接受圖片輸入。貼一張 SQL 錯誤的截圖,問怎麼修——模型讀錯誤訊息、看可見的 code、建議修改。或是傳一張手繪 UI 草圖,拿到對應的 HTML/CSS。 底層上,多數目前模型把 vision encoder 接到 LLM,把圖像特徵投影到跟 text token 同樣的 embedding 空間。真正「原生 multi-modal」架構(Gemini、GPT-4o 宣稱)從一開始就一起訓練所有模態。跨模態生成(text→image 用 DALL-E、text→video 用 Sora、語音合成)通常用 diffusion 或其他獨立模型。延伸閱讀:vision-language model、CLIP、image generation、text-to-speech。

最後更新: 2026-04-29

We use cookies

Anonymous analytics help us improve the site. You can opt out anytime. Learn more