圖像生成 (Image generation)

從文字 prompt（text-to-image）或其他輸入產生圖像的任務，由 Stable Diffusion、DALL-E、Midjourney、Flux、Imagen 等 diffusion 模型處理。

Image generation 是任務：從文字 prompt（text-to-image）、圖像加修改（image-to-image、inpainting）、或其他輸入產生圖像。主流技術路線是 diffusion model，從雜訊出發，依 prompt 引導反覆精煉成一致的圖像。它在 2022 年是 AI 領域劃時代的瞬間——DALL-E 2、Midjourney、Stable Diffusion 幾乎同時到達，讓任何人都能從一句話產生接近照片寫實或風格化的圖像。視覺創意工具市場被重塑：平面設計、行銷、概念美術、插圖、廣告、電商、社群媒體都常規性使用 AI 生成圖像。舉個例子：「唐代宮殿夕陽下，油畫風格，戲劇性雲層」→ Midjourney 或 Flux 幾秒給出多個漂亮選項。「把這張照片的天空換成暴風雨夜空」→ SD 配 inpainting 解決。「這張產品照，但背景換成藍色不要白色」→ Adobe Firefly 或類似工具解決。主要模型：Stable Diffusion 家族（open-source）、DALL-E 3（OpenAI）、Midjourney（封閉，僅 web/Discord）、Imagen（Google）、Flux（Black Forest Labs，混合 open 跟商業）、Adobe Firefly。可控性跟客製化上，SD + ControlNet + LoRA 無可匹敵。頂級美學品質上，Midjourney 跟 Flux Pro 常勝。延伸閱讀：diffusion model、Stable Diffusion family、ControlNet、multi-modal。