图像生成 (Image generation)

从文字 prompt（text-to-image）或其他输入产生图像的任务，由 Stable Diffusion、DALL-E、Midjourney、Flux、Imagen 等 diffusion 模型处理。

Image generation 是任务：从文字 prompt（text-to-image）、图像加修改（image-to-image、inpainting）、或其他输入产生图像。主流技术路线是 diffusion model，从噪声出发，依 prompt 引导反复精炼成一致的图像。它在 2022 年是 AI 领域划时代的瞬间——DALL-E 2、Midjourney、Stable Diffusion 几乎同时到达，让任何人都能从一句话产生接近照片写实或风格化的图像。视觉创意工具市场被重塑：平面设计、营销、概念美术、插图、广告、电商、社交媒体都常规性使用 AI 生成图像。举个例子：「唐代宫殿夕阳下，油画风格，戏剧性云层」→ Midjourney 或 Flux 几秒给出多个漂亮选项。「把这张照片的天空换成暴风雨夜空」→ SD 配 inpainting 解决。「这张产品照，但背景换成蓝色不要白色」→ Adobe Firefly 或类似工具解决。主要模型：Stable Diffusion 家族（open-source）、DALL-E 3（OpenAI）、Midjourney（封闭，仅 web/Discord）、Imagen（Google）、Flux（Black Forest Labs，混合 open 跟商业）、Adobe Firefly。可控性跟定制化上，SD + ControlNet + LoRA 无可匹敌。顶级美学质量上，Midjourney 跟 Flux Pro 常胜。延伸阅读：diffusion model、Stable Diffusion family、ControlNet、multi-modal。