AI图像扩散模型原理
目前最主流的 AI 图像模型(如 Midjourney, Stable Diffusion)都基于一种叫做“扩散模型 (Diffusion Model)”的技术。我们可以把它的工作流程想象成两个阶段:学习和创作。
阶段一:潜心学习(训练阶段)
这就像马良在真正获得神笔之前的苦练。
- 加噪: AI 会先拿一张清晰的图片(比如,一张猫的照片)。
- 逐步破坏: 它会像给电视加雪花点一样,一点一点地往图片上添加“噪声”,直到这张图片完全变成一片随机的、毫无意义的雪花(噪声图)。
- 学习修复: 最关键的一步来了!AI 会记录下整个“从清晰到模糊”的过程,然后反过来学习——如何一步步地把这张“雪花图”恢复成最初那张清晰的猫的照片。
通过对亿万张图片重复这个“先破坏、再修复”的过程,AI 就学会了任何一张正常图片应该有的“样子”和“结构”。
阶段二:挥洒创意(创作阶段)
这就是神笔马良开始画画的时候了。
- 听懂你的话 (Text Encoder): 当你输入“一只戴着宇航员头盔的猫”,一个专门负责理解语言的模块(通常是强大的 Transformer 模型)会把你的文字转换成一种 AI 能理解的“数学指令”。
- 准备画布 (Initial Noise): AI 不会从白纸开始,而是先生成一张和你想创造的图片尺寸相同的、纯粹的“雪花图”(随机噪声)。这就像是创意的混沌起点。
- “照着指令”去修复 (Guided Denoising): AI 开始对这张“雪花图”执行它最擅长的“修复”工作。但这一次,它不是要恢复成某张特定的旧图,而是在每一步“去除噪声”时,都会参照第一步生成的“数学指令”。它会不断地问自己:“我怎样才能把这些噪声变得更像‘一只戴着宇航员头盔的猫’呢?”
- 作品诞生 (Final Image): 经过几十个步骤的反复“雕琢”,噪声被完全去除,一张符合你描述的、全新的图像就诞生了!