diffusion model的基本概念

张开发
2026/4/12 1:44:32 15 分钟阅读

分享文章

diffusion model的基本概念
主要分为两个步骤加密加噪声让原图变成模糊图Forward Process),将模糊图去噪声让其变成清晰图Reverse Process)先说Recerse Process的过程本质就是去除掉无用的像素让有用的像素留下来类似加密与解密的过程每一个denoise都是一样的都是输入原生图和该图的模糊程度这样可以通过predicter来预测出噪声图最后让噪声图与原生图相减就可以得到好去噪声的图片。这种方式主要是模型训练噪声图的难度比直接训练去噪声的图片简单很多。如何训练Noise Prodicter (forward procession)将目标图一次次加noise,让它变得模糊这样生成模糊的过程中就可以让model训练出random sample了。 这些图片的获取可以去LAION上拿Stable diffusion:训练的主要流程目的是文本到图片根据文本的描述相应生成对应的图片text输入到encoder后会经过分词变成向量然后这些向量经过Generation Model也就是扩散模型同时还用输入杂乱的数据集也就是评估杂乱的程度最后胡输出一个中间产物最后这个中间产物会经过decoder后生成最后的目标图。FID是用于评估预测值与真实值之间“距离”的指标类似loss越小越好。把真实值和预测值都看成高斯分布计算这两个高斯分布的弗雷歇距离。用于在把文本经过完扩散模型后的生成的图片将这个图片进入CNN卷积让这个卷积后的结果经过FID评估看一下是否与输入的文本符合以此对扩散模型进行调整。中间产物有很多种情况图片一般是H*W*3的规格RGB3通道。中间产物有时候是图片有时候不是图片如果是图片那就只需要小图变大图因为中间产物都说小规模的图片如果不是图片就要经过Auto-encoder来将图片的中间产物变成图片变成图片后再经过decoder变成所要的目标图。

更多文章