本文介绍了AI绘画爆火使用的扩散模型原理及实现方法。
最近爆火的AI绘图,相信大家并不陌生了。
从AI绘图软件生成的作品打败一众人类艺术家,斩获数字艺术类冠军,到如今DALL.E、Imagen、novelai等国内外平台遍地开花。也许你也曾点开过相关网站,尝试让AI描绘你脑海中的风景,又或者上传了一张自己帅气/美美的照片,然后对着最后生成的糙汉哭笑不得。那么,在你感受AI绘图魅力的同时, 有没有想过 (不你肯定想过),它背后的奥妙究竟是什么?
美国科罗拉多州技术博览会中获得数字艺术类冠军的作品——《太空歌剧院》
一切,都要从一个名为DDPM的模型说起…
DDPM模型,全称Denoising Diffusion Probabilistic Model,可以说是现阶段diffusion模型的开山鼻祖。不同于前辈GAN、VAE和flow等模型,diffusion模型的整体思路是通过一种偏向于优化的方式, 逐步从一个纯噪音的图片中生成图像。
现在已有生成图像模型的对比
没有相关机器学习背景的小伙伴可能会问了,什么是纯噪音图片?
很简单,老式电视机没信号时,伴随着"刺啦刺啦"噪音出现的雪花图片,就属于纯噪音图片。而DDPM在生成阶段所做的事情,就是把这些个"雪花"一点点移除,直到清晰的图像露出它的庐山真面目,我们把这个阶段称之为"去噪"。
纯噪音图片:老电视的雪花屏
通过描述,大家可以感受到,去噪其实是个相当复杂的过程。没有一定的去噪规律,可能你忙活了好半天,到最后还是对着奇形怪状的图片欲哭无泪。当然,不同类型的图片也会有不同的去噪规律,至于怎么让机器学会这种规律,有人灵机一动,想到了一种绝妙的方法。
"既然去噪规律不好学,那我为什么不先通过加噪的方式,先把一张图片变成纯噪音图像,再把整个过程反着来一遍呢?"
这便奠定了diffusion模型整个训练-推理的流程, 先在前向过程( forward process )通过逐步加噪,将图片转换为一个近似可用高斯分布的纯噪音图像,紧接着在反向过程(reverse process )中逐步去噪,生成图像,最后以增大原始图像和生成图像的相似度作为目标,优化模型,直至达到理想效果 。
DDPM的训练-推理流程
到这里,不知道大家的接受度怎样?如果感觉没问题,轻轻松的话。准备好,我要开始上大招(深入理论)啦。
通过合适的设置,随着t不断增大,原始数据会逐渐失去他的特征。我们可以理解为,在进行了无限次的加噪步骤后,最终的数据会变成没有任何特征,完全是随机噪音的图片,也就是我们最开始说的"雪花屏"。
在这个过程中,每一步的变化是可以通过设置 超参 来控制,在我们知晓最开始的图片是什么的前提下,前向加噪的整个过程可以说是 已知且可控的 ,我们完全能知道每一步的生成数据是什么样子。
GaussianDiffusion
image_size: 图片大小
timesteps: 加噪步数
sampling_timesteps: 采样步数,为提升推理性能,需小于加噪步数
Trainer
folder_or_dataset: 对应图片中的path, 可以是已下载数据集的路径(str),也可以是已做好数据处理的VisionBaseDataset, GeneratorDataset 或 MindDataset
train_batch_size:batch大小
train_lr: 学习率
train_num_steps: 训练步数
https://medium.com/mlearning-ai/ai-art-wins-fine-arts-competition-and-sparks-controversy-882f9b4df98c
Jonathan Ho, Ajay Jain, and Pieter Abbeel. Denoising Diffusion Probabilistic Models. arXiv:2006.11239, 2020.
Ling Yang, Zhilong Zhang, Shenda Hong, Runsheng Xu, Yue Zhao, Yingxia Shao, Wentao Zhang, Ming-Hsuan Yang, and Bin Cui. Diffusion models: A comprehensive survey of methods and applications. arXiv preprint arXiv:2209.00796, 2022.
https://lilianweng.github.io/posts/2021-07-11-diffusion-models
https://github.com/lvyufeng/denoising-diffusion-mindspore
https://zhuanlan.zhihu.com/p/525106459
https://zhuanlan.zhihu.com/p/500532271
https://www.zhihu.com/question/536012286
https://mp.weixin.qq.com/s/XTNk1saGcgPO-PxzkrBnIg
https://m.weibo.cn/3235040884/4804448864177745
编辑:王菁
校对:林亦霖