转载来源于“码上跃见”,感谢趣丸媒体算法团队倾力奉献!
写在前面作者:自然语言探索家字数:2759字;阅读时间:约9分钟人工智能创作内容(AIGC)大家一定都不陌生,它绝对是2022年AI领域最热门的话题之一。在ChatGPT出现之前,AI绘画就凭借其独特的创意与便捷的创作工具迅速走红,让AIGC 火爆出圈,广受关注。22年以来,以 Stable Diffusion、Midjourney、NovelAI 等为代表的文本生成图像的跨模态应用相继涌现。基于 Stable Diffusion 生成人和场景的效果都比较好,本文就带大家深入体验这款绘画软件。(一定要看到最后,笔者汇总了多个版本的体验地址等着你)
码上跃见码上致知,跃见非凡。10篇原创内容公众号阅读之前,先➕个关注呗~Stable Diffusion 是什么?Stable Diffusion是2022年发布的深度学习文生图模型。它主要用于根据文本的描述产生详细图像,此外它也可以应用于其他任务,如内补绘制、外补绘制,以及在提示词(prompt)指导下产生图生图的翻译。它是一种潜在扩散模型,由慕尼黑大学的CompVis 研究团体开发的各种生成性人工神经网络。它是由初创公司StabilityAI,CompVis与Runway合作开发的,并得到EleutherAI和LAION的支持。截至2022年10月,StabilityAI筹集了1.01亿美元的资金。Stable Diffusion的代码和模型权重已公开发布,可以在大多数配备有适度GPU的电脑硬件上运行。简单说下,Stable Diffusion可以实现:文本生成图像、基于Prompt的图像生成图像、基于Prompt的图像修补。用户使用痛点对于刚接触Stable Diffusion不久的用户而言,通常会存在以下一些痛点:1. 怎么玩?刚了解不久,这玩意到底应该怎么玩呢?2. 不好玩?会玩一点了,但出图的效果也就那样吧?3. 玩不转?比较会玩了,它还有啥有趣的功能应用?对于用户以上的痛点,本文将结合具体的案例进行针对性解答,为深感迷茫的你指点迷津。怎么玩?这个比较简单,输入自定义prompt,也就是任意你想生成的图像内容,然后点击生成就好了。如果不满意,可以再次点击,每次将随机生成不同的图片,总有一些你感兴趣的。
不好玩?玩了好久了,用户的审美也进一步提升了,对AI绘画的要求也进一步提高,但是总感觉AI生成的图像也就那样,10张里面可能就1张能够上眼,其余的就有点辣眼睛了,比如下面这种:
或是,这种(梅老板的球迷求轻喷):
造成生成效果不理想的原因有很多,本文列举主要的三点原因,跟大家逐一分析。1. 没有选择正确的模型版本不同stable diffusion版本由于finetune了不同的数据,所以各有所长,下面简单罗列下:模型版本特性总结
从上可以看出,不同版本的AI绘画各有所长,使用时可以挑选合适的版本进行使用。2. 输入的prompt不够明确从模型的角度而言,它生成的图像和用户输入的prompt相关。但从用户的角度而言,AI虽然生成了相关的图像,但是生成的图像艺术性不佳(个人主观),不够惊艳,不具美感,有些有明显的细节错误,完全不是用户想要的。这个矛盾的根源来源于:用户潜在地带入了个人的审美(比较心理),希望AI生成的图像能更好看些,至少没有明显的绘画细节错误。但训练的数据里却没有告诉AI哪些图片才更好看,只是采用CLIP的对比损失,这样就注定了AI绘画的定位就类似搜索里的语义初召。正如引入强化学习的ChatGPT,经过pairwise排序学习后,模型才能更好的把握生成的质量,也就有了更惊艳的效果。所以,对stable diffusion改进引入排序学习后,相信AI绘画基本具备给生成的图像进行艺术性打分了,但至少目前还不行。使用AI绘画现阶段的建议如下:输入更加详细的prompt,让AI更加了解你具体想生成什么,想达到什么效果,也就是限制AI绘画的发挥空间,避免它随意乱发挥。不知道prompt奥妙的,可以参考下面这个网站,里面收集了各式各样的AI艺术绘画,喜欢的可以研究捣鼓下:https://lexica.art/(复制到浏览器打开)
3. 生成的参数未调好一般生成都是有些参数可以调节的,比如:生成的图像高度(Width)和宽度(Height),生成迭代步数(Steps),图文相关性(CFG Scale),采样算法(Sampler),随机种子(Seed)等。TT-SD的生成参数调节:
InvokeAI的生成参数调节:
参数总结Steps-生成迭代步数一般取50即可,若采样算法选DPMSolve++,此处取25就可取得50步的效果;CFG Scale-图文相关性一般在6~20之间,太高了的话生成的艺术性太差,可以多设置看看;Sampler-采样算法不做推荐,针对不同需求可以多试试;Seed-随机种子设定随机种子后,每次将生成相同的图像,无随机性,可方便复现;Width-生成的图像宽度一般取512就好了,不建议1024x1024的大图,可以upscale实现高分辨重建;Height-生成的图像高度一般取512就好了,不建议1024x1024的大图,可以upscale实现高分辨重建;诀窍小结诀窍:选择正确的stable diffusion版本 + 输入合适的prompt + 生成参数调节 + 三分运气总的来说,就算比较了解AI绘画,也几率会出残图,所以还看三分运气了,不想看运气的,每次批量生成10张+,从中选几个好的就完事了。玩不转?迈入这个境界,用户已经对AI绘画有了初步的理解和掌握,也能根据调整自定义的prompt生成不错的样图。当然了,人对艺术的追求是无止境的,用户会苛求更完美的作品,同时也会衍生一系列其他的需求,比如:它能不能对已有的图片进行修改,进行风格迁移,或者说对图片进行变脸等有趣应用。为了满足笔者自己,以及广大科技爱好者的好奇心,下面简单介绍下AI绘画的一些进阶的有趣玩法和推荐:图像生成图像1、风格迁移把原图进行动漫风格化,同时也可以通过prompt进行额外调整。
关键生成参数调节:
注意:使用风格迁移,除了指定风格,也可以多添加些额外描述词,这样出图的效果更稳定些,主要是人物的脸部细节较复杂,需要prompt约束下AI绘画,生成我们真正想要的。2、高级美颜把原图进行脸部精修,达到不错的效果。
3、角色替换例如将一只贵宾替换成一只哈士奇或是一只猫。
图像修补图像修复属于图像精调的范畴,可以看作简单的局部图像生成图像,好处是只对特定部分进行修改,其余地方维持原样。(PS看了都说绝!)操作如下:任意选定(或涂抹)图像一些部分进行遮罩处理,然后输入自定义的prompt进行修改。下面简单示例下:1、图像内补
2、图像外补
文本生成图像1、剪纸画艺术生成剪纸画风格的图片,首选版本:papercut-1.0,prompt增加额外关键词:papercut。
2、风格类风景
栗子1:meadow, valleys, rivers, blue skies, castles, magnificent, magical, birdie, light effect
栗子2:beautiful landscape photograph of snow-covered Rocky mountains, a dead intricate tree
3、美食生成
4、二次元头像生成首选版本:waifu-diffusion栗子1:girl, purple eyes, detailed eyes, red hair, short hair, closed mouth, blue shirt, cute face, looking at the viewer, solo, upper body, simple background
栗子2:boy, purple eyes, detailed eyes, blue hair, short hair, closed mouth, yellow shirt, looking at viewer, solo, portrait, universe background, highly detailed
5、古诗词绘画首选版本:Taiyi-Stable-Diffusion-1B-Chinese-v0.1栗子1:空山新雨后,天气晚来秋
栗子2:日出江花红胜火,春来江水绿如蓝
6、超分辨率重建(工具箱功能)以InvokeAI为例,可以很方便一键进行超分辨重建,图像分辨率直接拉到4K。
功能太多了,写不完了,只要你会玩prompt,就能玩出新花样!马上玩!在上文「模型特性总结」部分已经给大家总结了 Stable Diffusion 各个版本的特性,有兴趣想体验一把的朋友,关注本公众号,在后台回复「Stable Diffusion」,获得汇总的源码链接。当然,不想下载本地版的朋友,也可以打开 Stable Diffusion 的网页版:https://beta.dreamstudio.ai/ (复制到浏览器打开)无痛在线体验。 除了国外的几款AI绘画软件,国内大厂如百度也推出了自己的 AI 画画产品:文心一格。不同的 AI 画画平台的技术实现虽有差异,但其核心能力都是输入巨量训练集,大量分类、识别已有图像,再根据关键词匹配和“缝合”,最终生成一幅随机的、世界上独一无二的AI画作。本期玩法大测评是不是很过瘾,广大对AIGC感兴趣的朋友请期待我们后续的测评和技术原理分析!