分享好友 最新动态首页 最新动态分类 切换频道
AI绘画可以稳定生成中文了:白嫖阿里云部署AnyText
2024-12-26 19:06

长久以来,在AI绘画中书写文字一直是个难题。即使到了SDXL时代,我们也只能输出英文,而且还经常出现漏掉字母的情况。现在阿里达摩院搞出了一个解决方案,可以在Stable Diffusion生成的作品中稳定输出中、英、日、韩等多种文字,实测效果不错。本文就给大家分享下这个技术。

这个技术的名字是 AnyText,目前支持中、英、日、韩等多语言文字。

AnyText 基于Stable Diffusion技术,包含两个核心模块:隐空间辅助模块和文本嵌入模块。

  • 隐空间辅助模块对三类辅助信息(字形、文字位置和掩码图像)进行编码并构建隐空间特征图像,用来辅助视觉文字的生成
  • 文本嵌入模块则将描述词中的语义部分与待生成文本的字形部分解耦,使用图像编码模块单独提取字形信息后再与语义信息做融合,既有助于文字的书写精度,也有利于提升文字与背景的一致性。

训练阶段,除了使用扩散模型常用的噪声预测损失,我们还增加了文本感知损失,在图像空间对每个生成文本区域进行像素级的监督,以保证文字书写的精度。

推理生成时,嵌入的文本输送给绘图模块时被用星号代替,在嵌入空间预留位置并用符号填充。然后文本嵌入模块得到的字形图像被输入预训练OCR模型,提取出字形特征,然后调整其维度并替换预留位置中的符号,得到新的序列。

这个模型的训练数据集为AnyWord-3M(即将开源,主要来源于互联网开源数据集,包括LAION-400M, Noah-Wukong以及部分OCR数据集,按照一定规则从中筛选出包含文字的图片,并使用OCR模型和BLIP-2模型进行全自动打标,总计得到300万高质量的图文对,涵盖自然图像、电影海报、书籍封面等各类场景。

环境搭建

手动安装

这个程序目前已经开源到Github,可以自己安装使用。

github.com/tyxsspa/Any…

使用官方Demo

官方发布了一个Demo,我们可以在上边直接玩。

modelscope.cn/studios/dam…

运行Notebook

为了节省成本,这里推荐使用阿里达摩院的魔搭,新用户赠送100小时GPU时间,可以玩很多东西了。

打开官方模型地址

modelscope.cn/models/damo…

在打开的页面中,点击右上角的“Notebook快速开发”,弹出框中选择“使用魔搭平台提供的免费实例”。

  • 如果你没有注册过魔搭,请首先注册账号
  • 如果还没有绑定过阿里云账号,这里会要求你先绑定阿里云账号。

账号的问题解决后,在进入的页面中选择“GPU环境”,然后点击“启动”。这个免费实例有36小时的额度。

启动成功后会打开 jupyterlab 的操作窗口,按照下面的步骤操作

1、上传一个字体文件,这个是官方推荐的,可以免费使用,应该也可以换成别的。

这个文件可自行搜索下载,也可在我的AI公众号“萤火遛AI ”发送消息“字体”进行下载。

2、Notebook中原有的代码不能直接运行,需要修改,可以都删掉。

然后创建新的Code类型的Cell,粘贴下边的内容,点击Cell左侧的按钮运行程序。

 

运行过程中会输出日志

程序安装并成功启动后,会输出类似下图中的文字:http://127.0.0.1:7860

点击这个链接,就会打开AnyText的交互窗口,我们就可以愉快的操作了。

AnyText有两种用法:文字生成和文字编辑。

文字生成

所谓文字生成就是在文生图的图片中直接生成指定的文字。

操作方法如下图所示

1、填写提示词,文字部分用引号括起来,一对引号代表一行文字。

2、在绘图区域绘制文字出现在图片中的位置。可以直接用画笔手绘,也可以拖矩形框,或者让模型自己选择。

3、然后点击运行就行了。

其它的参数如图片尺寸、提示词强度、生成数量等可以在“参数”部分自行设置,和Stable Diffusion差不多,这里就不啰嗦了。

文字编辑

文字编辑是修改现有图片上的文字,可以做到和原文字风格统一,甚至以假乱真的程度。

操作方法如下图所示

1、填写提示词,文字部分用引号括起来,一对引号代表一行文字。

2、上传要修改文字的图片。用画笔涂抹住要编辑的文字。

3、然后点击运行就行了。


期待这个能力快速集成到Stable Diffusion WebUI中,我将持续跟踪

如有兴趣,请及时关注,以免遗漏重要消息。

一、AIGC所有方向的学习路线

AIGC所有方向的技术点做的整理,形成各个领域的知识点汇总,它的用处就在于,你可以按照下面的知识点去找对应的学习资源,保证自己学得较为全面。

二、AIGC必备工具

三、最新AIGC学习笔记

四、AIGC视频教程合集

观看全面零基础学习视频,看视频学习是最快捷也是最有效果的方式,跟着视频中老师的思路,从基础到深入,还是很容易入门的。

五、实战案例

最新文章
一周外盘头条
​​联合健康保险CEO遭枪杀,26岁的嫌疑人落网,美国社交媒体上反常的欢呼声也表明医保行业的拒保以及高管高薪都已引发众怒。  刚刚获评《时代》年度人物的美国当选总统特朗普现身纽交所敲响开盘钟,并放话“股市就是一切”,还称要在加
三、使用公式统计单元格排序:
在Excel中对总分进行排序的方法如下:1、首先在Excel中打开要排序的数据表,然后在数据表中选择要排序的内容,或者直接点击“数据”→“排序”;2、在弹出的排序对话框中,将“按”的设置改为“总分”,并且选择自己希望的排序方式,大到小
小米手机解锁bl锁肿么要708小时
小米手机解锁BL锁的步骤如下:1. 打开手机设置,进入“系统更新”。2. 在“关于手机”中找到“MIUI版本号”,连续点击7次。3. 返回上一级菜单,进入“双筒”功能。4. 在“双筒”中找到“高级设置”,打开“开发者选项”。5. 进入“开发者选
很黄很有趣的网站被迫关停:盘点那些藏污纳垢的资源下载站
在互联网的世界里,有许多网站提供各种各样的资源下载服务。其中也有一些网站因为涉及色情、盗版等违法内容而被关停。今天,我们就来盘点一下那些曾经藏污纳垢的资源下载站。这些网站的危害1. 某成人视频网站该网站是一个提供成人视频资源
学生表 班级表 mysql
5.12 添加四张表student :sid sname sbirth sexsscore :sid cid scorecourse :cid cname tidteacher :tid tname用excel的randbetween函数造了四张csv文件,导入navicat:编码—10008 (MAC - Simplified Chinese GB 2312)百度选择此码没
北京市劳动人民文化宫南门门殿修缮工程施工项目公开招标公告
北京市劳动人民文化宫南门门殿修缮工程施工项目 招标项目的潜在投标人应在北京国际招标有限公司(北京市海淀区北三环中路31号院凯奇大厦B座9层906室)获取招标文件,并于2025年01月03日 09点30分(北京时间)前递交投标文件。一、项目基本
百度信息流账户搭建工具-如何搭建优质信息流账户
您还在百度为信息流账户搭建烦恼吗?不知道如何定向人群?不知道怎么写创意?现在不用再烦恼,解救优化师–云图账户搭建工具全流量一、云图信息流账户搭建工具介绍:1.云图信息流账户搭建工具功能:云图-账户搭建旨在提高中小客户账户
竞价推广,高效获取潜在客户
竞价推广:高效获取潜在客户的秘诀随着互联网的普及,越来越多的人选择通过搜索引擎来寻找产品和服务。竞价推广作为一种高效的营销手段,能够帮助企业高效获取潜在客户。本文将为你详细介绍竞价推广的优势、方法、技巧以及注意事项,让你轻
疾控工作计划
  为了提高业务水平,不经意间,我们又将迎来新的喜悦、新的收获。通过合适的工作计划开展自己的工作,可以帮助自己在工作方面更有效率,有没有一个简单又具有深刻意义的工作计划?希望这份“疾控工作计划”能够帮助您解决问题,如果你有
【视频】东莞市红色革命遗址专题片:追寻红色足迹 传承红色基因
东莞,饱含红色基因的一片热土,继承了光荣的革命斗争传统,是中国近代史开篇地、广东最早建立中共支部的六个县份之一、广东工农革命运动的先进地区、华南敌后抗日根据地的重要组成部分、华南人民解放战争的重要战场。革命先烈和先辈在东莞
相关文章
推荐文章
发表评论
0评