多语言文本编码器Glyph-ByT5-v2:提高在图形设计图像中渲染多种语言文本的准确性和美观度

来自微软亚洲研究院、清华大学、北京大学和利物浦大学的研究人员推出新型多语言视觉文本渲染技术Glyph-ByT5-v2,这是之前介绍的Glyph-ByT5升级版,此技术的目标是提高在图形设计图像中渲染多种语言文本的准确性和美观度。简单来说,就是让计算机能够更好地理解和生成不同语言的文本,并且让这些文本在视觉上看起来既准确又漂亮。例如,你是一个设计师,需要为一个国际项目设计海报,这个项目需要用到英语、法语和中文。使用Glyph-ByT5-v2技术,你可以简单地输入文本内容,计算机就会自动生成一个在视觉上既准确又吸引人的多语言海报。这样不仅节省了设计时间,还确保了不同语言文本的质量和一致性。

之前接受的Glyph-ByT5仅支持英文,且在美学表现上略显不足。为克服这两大局限,Glyph-ByT5-v2不仅实现了对10种不同语言的精准视觉文本渲染,还在美学品质上实现了显著提升。Glyph-ByT5-v2创新点概括如下:(i) 建立了一个包含超百万对高品质多语言字形文本及一千万对涵盖另外九种语言的图形设计图像文本的数据集;(ii) 设计了一套含1000条指令的多语言视觉段落基准测试,每种语言100条,用以精确衡量多语言环境下的视觉拼写准确率;(iii) 引入了前沿的步骤感知偏好学习策略,以此优化视觉美学效果。

相关推荐:文本编码器Glyph-ByT5:为提高视觉文本渲染的准确性而设计

综合运用上述技术,研究团队成功开发出高度定制化的多语言文本编码器——Glyph-ByT5-v2,以及强大的美学图形生成模型——Glyph-SDXL-v2,两者均能确保在10种语言中的准确拼写。考虑到即便是最新款的DALLE-3和Ideogram在处理多语言视觉文本渲染任务时也存在困难,因此相信这一成果标志着重大的进步。

主要功能:

  • 支持约10种不同语言的准确视觉文本渲染。
  • 显著提高生成文本的美学质量。

主要特点:

  1. 多语言支持:这项技术不仅适用于英语,还能够处理中文、日文、韩文等其他语言,这在以往的技术中是相对困难的。
  2. 高质量数据集:研究者创建了一个包含超过100万对字形-文本对以及1000万对图形设计图像-文本对的多语言数据集,这为训练模型提供了丰富的素材。
  3. 视觉美感优化:利用最新的步进式偏好学习技术,增强了生成图像的视觉美感。

工作原理:

  1. 数据集构建:首先,研究者创建了一个大规模的多语言数据集,这个数据集包含了大量的字形图像和图形设计图像。
  2. 文本编码器训练:接着,他们训练了一个名为Glyph-ByT5-v2的文本编码器,这个编码器能够将多语言文本映射到字形图像空间。
  3. 图形生成模型训练:然后,他们训练了一个名为Glyph-SDXL-v2的图形生成模型,这个模型能够根据文本编码器的输出生成具有准确文本的视觉图像。
  4. 美学质量提升:最后,通过使用步进式偏好优化技术和albedo技术,进一步提升了生成图像的美学质量。

具体应用场景:

  • 图形设计:设计师可以使用这项技术快速生成具有多语言文本的视觉设计作品。
  • 广告制作:广告业可以利用这项技术制作包含多种语言的吸引人的广告图像。
  • 社交媒体:在需要展示多语言内容的社交媒体帖子中,这项技术可以帮助创建更具视觉冲击力的帖子。
  • 多语言教育材料:教育领域可以利用这项技术制作包含准确文本和美观排版的教学材料。

官方演示:

官方Demo是基于 Glyph-SDXL-v2,支持英语、简体中文、法语、德语、西班牙语、葡萄牙语、意大利语、俄语、日语和韩语。而由于容量限制,目前简体中文支持5000个字符,日语支持1148个字符,韩语支持617个字符。这三种语言的某些罕见字符可能不被支持。本演示中的所有模型均构建在 albedo-xl 模型之上!

操作指南:

1. 通过在左侧画布上双击来选择边框

2. 若要取消上一点,请点选“重做(Redo)”,要清空画布则点选“撤销(Undo)”

3. 点击“我已完成布局!(I've finished my layout!)”以开始选择特定的提示、颜色和字体类型

4. 输入背景图像的设计指令。你还可以(可选)指定设计分类和标签(用逗号分隔)。

5. 对于每个文本框,在左侧的文本框中输入文本提示,并在右侧的下拉框中选择颜色和字体类型。

6. 点击“我已完成文本、颜色和样式,生成!(I've finished my texts, colors and styles, generate!)”以开始生成图像。

0

评论0

没有账号?注册  忘记密码?