谷歌推出新框架ImageInWords(IIW):创建准确且细节丰富的图像描述,以提高视觉-语言模型的训练效果Google Research、Google DeepMind和华盛顿大学的研究团队推出新框架ImageInWords(IIW),此框架旨在创建准确且细节丰富的图像描述,以提高视觉-语言模型(VLMs...新技术# IIW# ImageInWords# 数据集2年前07020
Gempix现身Whisk!谷歌测试基于Imagen 4的精准图像编辑功能据最新代码线索显示,谷歌正在为其AI图像工具 Whisk 测试一项名为 Gempix 的新功能,该功能可能代表基于 Imagen 4 的新一代图像编辑模型。 这一发现来自 Google Labs 实验...早报# Gempix# Imagen 4# Whisk8个月前06730
谷歌推出基于问答的自动评估指标Gecko,用于评估文生图模型的性能谷歌推出基于问答的自动评估指标Gecko2K,用于评估文生图模型的性能。文生图模型生成的图像并不总是能够完全符合文本中的所有细节。因此,评估这些模型生成的图像与文本描述的匹配程度是一个重要的研究问题...新技术# Gecko# Gecko2K# 自动评估2年前06680
设计灵感来源于PaLI-3!谷歌推出开源视觉语言模型PaliGemmaPaliGemma 是谷歌推出的新一代视觉语言模型家族,其设计灵感来源于PaLI-3,能够接收图像与文本输入并生成文本输出。PaliGemma建立在包括SigLIP视觉模型和Gemma语言模型在内的开...多模态模型# PaliGemma# 谷歌1年前06600
图像编辑技术Prompt-to-Prompt:通过提示词进行局部或全局编辑来自谷歌和特拉维夫大学的团队推出图像编辑技术Prompt-to-Prompt,这是一种直观的从提示到提示的编辑框架,其中编辑操作仅通过文本进行控制。此团队深入分析了文本条件模型,并观察到交叉注意力层在...新技术# Prompt-to-Prompt# 图像编辑# 提示词2年前06430
谷歌推出贪婪生长方法(Greedy Growing):用来训练大规模、高分辨率的基于像素的图像扩散模型谷歌发布论文讨论了一个非常有趣的话题:如何通过一种称为“贪婪生长”(Greedy Growing)的方法来训练大规模、高分辨率的基于像素的图像扩散模型,且无需级联超分辨率组件。简单来说,就是科学家们找...新技术# Greedy Growing# 谷歌# 贪婪生长2年前06390
谷歌旗下的AI图像生成工具 Imagen 3经过长时间的测试与改进,谷歌旗下的AI图像生成工具 Imagen 3 终于向大众开放。目前,它已在 Gemini、ImageFX 等多项谷歌产品中提供服务。Imagen 3 能够创造出细节丰富、光影效...工具# Imagen 3# 谷歌2年前06280
谷歌ImageFX:将用户输入的描述性语言或关键词迅速转化高品质图片我们之前介绍了谷歌旗下的最新图像生成模型Imagen2,其中提到了ImageFX。ImageFX是谷歌旗下实验性AI项目「AI Test Kitchen」中的一项功能,作为一个生成式AI工具,它能够将...工具# ImageFX# Imagen2# 谷歌2年前06090
Gemini 高级版新增聊天记录功能,提升个性化体验从今天起,Gemini 高级版订阅用户将获得一项新功能:聊天记录记忆。这项功能允许 Gemini 聊天机器人在生成回复时利用之前的交互信息,从而提供更准确、更有针对性的答案。这意味着用户不再需要从头开...早报# Gemini# 记忆# 谷歌1年前05880
谷歌推出创新框架VLOGGER:只需要提供一张静态照片和一段语音,就能生成口型匹配的视频谷歌推出创新框架VLOGGER,它能够根据一段音频和一张人物的单张照片生成这个人说话和动作的逼真视频。想象一下,你只需提供一张你的照片和你的语音记录,VLOGGER就能制作出一个视频,在视频中你可以看...新技术# VLOGGER# 谷歌2年前05730
谷歌发布“多步一致性模型”(Multistep Consistency Models)谷歌发布新型生成模型“多步一致性模型”(Multistep Consistency Models),它在图像、视频和音频生成领域具有潜在的应用价值。这个模型是介于传统的“一致性模型”(Consiste...新技术# 多步一致性模型# 谷歌2年前05670
Gemini 3 或已就位!谷歌开发中的新一代 AI 大模型曝光在当前大模型竞赛愈演愈烈的背景下,谷歌正在推进其旗舰模型 Gemini 的新一代迭代——Gemini 3.0。尽管官方尚未正式公布,但近期在开源项目 Gemini CLI 工具 的代码中,出现了多个关...百科# Gemini 3.0# Google DeepMind# 谷歌9个月前05640