设计灵感来源于PaLI-3!谷歌推出开源视觉语言模型PaliGemmaPaliGemma 是谷歌推出的新一代视觉语言模型家族,其设计灵感来源于PaLI-3,能够接收图像与文本输入并生成文本输出。PaliGemma建立在包括SigLIP视觉模型和Gemma语言模型在内的开...多模态模型# PaliGemma# 谷歌10个月前06470
图像编辑技术Prompt-to-Prompt:通过提示词进行局部或全局编辑来自谷歌和特拉维夫大学的团队推出图像编辑技术Prompt-to-Prompt,这是一种直观的从提示到提示的编辑框架,其中编辑操作仅通过文本进行控制。此团队深入分析了文本条件模型,并观察到交叉注意力层在...新技术# Prompt-to-Prompt# 图像编辑# 提示词2年前06200
谷歌推出贪婪生长方法(Greedy Growing):用来训练大规模、高分辨率的基于像素的图像扩散模型谷歌发布论文讨论了一个非常有趣的话题:如何通过一种称为“贪婪生长”(Greedy Growing)的方法来训练大规模、高分辨率的基于像素的图像扩散模型,且无需级联超分辨率组件。简单来说,就是科学家们找...新技术# Greedy Growing# 谷歌# 贪婪生长2年前06160
谷歌旗下的AI图像生成工具 Imagen 3经过长时间的测试与改进,谷歌旗下的AI图像生成工具 Imagen 3 终于向大众开放。目前,它已在 Gemini、ImageFX 等多项谷歌产品中提供服务。Imagen 3 能够创造出细节丰富、光影效...工具# Imagen 3# 谷歌1年前06130
谷歌ImageFX:将用户输入的描述性语言或关键词迅速转化高品质图片我们之前介绍了谷歌旗下的最新图像生成模型Imagen2,其中提到了ImageFX。ImageFX是谷歌旗下实验性AI项目「AI Test Kitchen」中的一项功能,作为一个生成式AI工具,它能够将...工具# ImageFX# Imagen2# 谷歌2年前06010
Gemini Canvas 免费使用指南,像朋友一样帮你完善创意在创意和思考的过程中,有一个能够随时交流、提供反馈的伙伴无疑是极其宝贵的。然而,随着生活节奏的加快,我们与朋友交流的时间越来越少。这时,AI 成为了一个理想的替代者,它不仅能分享你的想法和创意,还能提...教程# Gemini Canvas# 谷歌8个月前05670
谷歌推出创新框架VLOGGER:只需要提供一张静态照片和一段语音,就能生成口型匹配的视频谷歌推出创新框架VLOGGER,它能够根据一段音频和一张人物的单张照片生成这个人说话和动作的逼真视频。想象一下,你只需提供一张你的照片和你的语音记录,VLOGGER就能制作出一个视频,在视频中你可以看...新技术# VLOGGER# 谷歌2年前05640
谷歌发布“多步一致性模型”(Multistep Consistency Models)谷歌发布新型生成模型“多步一致性模型”(Multistep Consistency Models),它在图像、视频和音频生成领域具有潜在的应用价值。这个模型是介于传统的“一致性模型”(Consiste...新技术# 多步一致性模型# 谷歌2年前05610
谷歌旗下最新图像生成模型Imagen2,已在Bard和ImageFX上线无论是制作音乐、获取编程帮助还是创建图像,像Lyria、Codey和Imagen这样的基于任务的AI模型正在帮助人们将创意变为现实。 自从去年推出以来,我们的Imagen技术已经帮助人们和企业仅使用几...工具# Bard# ImageFX# Imagen21年前05560
图像逆向技术ReNoise:可能图像内容进行编辑重建来自特拉维夫大学和谷歌的研究团队推出图像逆向技术ReNoise,这是一种通过迭代噪声处理来实现真实图像在预训练扩散模型域内重建的方法。简单来说,就像我们有时候需要从一张已经损坏或者风格化的照片恢复出原...新技术# ReNoise# 图像编辑# 谷歌2年前05450
ComfyUI-Gemini_Flash_2.0_Exp:集成了谷歌的 Gemini Flash 2.0 实验模型的ComfyUI自定义节点ComfyUI-Gemini_Flash_2.0_Exp 是一个ComfyUI 自定义节点,集成了谷歌的 Gemini Flash 2.0 实验模型。它支持在 ComfyUI 工作流中直接进行文本、图...插件# ComfyUI# ComfyUI-Gemini_Flash_2.0_Exp# Gemini Flash 2.09个月前05440
谷歌推出个性化AI协作工具NotebookLM:帮助用户更高效地进行信息整理和笔记记录NotebookLM是谷歌推出的一款个性化AI协作工具,旨在帮助用户更高效地进行信息整理和笔记记录。利用强大的语言模型帮助用户更快地从各种文本、图像以及网页中提取主要信息。它通过将AI与用户选择的具体...工具# NotebookLM# 谷歌1年前05080