谷歌推出开源视觉语言模型PaliGemma2:增加了强大的视觉能力,更容易微调今年5月,谷歌推出了 PaliGemma,这是 Gemma 家族中的第一个视觉语言模型,旨在使一流的视觉AI更加普及。现在,谷歌自豪地推出 PaliGemma 2,这是一个可调视觉语言模型的最新进化版...多模态模型# PaliGemma2# 视觉语言模型# 谷歌10个月前03030
谷歌推出AI 学习工具Learn About:为用户提供个性化的学习体验谷歌最近发布了一个名为 Learn About 的 AI 学习工具,旨在为用户提供个性化的学习体验。此工具可以根据用户提出的问题给出详细的解释,并推荐合适的视频教程和文字教程。Learn About ...工具# AI 学习工具# Learn About# 谷歌1年前08710
谷歌推出个性化AI协作工具NotebookLM:帮助用户更高效地进行信息整理和笔记记录NotebookLM是谷歌推出的一款个性化AI协作工具,旨在帮助用户更高效地进行信息整理和笔记记录。利用强大的语言模型帮助用户更快地从各种文本、图像以及网页中提取主要信息。它通过将AI与用户选择的具体...工具# NotebookLM# 谷歌1年前05120
谷歌旗下的AI图像生成工具 Imagen 3经过长时间的测试与改进,谷歌旗下的AI图像生成工具 Imagen 3 终于向大众开放。目前,它已在 Gemini、ImageFX 等多项谷歌产品中提供服务。Imagen 3 能够创造出细节丰富、光影效...工具# Imagen 3# 谷歌1年前06140
谷歌推出新型图像编辑工具Magic Insert:将一张图片中的主题(比如一个人或者一个物体)拖拽到另一张风格完全不同的图片上,并且让这个主题在新图片中看起来非常自然谷歌推出新型图像编辑工具Magic Insert,可以让我们像变魔术一样,将一张图片中的主题(比如一个人或者一个物体)拖拽到另一张风格完全不同的图片上,并且让这个主题在新图片中看起来非常自然,就像它本...新技术# Magic Insert# 图像编辑# 谷歌1年前07070
设计灵感来源于PaLI-3!谷歌推出开源视觉语言模型PaliGemmaPaliGemma 是谷歌推出的新一代视觉语言模型家族,其设计灵感来源于PaLI-3,能够接收图像与文本输入并生成文本输出。PaliGemma建立在包括SigLIP视觉模型和Gemma语言模型在内的开...多模态模型# PaliGemma# 谷歌10个月前06480
谷歌推出贪婪生长方法(Greedy Growing):用来训练大规模、高分辨率的基于像素的图像扩散模型谷歌发布论文讨论了一个非常有趣的话题:如何通过一种称为“贪婪生长”(Greedy Growing)的方法来训练大规模、高分辨率的基于像素的图像扩散模型,且无需级联超分辨率组件。简单来说,就是科学家们找...新技术# Greedy Growing# 谷歌# 贪婪生长2年前06190
谷歌推出CamViG:控制视频生成过程中的相机视角,从而生成具有精确相机运动的视频Google Research推出CamViG(Camera Aware Image-to-Video Generation),它能够根据单一图像和三维相机运动信号生成视频。这项技术的核心在于,它能够...新技术# CamViG# 相机运动# 谷歌2年前07080
新型图像匹配技术OmniGlue:首个以泛化为核心设计原则的可学习图像匹配器德克萨斯大学奥斯汀分校和谷歌的研究人员推出新型图像匹配技术OmniGlue,这是首个以泛化为核心设计原则的可学习图像匹配器。OmniGlue利用来自视觉基础模型的广泛知识来指导特征匹配过程,从而增强了...新技术# OmniGlue# 谷歌2年前06820
谷歌推出新框架ImageInWords(IIW):创建准确且细节丰富的图像描述,以提高视觉-语言模型的训练效果Google Research、Google DeepMind和华盛顿大学的研究团队推出新框架ImageInWords(IIW),此框架旨在创建准确且细节丰富的图像描述,以提高视觉-语言模型(VLMs...新技术# IIW# ImageInWords# 数据集2年前06930
谷歌推出基于问答的自动评估指标Gecko,用于评估文生图模型的性能谷歌推出基于问答的自动评估指标Gecko2K,用于评估文生图模型的性能。文生图模型生成的图像并不总是能够完全符合文本中的所有细节。因此,评估这些模型生成的图像与文本描述的匹配程度是一个重要的研究问题...新技术# Gecko# Gecko2K# 自动评估2年前06610
图像逆向技术ReNoise:可能图像内容进行编辑重建来自特拉维夫大学和谷歌的研究团队推出图像逆向技术ReNoise,这是一种通过迭代噪声处理来实现真实图像在预训练扩散模型域内重建的方法。简单来说,就像我们有时候需要从一张已经损坏或者风格化的照片恢复出原...新技术# ReNoise# 图像编辑# 谷歌2年前05460