图像逆向技术ReNoise:可能图像内容进行编辑重建 来自特拉维夫大学和谷歌的研究团队推出图像逆向技术ReNoise,这是一种通过迭代噪声处理来实现真实图像在预训练扩散模型域内重建的方法。简单来说,就像我们有时候需要从一张已经损坏或者风格化的照片恢复出原... 新技术# ReNoise# 图像编辑# 谷歌 11个月前03500
图像编辑技术Prompt-to-Prompt:通过提示词进行局部或全局编辑 来自谷歌和特拉维夫大学的团队推出图像编辑技术Prompt-to-Prompt,这是一种直观的从提示到提示的编辑框架,其中编辑操作仅通过文本进行控制。此团队深入分析了文本条件模型,并观察到交叉注意力层在... 新技术# Prompt-to-Prompt# 图像编辑# 提示词 11个月前04000
谷歌推出创新框架VLOGGER:只需要提供一张静态照片和一段语音,就能生成口型匹配的视频 谷歌推出创新框架VLOGGER,它能够根据一段音频和一张人物的单张照片生成这个人说话和动作的逼真视频。想象一下,你只需提供一张你的照片和你的语音记录,VLOGGER就能制作出一个视频,在视频中你可以看... 新技术# VLOGGER# 谷歌 12个月前03490
谷歌发布“多步一致性模型”(Multistep Consistency Models) 谷歌发布新型生成模型“多步一致性模型”(Multistep Consistency Models),它在图像、视频和音频生成领域具有潜在的应用价值。这个模型是介于传统的“一致性模型”(Consiste... 新技术# 多步一致性模型# 谷歌 12个月前03810
谷歌推出新一代开源模型Gemma,轻量级高性能,助力AI创新 谷歌推出开源模型Gemma,这是一款轻量级、先进的开源模型,供开发者和研究人员用于AI构建。Gemma模型家族包括Gemma 2B和Gemma 7B两种尺寸,能够在不同的设备类型上运行,包括笔记本电脑... 大语言模型# Gemma# 大语言模型# 谷歌 2周前05170
视频编码器VideoPrism:能够处理多种视频理解任务,如分类、定位、检索、字幕生成和问答 来自谷歌的研究人员推出视频编码器VideoPrism,它是一个通用的视频理解模型,能够处理多种视频理解任务,如分类、定位、检索、字幕生成和问答(QA)。VideoPrism通过在一个单一的冻结模型上进... 新技术# VideoPrism# 视频编码器# 谷歌 1年前04830
谷歌ImageFX:将用户输入的描述性语言或关键词迅速转化高品质图片 我们之前介绍了谷歌旗下的最新图像生成模型Imagen2,其中提到了ImageFX。ImageFX是谷歌旗下实验性AI项目「AI Test Kitchen」中的一项功能,作为一个生成式AI工具,它能够将... 工具# ImageFX# Imagen2# 谷歌 1年前04010
谷歌旗下最新图像生成模型Imagen2,已在Bard和ImageFX上线 无论是制作音乐、获取编程帮助还是创建图像,像Lyria、Codey和Imagen这样的基于任务的AI模型正在帮助人们将创意变为现实。 自从去年推出以来,我们的Imagen技术已经帮助人们和企业仅使用几... 工具# Bard# ImageFX# Imagen2 6个月前03750
谷歌研究团队推出专为移动设备打造的文生图模型MobileDiffusion 谷歌的研究团队推出了新的文生图模型MobileDiffusion,它能够在手机上几乎瞬间(亚秒级)生成高质量的图片。该模型在架构和采样技术方面进行广泛优化,在iPhone 15 Pro上,Mobile... 新技术# MobileDiffusion# 安卓# 扩散模型 1年前04840