新技术

百科工具模型 ComfyUI AI合集 web UI 提示词

教程新技术硬件科普早报

排序

发布更新浏览点赞

苹果推出开源图像编辑模型MGIE：通过文字提示来编辑任何图像

来自苹果的团队推出开源图像编辑模型MGIE（MLLM-Guided Image Editing），它旨在通过使用多模态大语言模型（MLLMs）来提升基于指令的图像编辑能力。简单来说，MGIE可以帮助用...

2年前

05760

谷歌推出首尾帧图生视频新方法Generative Inbetweening：在两个关键帧之间产生连贯的运动

华盛顿大学、谷歌 DeepMind和加州大学伯克利分校的研究人员推出一种用于生成视频序列的方法Generative Inbetweening，能够在两个关键帧之间产生连贯的运动。简单来说，就是给定视频...

新技术 # Generative Inbetweening # 插帧 # 视频序列

2年前

05750

图像风格化技术B-LoRA：将单张图片中的风格和内容分离，从而实现高质量的图像风格化处理

来自特拉维夫大学和赖希曼大学的研究团队推出B-LoRA（Block Low-Rank Adaptation），它能够将单张图片中的风格和内容分离，从而实现高质量的图像风格化处理。图像风格化是指在保持图...

新技术 # B-LoRA # 图像风格化

2年前

05740

新型高效微调方法SaRA：用于提升预训练扩散模型（SD 1.5、SD 2.0和SD 3.0）在新任务上的表现

上海交通大学和腾讯优图实验室的研究人员推出新型高效微调方法SaRA，用于提升预训练扩散模型在新任务上的表现。扩散模型是一种强大的生成模型，能够生成图像、视频和3D模型等。但这些模型通常需要大量的参数...

新技术 # SaRA # 微调模型

2年前

05720

腾讯推出多模态基础模型SEED-X：结合视觉和语言理解的能力，可以处理和生成各种类型的数据，包括图像和文本

腾讯AI实验室和ARC实验室共同开发的多模态基础模型SEED-X，这是一个先进的人工智能系统，它结合了视觉和语言理解的能力，可以处理和生成各种类型的数据，包括图像和文本。简单来说，SEED-X就像一个...

新技术 # SEED-X # 多模态基础模型

2年前

05720

谷歌推出创新框架VLOGGER：只需要提供一张静态照片和一段语音，就能生成口型匹配的视频

谷歌推出创新框架VLOGGER，它能够根据一段音频和一张人物的单张照片生成这个人说话和动作的逼真视频。想象一下，你只需提供一张你的照片和你的语音记录，VLOGGER就能制作出一个视频，在视频中你可以看...

新技术 # VLOGGER # 谷歌

2年前

05720

英伟达推出VFC：用于生成高保真、详细图像和3D对象标题的强大工具

英伟达推出VFC（Visual Fact Checker），它是一个用于生成高保真、详细图像和3D对象标题的强大工具。简单来说，VFC就像一个能够精确描述图片内容的智能助手，无论是2D的平面图像还是3...

新技术 # VFC

2年前

05710

基于文本的视频编辑模型Emu Video Edit (EVE)

Meta推出基于文本的视频编辑模型Emu Video Edit (EVE)，它能够在没有监督视频编辑数据的情况下，实现先进的视频编辑功能。论文 EVE模型通过结合图像编辑适配器和视频生成适配器，并使...

新技术 # EVE # 视频编辑模型

2年前

05710

图像编辑框架StableDrag：通过点（handle points）来精确控制图像编辑

南京大学软件新技术国家重点实验室和腾讯公司研究团队推出图像编辑框架StableDrag，它专注于通过点（handle points）来精确控制图像编辑。项目主页论文地址 StableDrag提供了...

新技术 # StableDrag # 图像编辑

2年前

05710

多视角图像编辑技术QNeRF：多视角图像编辑的一致性和质量

特拉维夫大学、英伟达和卡内基梅隆大学的研究人员推出新型多视角图像编辑技术QNeRF（Query Neural Radiance Field），这项技术旨在解决在对同一场景从多个视角拍摄的图像集进行编辑...

新技术 # QNeRF # 多视角图像编辑

2年前

05710

分布式长视频生成框架Video-Infinity：能够利用多个GPU并行工作，快速生成长时间的视频内容

新加坡国立大学的研究人员推出Video-Infinity系统，它是一个分布式的长视频生成框架。简单来说，Video-Infinity能够利用多个GPU（显卡）并行工作，快速生成长时间的视频内容。这对于...

新技术 # Video-Infinity # 长视频生成框架

2年前

05700

基准测试CommonsensenT2I：用于评估文生图模型（T2I）生成符合现实生活常识的图像的能力

宾夕法尼亚大学和加州大学圣塔芭芭拉分校的研究人员推出基准测试CommonsensenT2I，用于评估文生图模型（T2I）生成符合现实生活常识的图像的能力。简单来说，就是研究这些模型是否能够根据文字描述...

新技术 # CommonsensenT2I # 基准测试 # 文生图模型

2年前

05700

加载更多

苹果推出开源图像编辑模型MGIE：通过文字提示来编辑任何图像

谷歌推出首尾帧图生视频新方法Generative Inbetweening：在两个关键帧之间产生连贯的运动

图像风格化技术B-LoRA：将单张图片中的风格和内容分离，从而实现高质量的图像风格化处理

新型高效微调方法SaRA：用于提升预训练扩散模型（SD 1.5、SD 2.0和SD 3.0）在新任务上的表现

腾讯推出多模态基础模型SEED-X：结合视觉和语言理解的能力，可以处理和生成各种类型的数据，包括图像和文本

谷歌推出创新框架VLOGGER：只需要提供一张静态照片和一段语音，就能生成口型匹配的视频

英伟达推出VFC：用于生成高保真、详细图像和3D对象标题的强大工具

基于文本的视频编辑模型Emu Video Edit (EVE)

图像编辑框架StableDrag：通过点（handle points）来精确控制图像编辑

多视角图像编辑技术QNeRF：多视角图像编辑的一致性和质量

分布式长视频生成框架Video-Infinity：能够利用多个GPU并行工作，快速生成长时间的视频内容

基准测试CommonsensenT2I：用于评估文生图模型（T2I）生成符合现实生活常识的图像的能力

S.H.I.T

新悟空

ArkClaw

Joker of Academics（小丑学术期刊）

新360 安全龙虾

QClaw

新技术

网址

S.H.I.T

新悟空

ArkClaw

Joker of Academics（小丑学术期刊 ）

新360 安全龙虾

QClaw

Joker of Academics（小丑学术期刊）