百科 | 第41页 | SD百科导航

百科工具模型 ComfyUI AI合集 web UI 提示词

教程新技术硬件科普早报

排序

发布更新浏览点赞

多视角图像编辑技术QNeRF：多视角图像编辑的一致性和质量

特拉维夫大学、英伟达和卡内基梅隆大学的研究人员推出新型多视角图像编辑技术QNeRF（Query Neural Radiance Field），这项技术旨在解决在对同一场景从多个视角拍摄的图像集进行编辑...

新技术 # QNeRF # 多视角图像编辑

2年前

05750

基于文本的视频编辑模型Emu Video Edit (EVE)

Meta推出基于文本的视频编辑模型Emu Video Edit (EVE)，它能够在没有监督视频编辑数据的情况下，实现先进的视频编辑功能。论文 EVE模型通过结合图像编辑适配器和视频生成适配器，并使...

新技术 # EVE # 视频编辑模型

2年前

05740

Gemini 3 或已就位！谷歌开发中的新一代 AI 大模型曝光

在当前大模型竞赛愈演愈烈的背景下，谷歌正在推进其旗舰模型 Gemini 的新一代迭代——Gemini 3.0。尽管官方尚未正式公布，但近期在开源项目 Gemini CLI 工具的代码中，出现了多个关...

百科 # Gemini 3.0 # Google DeepMind # 谷歌

9个月前

05730

谷歌推出创新框架VLOGGER：只需要提供一张静态照片和一段语音，就能生成口型匹配的视频

谷歌推出创新框架VLOGGER，它能够根据一段音频和一张人物的单张照片生成这个人说话和动作的逼真视频。想象一下，你只需提供一张你的照片和你的语音记录，VLOGGER就能制作出一个视频，在视频中你可以看...

新技术 # VLOGGER # 谷歌

2年前

05730

英伟达推出VFC：用于生成高保真、详细图像和3D对象标题的强大工具

英伟达推出VFC（Visual Fact Checker），它是一个用于生成高保真、详细图像和3D对象标题的强大工具。简单来说，VFC就像一个能够精确描述图片内容的智能助手，无论是2D的平面图像还是3...

新技术 # VFC

2年前

05720

新型指令式图像编辑框架FireEdit：利用区域感知的视觉语言模型（VLM），实现了对用户指令的细粒度理解和精确图像编辑

中山大学深圳校区、腾讯混元、清华大学和香港科技大学的研究人员推出新型指令式图像编辑框架FireEdit，它通过利用区域感知的视觉语言模型（VLM），实现了对用户指令的细粒度理解和精确图像编辑。Fire...

新技术 # FireEdit # 图像编辑 # 视觉语言模型

12个月前

05710

ChatGPT 面向免费用户推出高级语音模式，但附带使用限制

OpenAI今天宣布，为 ChatGPT 推出免费版本的高级语音模式。该功能基于 GPT-4o mini 模型，这是其最新模型 GPT-4o 的一种变体。这一举措旨在为更多用户提供更高效、更具交互性的...

早报 # ChatGPT # OpenAI # 高级语音模式

1年前

05710

适用于FLUX 和 SD3.5模型的新采样器Style-Friendly SNR：更好地捕捉独特的风格，并生成风格对齐度更高的图像

近年来，大型扩散模型在生成高质量图像方面取得了显著进展。然而，这些模型在学习新的、个性化的艺术风格方面存在困难，这限制了独特风格模板的创建。传统的微调方法通常盲目地利用预训练中使用的目标和噪声水平分布...

新技术 # Style-Friendly SNR # 采样器

1年前

05710

新型图像风格转换方法StyleShot：能够将任何图片转换成我们想要的几乎任何风格

同济大学和上海人工智能实验室的研究人员推出新型图像风格转换方法StyleShot，StyleShot能够将任何图片转换成我们想要的几乎任何风格，比如3D、平面、抽象或者精细风格，而且转换过程中不需要在...

新技术 # StyleShot # 图像风格转换

2年前

05710

豆包APP上线实时视频通话功能，开启智能互动新体验

豆包官方微信公众号宣布，豆包App正式上线实时视频通话功能。这一创新功能的推出，标志着豆包在智能互动领域迈出了重要一步，为用户带来了更加丰富和便捷的使用体验。实时视频通话功能介绍用户在豆包App的...

早报 # 实时视频通话 # 豆包

11个月前

05700

新型3D生成模型GaussianCube：通过结构化表示和优化传输方法解决了传统3D高斯溅射的问题

来自中国科学技术大学、清华大学和微软亚洲研究院的研究人员推出新型3D生成模型GaussianCube，它通过结构化表示和优化传输方法解决了传统3D高斯溅射的挑战，为3D内容的生成和编辑提供了一种高效且...

新技术 # 3D生成模型 # GaussianCube

2年前

05690

针对图生图模型的machine unlearning（机器遗忘）框架

来自美国德克萨斯大学奥斯汀分校和摩根大通全球技术应用研究中心的研究人员推出了一种针对图生图模型的machine unlearning（机器遗忘）框架，能够在不损害模型性能的前提下，有效地从模型中移除特...

新技术 # Machine Unlearning # 机器遗忘

2年前

05690

加载更多

百科

多视角图像编辑技术QNeRF：多视角图像编辑的一致性和质量

基于文本的视频编辑模型Emu Video Edit (EVE)

Gemini 3 或已就位！谷歌开发中的新一代 AI 大模型曝光

谷歌推出创新框架VLOGGER：只需要提供一张静态照片和一段语音，就能生成口型匹配的视频

英伟达推出VFC：用于生成高保真、详细图像和3D对象标题的强大工具

新型指令式图像编辑框架FireEdit：利用区域感知的视觉语言模型（VLM），实现了对用户指令的细粒度理解和精确图像编辑

ChatGPT 面向免费用户推出高级语音模式，但附带使用限制

适用于FLUX 和 SD3.5模型的新采样器Style-Friendly SNR：更好地捕捉独特的风格，并生成风格对齐度更高的图像

新型图像风格转换方法StyleShot：能够将任何图片转换成我们想要的几乎任何风格

豆包APP上线实时视频通话功能，开启智能互动新体验

新型3D生成模型GaussianCube：通过结构化表示和优化传输方法解决了传统3D高斯溅射的问题

针对图生图模型的machine unlearning（机器遗忘）框架

S.H.I.T

Tripo

同事.skill

MaxClaw

新Claude Managed Agents

waoo

百科

网址

S.H.I.T

Tripo

同事.skill

MaxClaw

新Claude Managed Agents

waoo