百科 | 第30页 | SD百科导航

百科工具模型 ComfyUI AI合集 web UI 提示词

教程新技术硬件科普早报

排序

发布更新浏览点赞

VideoElevator：利用文生图模型来增强文生视频的质量和细节

来自哈尔滨大学和清华大学的研究团队推出VideoElevator，利用文生图模型来增强文生视频的质量和细节，这个过程是无需训练的，可以直接插入现有的模型中使用，还能利用文生图模型来实现风格迁移，非常方...

2年前

06480

SSAM 2增强版SAMURAI：专门设计用于视觉物体跟踪

Segment Anything Model 2 (SAM 2) 是一个在物体分割任务中表现出色的模型，但在视觉物体跟踪方面仍面临一些挑战。特别是在处理拥挤场景中快速移动或自我遮挡的物体时，SAM 2...

新技术 # SAMURAI # SSAM 2

1年前

06470

参照音频-视觉分割RefAVS：依据融合了多模态提示（包括音频和视觉描述）的自然语言表达，对视觉场景中的目标物进行分割

中国人民大学、北京邮电大学和上海人工智能实验室的研究人员推出RefAVS（参照音频-视觉分割），依据融合了多模态提示（包括音频和视觉描述）的自然语言表达，对视觉场景中的目标物进行分割。研究团队还创建了...

新技术 # RefAVS # 参照音频-视觉分割

2年前

06470

图像编辑技术MimicBrush：允许用户指定源图像中需要编辑的区域，并提供一个参考图像，来展示编辑后期望的效果

香港大学、阿里巴巴集团和蚂蚁集团的研究人员推出图像编辑技术MimicBrush，它通过模仿（imitative editing）的方式，让用户能够更加方便地发挥创造力进行图像编辑。简单来说，Mimic...

新技术 # MimicBrush # 图像编辑

2年前

06470

Warp 2.0 发布：全球首个代理开发环境来了

今天，Warp 正式发布 Warp 2.0 ——全球首个代理开发环境（Agentic Development Environment，简称 ADE）。这不是一次简单的更新，而是一次产品理念的进化：从...

早报 # Warp 2.0 # 代理开发环境

10个月前

06460

Meta 推出免费视频剪辑软件Edits，挑战字节跳动旗下CapCut（剪映）

Meta 于本周二正式全球发布了其视频创作应用 Edits，这款应用旨在为创作者提供一个强大的工具，用于跟踪视频创意、获取灵感，并使用特效和 AI 工具创建高质量视频。Edits 支持 iOS 和 A...

早报 # CapCut # Edits # Meta

12个月前

06460

深圳大学推出Attention Distillation：用于将参考图像的视觉特征（如风格、纹理、外观）转移到生成的图像中

深圳大学的研究团队介绍了一种名为 Attention Distillation (AD) 的方法，用于将参考图像的视觉特征（如风格、纹理、外观）转移到生成的图像中。该方法通过计算预训练扩散模型中的自注...

新技术 # Attention Distillation # 参考图像 # 深圳大学

1年前

06440

谷歌推出贪婪生长方法（Greedy Growing）：用来训练大规模、高分辨率的基于像素的图像扩散模型

谷歌发布论文讨论了一个非常有趣的话题：如何通过一种称为“贪婪生长”（Greedy Growing）的方法来训练大规模、高分辨率的基于像素的图像扩散模型，且无需级联超分辨率组件。简单来说，就是科学家们找...

新技术 # Greedy Growing # 谷歌 # 贪婪生长

2年前

06430

腾讯推出创新框架AniPortrait：根据音频和一张参考肖像图片生成高质量的动画

腾讯推出创新框架AniPortrait，它可以根据音频和一张参考肖像图片生成高质量的动画。这个系统可以捕捉到音频中的微妙表情和唇部动作，并将这些动作应用到一个静态的肖像图片上，从而创建出看起来像是在说...

新技术 # AniPortrait

2年前

06430

图像编辑技术Prompt-to-Prompt：通过提示词进行局部或全局编辑

来自谷歌和特拉维夫大学的团队推出图像编辑技术Prompt-to-Prompt，这是一种直观的从提示到提示的编辑框架，其中编辑操作仅通过文本进行控制。此团队深入分析了文本条件模型，并观察到交叉注意力层在...

新技术 # Prompt-to-Prompt # 图像编辑 # 提示词

2年前

06430

视频编辑方法STABLEV2V：解决视频编辑中形状一致性问题

中国科学技术大学的研究人员推出视频编辑方法STABLEV2V，旨在解决视频编辑中形状一致性问题。STABLEV2V通过一系列顺序过程来编辑视频：首先编辑第一帧视频，然后建立交付动作与用户提示之间的对齐...

新技术 # STABLEV2V # 视频编辑

1年前

06420

字节跳动推出基于音频驱动人物肖像新框架Loopy：专门用于生成与音频同步的逼真人像视频

字节跳动和浙江大学的研究人员推出新型人工智能模型Loopy，它专门用于生成与音频同步的逼真人像视频。Loopy的核心特点是完全基于音频信号来驱动人像动作，而不需要额外的空间信号来辅助控制动作，这使得生...

新技术 # Loopy # 人物 # 字节跳动

2年前

06420

加载更多

百科

VideoElevator：利用文生图模型来增强文生视频的质量和细节

SSAM 2增强版SAMURAI：专门设计用于视觉物体跟踪

参照音频-视觉分割RefAVS：依据融合了多模态提示（包括音频和视觉描述）的自然语言表达，对视觉场景中的目标物进行分割

图像编辑技术MimicBrush：允许用户指定源图像中需要编辑的区域，并提供一个参考图像，来展示编辑后期望的效果

Warp 2.0 发布：全球首个代理开发环境来了

Meta 推出免费视频剪辑软件Edits，挑战字节跳动旗下CapCut（剪映）

深圳大学推出Attention Distillation：用于将参考图像的视觉特征（如风格、纹理、外观）转移到生成的图像中

谷歌推出贪婪生长方法（Greedy Growing）：用来训练大规模、高分辨率的基于像素的图像扩散模型

腾讯推出创新框架AniPortrait：根据音频和一张参考肖像图片生成高质量的动画

图像编辑技术Prompt-to-Prompt：通过提示词进行局部或全局编辑

视频编辑方法STABLEV2V：解决视频编辑中形状一致性问题

字节跳动推出基于音频驱动人物肖像新框架Loopy：专门用于生成与音频同步的逼真人像视频

S.H.I.T

Tripo

ITELLOU

waoo

Joker of Academics（小丑学术期刊）

Flova

百科

网址

S.H.I.T

Tripo

ITELLOU

waoo

Joker of Academics（小丑学术期刊 ）

Flova

Joker of Academics（小丑学术期刊）