新技术

百科工具模型 ComfyUI AI合集 web UI 提示词

教程新技术硬件科普早报

排序

发布更新浏览点赞

一步式文本到图像扩散模型SwiftBrush v2：通过优化训练方法和引入新的损失函数，来提高图像质量和文本图像对齐度

越南VinAI 研究和胡志明邮电技术学院的研究人员推出SwiftBrush v2，这是一个先进的文本到图像扩散模型，它通过优化训练方法和引入新的损失函数，比如“clamped CLIP loss”，来...

新技术 # SwiftBrush v2

2年前

04710

Flow-GRPO：将在线强化学习与流匹配模型相结合，用于提升文生图模型生成任务的性能

香港中文大学MM实验室、清华大学、快手科技、南京大学和上海人工智能实验室推出新方法Flow-GRPO，它将在线强化学习（Reinforcement Learning, RL）与流匹配（Flow Mat...

新技术 # Flow-GRPO # 强化学习 # 流匹配

10个月前

04700

Jasper Research推出新型图像到图像转换方法LBM：可以实现对象移除、调整光照等效果

Jasper Research推出一种新型图像到图像转换方法Latent Bridge Matching (LBM) ，这种方法通过在潜在空间中进行“桥匹配”（Bridge Matching）来实现快...

新技术 # Jasper Research # LBM # 图像转换

1年前

04700

新型视频生成框架CustomCrafter：根据文本提示和主题参考图像生成高质量视频

浙江大学、腾讯人工智能实验室和腾讯 PCG ARC 实验室的研究人员推出新型视频生成框架CustomCrafter，它可以根据文本提示和主题参考图像生成高质量视频。这项技术的目标是让用户能够自定义视频...

新技术 # CustomCrafter # 视频生成

2年前

04690

无需预先训练框架MotionClone：通过复制参考视频中的动作来指挥文本导向的视频生成

中国科学技术大学、上海交通大学、香港中文大学和上海人工智能实验室的研究人员推出无需预先训练框架MotionClone，它能够实现一种无需训练的运动克隆，用于可控的视频生成。简单来说，这项技术可以让一个...

新技术 # MotionClone # 视频生成

2年前

04690

苹果推出一个用于零样本度量单目深度估计的基础模型Depth Pro

苹果推出一个用于零样本度量单目深度估计的基础模型Depth Pro，它用于提高单目深度估计的准确性和细节表现。单目深度估计是指仅使用一个摄像头拍摄的单张图片来预测场景中每个像素的深度信息。例如，你用手...

新技术 # Depth Pro # 苹果

1年前

04670

韩国科学技术研究院推出专门针对文生图模型的新型数据投毒攻击方法Silent Branding Attack

韩国科学技术研究院和DeepAuto.ai的研究人员推出一种新型数据投毒攻击方法Silent Branding Attack ，专门针对文生图模型。该方法能够在文生图模型中隐秘地嵌入特定品牌标志或符号...

新技术 # Silent Branding Attack # 文生图模型 # 韩国科学技术研究院

1年前

04660

ObjectMate：能够在无需微调的情况下，实现对象插入和主题驱动的图像生成

对象插入和主体驱动生成是计算机视觉中的两个重要任务，旨在将给定的对象合成到由图像或文本指定的场景中。具体来说：对象插入：将一个对象无缝地插入到目标场景中，要求合成后的图像在姿态、光照等方面看起来逼真...

新技术 # ObjectMate # 图像编辑

1年前

04660

基于参考的线条艺术视频上色的视频扩散框架LVCD：用于根据参考图像和线稿序列为动画视频着色

香港城市大学和腾讯的研究人员推出基于参考的线条艺术视频上色的视频扩散框架LVCD，用于根据参考图像和线稿序列为动画视频着色。这种方法能够生成长时间一致的、高质量的动画视频。LVCD在保持长时间一致性和...

新技术 # LVCD # 视频上色

2年前

04660

音乐生成系统Seed-Music：能够创作出高质量的音乐，并且可以根据用户的细致要求来调整音乐的风格和内容

字节跳动旗下豆包团队推出音乐生成系统Seed-Music，能够创作出高质量的音乐，并且可以根据用户的细致要求来调整音乐的风格和内容。Seed-Music结合了自回归语言建模和扩散方法，支持两种关键的音...

新技术 # Seed-Music # 音乐生成

2年前

04650

结合了大语言模型与文生图模型的新框架SGEdit：用于基于场景图的精确和灵活的图像编辑

场景图提供了一种结构化、层次化的图像表示方式，其中节点和边分别代表图像中的对象及其相互关系。这种方式不仅能够帮助用户更直观地理解图像内容，还能作为图像编辑的有效接口，极大提升了编辑工作的准确性和灵活性...

新技术 # SGEdit # 图像编辑 # 大语言模型

1年前

04640

Fluid: 基于连续令牌和随机顺序生成的文生图模型

在视觉领域，自回归模型的扩展并没有像在大语言模型中那样取得显著的成功。为了探索这一问题，Google DeepMind 和麻省理工学院的研究人员进行了一项研究，重点探讨了两个关键因素：模型是使用离散还...

新技术 # Fluid:# 文生图模型

1年前

04640

加载更多

一步式文本到图像扩散模型SwiftBrush v2：通过优化训练方法和引入新的损失函数，来提高图像质量和文本图像对齐度

Flow-GRPO：将在线强化学习与流匹配模型相结合，用于提升文生图模型生成任务的性能

Jasper Research推出新型图像到图像转换方法LBM：可以实现对象移除、调整光照等效果

新型视频生成框架CustomCrafter：根据文本提示和主题参考图像生成高质量视频

无需预先训练框架MotionClone：通过复制参考视频中的动作来指挥文本导向的视频生成

苹果推出一个用于零样本度量单目深度估计的基础模型Depth Pro

韩国科学技术研究院推出专门针对文生图模型的新型数据投毒攻击方法Silent Branding Attack

ObjectMate：能够在无需微调的情况下，实现对象插入和主题驱动的图像生成

基于参考的线条艺术视频上色的视频扩散框架LVCD：用于根据参考图像和线稿序列为动画视频着色

音乐生成系统Seed-Music：能够创作出高质量的音乐，并且可以根据用户的细致要求来调整音乐的风格和内容

结合了大语言模型与文生图模型的新框架SGEdit：用于基于场景图的精确和灵活的图像编辑

Fluid: 基于连续令牌和随机顺序生成的文生图模型

新悟空

新OpenMAIC

S.H.I.T

Meshy

Joker of Academics（小丑学术期刊）

CutCut

新技术

网址

新悟空

新OpenMAIC

S.H.I.T

Meshy

Joker of Academics（小丑学术期刊 ）

CutCut

Joker of Academics（小丑学术期刊）