百科 | 第146页 | SD百科导航

百科工具模型 ComfyUI AI合集 web UI 提示词

教程新技术硬件科普早报

排序

发布更新浏览点赞

零样本视频定制框架DreamVideo-2：根据单一图像和一系列界定框序列生成具有特定主题和运动轨迹的视频

复旦大学、阿里巴巴、南洋理工大学和密歇根州立大学的研究人员推出一个零样本视频定制框架DreamVideo-2，能够根据单一图像和一系列界定框（bounding box）序列生成具有特定主题和运动轨迹的...

新技术 # DreamVideo-2 # 视频定制

1年前

06060

TransAgent 框架：提升视觉-语言基础模型（比如CLIP）在新领域中的泛化能力

中国科学院深圳先进技术研究院、中国科学院大学、上海人工智能实验室和上海交通大学的研究人员推出一个通用且简洁的 TransAgent 框架，它的目标是提升视觉-语言基础模型（比如CLIP）在新领域中的泛...

新技术 # CLIP模型 # TransAgent 框架

1年前

04740

条件对比对齐CCA：提升自回归（AR）视觉生成模型的样本质量

无分类器引导（CFG）是提高视觉生成模型样本质量的关键技术。然而，在自回归（AR）多模态生成中，CFG 在语言和视觉内容之间引入了设计不一致性，这与统一不同模态的视觉 AR 设计理念相矛盾。受语言模型...

新技术 # CCA # 条件对比对齐 # 视觉生成模型

1年前

05770

用于生成同步语音体态手势视频的框架 TANGO：把新的语音和已有的视频动作结合起来，生成高保真的、与语音同步的身体手势视频

东京大学和CyberAgent 人工智能实验室的研究人员推出了一个用于生成同步语音体态手势视频的框架 TANGO，它可以从一个几分钟长的参考视频（里面有一个说话者的身体动作）和目标语音音频出发，生...

新技术 # TANGO # 同步语音体态手势

1年前

04030

Fluid: 基于连续令牌和随机顺序生成的文生图模型

在视觉领域，自回归模型的扩展并没有像在大语言模型中那样取得显著的成功。为了探索这一问题，Google DeepMind 和麻省理工学院的研究人员进行了一项研究，重点探讨了两个关键因素：模型是使用离散还...

新技术 # Fluid:# 文生图模型

1年前

04580

Ollama 与Hugging Face合作！Ollama可以使用 Hugging Face上所有GGUF格式模型了

Ollama 是一个基于 llama.cpp 的应用，可以直接在本地运行开源的大语言模型，之前只能在官网上下载模型或者从Hugging Face上导入，有点麻烦，现在Ollama 与Hugging F...

教程 # Hugging Face # Ollama

1年前

01,8140

Adobe MAX大会亮点！Adobe旗下多个应用发布新功能，视频生成功能已上线Adobe Premiere Pro和Adobe Firefly

今天，在美国迈阿密海滩举行的Adobe MAX大会上，Adobe发布了最新版本的Adobe Creative Cloud，其中包括超过100项新功能，涵盖了Photoshop、Illustrator...

早报 # Adobe Firefly # Adobe MAX # Adobe Premiere Pro

1年前

05650

图上下文感知扩散模型InstructG2I：根据多模态属性图（MMAGs）生成图像

多模态属性图（MMAGs）作为一种强大的数据结构，能够以图的形式表示实体之间的关系，节点中包含图像和文本信息。尽管 MMAGs 在图像生成中具有多功能性，但它们受到的关注相对较少。这是因为 MMAGs...

新技术 # InstructG2I # 多模态属性图

1年前

05950

图像编辑新方法DICE：用于改进离散扩散模型在可控编辑任务中的性能

罗格斯大学、麻省理工学院-IBM Watson AI 实验室、谷歌 DeepMind、NEC 美国实验室、纽约大学、沃尔玛全球科技公司、澳大利亚国立大学和麻省理工学院阿灵顿分校的研究人员推出图像编...

新技术 # DICE # 图像编辑

1年前

05870

FSC-CLIP：提升预训练视觉和语言模型（VLMs）在理解图像和文字组合任务上的能力，同时保持在多模态任务上的性能

韩国科学技术院、世宗大学和汉阳大学的研究人员推出FSC-CLIP，提升预训练视觉和语言模型（VLMs）在理解图像和文字组合任务上的能力，同时保持在多模态任务上的性能。简单来说，就是让计算机能够更好地理...

新技术 # FSC-CLIP # 多模态

1年前

04820

矩形扩散Rectified Diffusion：提高扩散模型的生成速度

香港中文大学、北京大学和普林斯顿大学的研究人员推出Rectified Diffusion，它用于加速生成扩散模型（diffusion models），这些模型在视觉生成领域取得了显著的进展，比如生成高...

百科 # Rectified Diffusion # 矩形扩散

1年前

06100

长视频生成新方法PA-VDM：现有的模型可以自然地扩展为自回归视频扩散模型，而无需改变架构

石溪大学和Adobe 研究中心的研究人员推出长视频生成新方法PA-VDM，它能够生成高质量的长视频。在解释这个主题时，我们可以把它想象成一个能够将静态图片或简短视频变成长篇电影的魔法盒子。项目主...

新技术 # PA-VDM # 长视频生成

1年前

05850

加载更多

百科