一种在推理阶段组合定制扩散模型的新方法TweedieMix:用于改进多概念融合在基于扩散的图像和视频生成中的应用KRAFTON和韩国科学技术研究院AI研究生院的研究人员推出一种在推理阶段组合定制扩散模型的新方法TweedieMix,它用于改进多概念融合在基于扩散的图像和视频生成中的应用。简单来说,Tweedie...新技术# TweedieMix# 扩散模型1年前04720
新型框架GVGEN:根据文本描述直接生成三维模型来自上海AI研究所、清华大学、上海交通大学、浙江大学和VAST的研究团队推出新型框架GVGEN,它能够根据文本描述直接生成三维模型。与现有的3D生成方法相比,GVGEN在定性和定量评估中均表现出卓越的...新技术# GVGEN# 三维模型2年前04710
大型多模态模型VideoGLaMM:专为用户提供的文本输入进行视频中细粒度像素级定位而设计视频与文本之间的细粒度对齐是一个具有挑战性的问题,因为视频中存在复杂的空间和时间动态。现有的基于视频的大型多模态模型(LMMs)虽然可以处理基本对话,但在视频中进行精确的像素级定位方面存在困难。 大型...新技术# VideoGLaMM# 大型多模态模型1年前04700
字节跳动Seed团队发布WideSearch:首个面向大规模信息收集的智能体评估基准在信息过载的时代,获取“更多”并不等于“更有效”。真正制约效率的,往往不是找不到某个具体答案,而是面对海量目标时的系统性整理能力——比如,为一个行业筛选出上百家公司数据,或从成千上万条招聘信息中精准匹...新技术# WideSearch# 字节跳动# 智能体评估基准4个月前04690
Bolt与 AnimaApp 合作:将 Figma 设计无缝转化为像素级完美的全栈应用程序Bolt 推出了一项强大的新功能,通过与 AnimaApp 合作,将 Figma 设计无缝转化为像素级完美的全栈应用程序。这一创新工具让设计师无需编写代码,即可将创意快速转化为真实、可运行的应用程序...早报# Bolt# Figma9个月前04690
TransAgent 框架:提升视觉-语言基础模型(比如CLIP)在新领域中的泛化能力中国科学院深圳先进技术研究院、中国科学院大学、上海人工智能实验室和上海交通大学的研究人员推出一个通用且简洁的 TransAgent 框架,它的目标是提升视觉-语言基础模型(比如CLIP)在新领域中的泛...新技术# CLIP模型# TransAgent 框架1年前04690
文本到纹理方法RoCoTex:用于生成高质量、一致性强的3D模型纹理NCSOFT 图形 AI 实验室、韩国大学计算机科学与工程系和韩国中央大学图像系的研究人员推出一种稳健的文本到纹理方法RoCoTex,它是一种用于生成高质量、一致性强的3D模型纹理的方法。简单来说,R...新技术# 3D模型纹理# RoCoTex1年前04670
一步式文本到图像扩散模型SwiftBrush v2:通过优化训练方法和引入新的损失函数,来提高图像质量和文本图像对齐度越南VinAI 研究和胡志明邮电技术学院的研究人员推出SwiftBrush v2,这是一个先进的文本到图像扩散模型,它通过优化训练方法和引入新的损失函数,比如“clamped CLIP loss”,来...新技术# SwiftBrush v21年前04670
新型视频生成框架CustomCrafter:根据文本提示和主题参考图像生成高质量视频浙江大学、腾讯人工智能实验室和腾讯 PCG ARC 实验室的研究人员推出新型视频生成框架CustomCrafter,它可以根据文本提示和主题参考图像生成高质量视频。这项技术的目标是让用户能够自定义视频...新技术# CustomCrafter# 视频生成1年前04670
Ideogram推出角色一致性功能Ideogram Character,支持跨场景形象统一在数字创作中,角色是叙事的核心。然而,与真人演员不同,AI生成的角色往往难以“保持人设”——同一张脸,在不同场景中可能变成另一个人。缺乏一致性,故事便失去了连贯的锚点。 现在,这个问题有了新的解法。 ...早报# Ideogram# Ideogram Character# 角色一致性5个月前04660
RankDPO:提高模型在遵循文本提示和视觉质量方面的表现直接偏好优化(DPO)已成为一种强大的方法,用于将文本到图像(T2I)模型与人类反馈对齐。然而,成功应用DPO需要大量的资源来收集和标注大规模数据集,例如数百万张生成的人类偏好注释的配对图像。此外,随...新技术# RankDPO1年前04660
FRESCO:将输入的视频转换成具有特定风格的新视频,同时保持视频中的语义内容和动作的连贯性来自北京大学和南洋理工大学的研究团队推出FRESCO,这是一个用于视频转换的零样本(Zero-Shot)方法。简单来说,FRESCO能够根据文本提示,将输入的视频转换成具有特定风格的新视频,同时保持视...新技术# FRESCO# 视频转换2年前04660