百科 | 第148页 | SD百科导航

百科工具模型 ComfyUI AI合集 web UI 提示词

教程新技术硬件科普早报

排序

发布更新浏览点赞

文本到纹理方法RoCoTex：用于生成高质量、一致性强的3D模型纹理

NCSOFT 图形 AI 实验室、韩国大学计算机科学与工程系和韩国中央大学图像系的研究人员推出一种稳健的文本到纹理方法RoCoTex，它是一种用于生成高质量、一致性强的3D模型纹理的方法。简单来说，R...

新技术 # 3D模型纹理 # RoCoTex

1年前

04670

无需训练的概率并行解码算法SJD：用于加速自动回归文本到图像的生成模型

香港大学、华为诺亚方舟实验室、香港中文大学、清华大学、上海交通大学和无问芯穹的研究人员推出一种无需训练的概率并行解码算法SJD（猜测性雅可比解码），用于加速自动回归文本到图像的生成模型。自动回归模型在...

新技术 # SJD # 解码算法

1年前

07330

基于多模态token的新型基础模型MIO：能够以端到端、自回归的方式理解和生成语音、文本、图像和视频

北京航空航天大学、01.AI、香港理工大学、AIWaves、阿尔伯塔大学、滑铁卢大学、曼彻斯特大学、中国科学院自动化研究所、北京大学和香港科技大学的研究人员推出一个基于多模态token的新型基础模型M...

新技术 # MIO # 多模态

1年前

06210

新颖的图生视频方法PhysGen：能够将一张静态图片转换成一段真实感强、物理上可信、时间上连贯的视频

伊利诺伊大学香槟分校推出一种新颖的图像到视频生成方法PhysGen，它能够将一张静态图片转换成一段真实感强、物理上可信、时间上连贯的视频。简单来说，就是给定一张图片，比如一个球在斜坡上，PhysGen...

新技术 # PhysGen # 图生视频

1年前

05260

图像复制检测模型ICDiff：解决扩散模型生成图像的版权和原创性问题

悉尼科技大学、百度和浙江大学的研究人员推出图像复制检测模型ICDiff，这是第一个专门针对扩散模型的ICD（图像复制检测）。为此，研究人员构建了一个扩散-复制（D-Rep）数据集，并相应地提出了一种新...

新技术 # ICDiff # PDF-Embedding # 图像复制检测

1年前

05810

阿里巴巴Wanx 团队推出新型多模态生成模型ACE：可以根据文本指令来执行复杂的图像编辑和生成任务

阿里巴巴Wanx 团队推出新型多模态生成模型ACE，这个模型的核心功能是处理和生成图像，但它与传统的图像处理工具不同，因为它可以根据文本指令来执行复杂的图像编辑和生成任务。例如，你是一名摄影师，你拍摄...

新技术 # ACE # 阿里巴巴

1年前

06580

用于加速DiT模型的训练和推理过程的方法HarmoniCa

商汤科技研究院、北京航空航天大学、莫纳什大学和香港科技大学推出一种用于加速DiT模型的训练和推理过程的方法HarmoniCa，通过基于Step-Wise去噪训练（SDT）和图像错误代理引导目标（IEP...

新技术 # DiT模型 # HarmoniCa

1年前

05300

EmoKnob：允许在语音合成中对任意情感进行细粒度控制的框架

哥伦比亚大学的研究人员推出一个允许在语音合成中对任意情感进行细粒度控制的框架EmoKnob，它用于提升语音克隆技术，只需少量示范样本，允许用户在语音合成中精细控制情感及其强度。简单来说，EmoKno...

新技术 # EmoKnob # 语音克隆

1年前

07870

高效且精确的注意力机制量化方法SageAttention：加速大语言处理、图像生成和视频生成模型

清华大学的研究人员推出一种高效且精确的注意力机制量化方法SageAttention，此方法的OPS（每秒操作数）性能分别比FlashAttention2和xformers提高了约2.1倍和2.7倍。S...

新技术 # SageAttention # 注意力机制

1年前

06500

新型视频生成模型Loong：基于自回归大语言模型，能够生成长达一分钟的连贯、内容丰富的视频

香港大学和字节跳动的研究人员推出新型视频生成模型Loong，它基于自回归大语言模型（LLMs），能够生成长达一分钟的连贯、内容丰富的视频。这在视频生成领域是一个挑战，因为视频通常包含大量的帧，每帧都需...

新技术 # Loong # 自回归大语言模型

1年前

05350

苹果推出新预训练方法CLOC：提升图像和文本表示的预训练效果，特别是在局部区域的语义理解方面

苹果推出新预训练方法CLOC（对比定位语言-图像预训练），旨在提升图像和文本表示的预训练效果，特别是在局部区域的语义理解方面。CLOC模型可以生成高分辨率、细节丰富的深度图，这些深度图不仅包含整体图像...

新技术 # CLOC # 对比定位语言-图像预训练 # 苹果

1年前

05120

苹果推出一个用于零样本度量单目深度估计的基础模型Depth Pro

苹果推出一个用于零样本度量单目深度估计的基础模型Depth Pro，它用于提高单目深度估计的准确性和细节表现。单目深度估计是指仅使用一个摄像头拍摄的单张图片来预测场景中每个像素的深度信息。例如，你用手...

新技术 # Depth Pro # 苹果

1年前

04610

加载更多

百科