新技术

百科工具模型 ComfyUI AI合集 web UI 提示词

教程新技术硬件科普早报

排序

发布更新浏览点赞

用于加速DiT模型的训练和推理过程的方法HarmoniCa

商汤科技研究院、北京航空航天大学、莫纳什大学和香港科技大学推出一种用于加速DiT模型的训练和推理过程的方法HarmoniCa，通过基于Step-Wise去噪训练（SDT）和图像错误代理引导目标（IEP...

新技术 # DiT模型 # HarmoniCa

1年前

05380

EmoKnob：允许在语音合成中对任意情感进行细粒度控制的框架

哥伦比亚大学的研究人员推出一个允许在语音合成中对任意情感进行细粒度控制的框架EmoKnob，它用于提升语音克隆技术，只需少量示范样本，允许用户在语音合成中精细控制情感及其强度。简单来说，EmoKno...

新技术 # EmoKnob # 语音克隆

1年前

08160

高效且精确的注意力机制量化方法SageAttention：加速大语言处理、图像生成和视频生成模型

清华大学的研究人员推出一种高效且精确的注意力机制量化方法SageAttention，此方法的OPS（每秒操作数）性能分别比FlashAttention2和xformers提高了约2.1倍和2.7倍。S...

新技术 # SageAttention # 注意力机制

1年前

07030

新型视频生成模型Loong：基于自回归大语言模型，能够生成长达一分钟的连贯、内容丰富的视频

香港大学和字节跳动的研究人员推出新型视频生成模型Loong，它基于自回归大语言模型（LLMs），能够生成长达一分钟的连贯、内容丰富的视频。这在视频生成领域是一个挑战，因为视频通常包含大量的帧，每帧都需...

新技术 # Loong # 自回归大语言模型

1年前

05440

苹果推出新预训练方法CLOC：提升图像和文本表示的预训练效果，特别是在局部区域的语义理解方面

苹果推出新预训练方法CLOC（对比定位语言-图像预训练），旨在提升图像和文本表示的预训练效果，特别是在局部区域的语义理解方面。CLOC模型可以生成高分辨率、细节丰富的深度图，这些深度图不仅包含整体图像...

新技术 # CLOC # 对比定位语言-图像预训练 # 苹果

1年前

05190

苹果推出一个用于零样本度量单目深度估计的基础模型Depth Pro

苹果推出一个用于零样本度量单目深度估计的基础模型Depth Pro，它用于提高单目深度估计的准确性和细节表现。单目深度估计是指仅使用一个摄像头拍摄的单张图片来预测场景中每个像素的深度信息。例如，你用手...

新技术 # Depth Pro # 苹果

1年前

04670

自适应投影引导APG：不牺牲图像质量的前提下，使用更高的指导尺度，从而生成更丰富、更真实的图像

苏黎世联邦理工学院和迪士尼研究的研究人员推出自适应投影引导（APG），保留了CFG提高质量的优势，同时允许使用更高的引导比例而不产生过饱和。APG易于实现，并且实际上不会给采样过程带来额外的计算开销...

新技术 # APG # 自适应投影引导

1年前

04820

基于ComfyUI的ComfyGen：用于文本到图像生成的提示自适应工作流

英伟达和特拉维夫大学的研究人员推出新型文生图系统ComfyGen，此系统能够根据用户提供的文本提示（prompt），自动选择或生成最适合该提示的图像生成工作流。研究团队引入了一个新颖的任务——提示自适...

新技术 # ComfyGen # ComfyUI # 工作流

1年前

07640

Meta推出新型视频生成模型Movie Gen：不仅能制作高清视频，还能为视频配上声音

Meta宣布推出一款新AI视频生成器Movie Gen，这款工具不仅能制作高清视频，还能为视频配上声音。据Meta介绍，Movie Gen可通过简单的文字输入，自动生成全新的视频内容。此外，它还能编辑...

新技术 # Meta # Movie Gen # 视频生成模型

1年前

05520

新型视觉基础模型Lotus：使用扩散模型来生成高质量的密集预测结果

香港科技大学（广州）、阿德莱德大学、诺亚方舟实验室和香港科技大学的研究人员推出新型视觉基础模型Lotus，它使用扩散模型来生成高质量的密集预测结果。简单来说，Lotus就像一个超级聪明的图像处理专家...

新技术 # Lotus # 视觉基础模型

1年前

04720

阿里推出角色视频合成框架MIMO：允许用户对视频中的人物进行替换

阿里巴巴智能计算研究院推出MIMO，它能够根据用户提供的简单输入，合成具有可控属性（如角色、动作和场景）的逼真角色视频。简单来说，这项技术能够让用户通过提供一些基本的指令或样本，来创造出一段新的视频...

新技术 # MIMO # 角色视频合成 # 阿里巴巴

1年前

04560

新型图像生成技术MaskBit：根据一些简单的描述或者标签，自动创造出相对应的图像

字节跳动、慕尼黑工业大学、MCML和卡内基梅隆大学的研究人员推出新型图像生成技术MaskBit，这个技术能够自动创造出新的图像，而且不需要像传统方法那样依赖于大量的预训练数据或者复杂的数学模型。Mas...

新技术 # MaskBit # 图像生成

1年前

05570

加载更多