腾讯发布开源视频生成模型—混元文生视频模型HunyuanVideo 腾讯在今天正式开源了其最新的视频生成模型—混元文生视频模型HunyuanVideo。这款模型不仅在视频生成能力上与业界领先的闭源模型相匹敌,甚至在某些方面表现更为出色。作为一款综合性的框架,Hunyu... 视频模型# HunyuanVideo# 混元文生视频模型# 腾讯 2周前01310
InfiniteZoom-Mochi:基于视频生成模型Mochi的LoRA,专注于无限缩放艺术风格 InfiniteZoom-Mochi是一个视频生成模型Mochi的LoRA,专注于无限缩放艺术风格。无限缩放艺术风格是一种独特的视觉效果,通过不断放大图像的某个部分,创造出一种无限深入的感觉。应用此L... 视频模型# InfiniteZoom-Mochi# 无限缩放 2周前01100
10款Flux LoRA模型:提升Flux模型生成图像的质量和艺术性 虽然Flux模型非常强大,但大家想要更多风格、更高质量的图像,那么LoRA就非常必要了,通过整合特定的LoRA模型,您可以显著提升Flux模型生成图像的质量和艺术性。今天给大家分享10款LoRA模型,... Flux衍生# FLUX模型# Lora 2周前01060
Rhymes AI开源图生视频模型Allegro-TI2V:根据用户提供的提示和图像生成视频 Rhymes AI之前开源了视频生成模型Allegro,近期它们又推出了Allegro-TI2V。作为原始Allegro模型的迭代,Allegro-TI2V提供了前所未有的能力,将文本描述和图像转化为... 视频模型# Allegro-TI2V# Rhymes AI 2周前01140
多模态大语言模型ChatRex:提升对人类姿态的感知和理解能力 IDEA的研究人员推出多模态大语言模型ChatRex,它旨在提升对人类姿态的感知和理解能力。ChatRex通过结合视觉和语言模型,能够执行多种与人体姿态相关任务,包括姿态理解、生成和编辑。这个模型特别... 多模态模型# ChatRex# 多模态大语言模型 2周前01240
虚拟脱衣TryOffDiff:使用SD模型进行高保真服装重建的虚拟试穿 比勒费尔德大学 CITEC 机器学习小组提出了一项新颖的任务——虚拟脱衣(Virtual Try-Off, VTOFF),旨在从穿着衣服的单张照片中生成标准化的服装图像。与传统的虚拟试穿(Virtua... 图像模型# TryOffDiff# 虚拟脱衣# 虚拟试穿 2周前01270
自动T2I生成系统ChatGen:以自由聊天的形式简单描述需求,从而轻松获得高质量的图像 尽管文本到图像(T2I)生成模型在近年来取得了显著进展,用户在实际应用中仍然面临着诸多挑战。制作合适的提示、选择适当的模型和配置特定参数等繁琐步骤的复杂性和不确定性,使得用户不得不通过反复试验来获得满... 图像模型# ChatGen 2周前01210
半身人体动画生成框架 EchoMimicV2:利用参考图像、音频剪辑和一系列手部姿势来生成高质量的动画视频 随着计算机图形学和人工智能的发展,生成高质量的人类动画变得越来越重要。特别是,当涉及到创建生动、自然的动画时,音频、姿势或运动图等条件的引入大大提升了动画的真实性和表现力。然而,这些增强的方法也带来了... 视频模型# EchoMimicV2# 动画生成 2周前01510
用于 GUI 自动化的视觉代理模型ShowUI:结合了视觉、语言和行动能力,提高人机交互的效率和生产力 新加坡国立大学和微软的研究人员推出用于 GUI(图形用户界面) 自动化的视觉代理模型ShowUI ,它是一个结合了视觉、语言和行动能力的大模型,旨在提高人机交互的效率和生产力。ShowUI通过理解和执... 多模态模型# ShowUI# 视觉代理模型 2周前01280
Hugging Face发布一个用于设备上推理的2B参数小型多模态模型SmolVLM 近年来,随着机器学习技术的飞速发展,视觉-语言模型(VLM)的需求不断增加。这些模型能够处理图像和文本的组合任务,如图像描述、问答和故事生成等。然而,大多数现有的VLM需要大量的计算资源和内存,这限制... 多模态模型# Hugging Face# SmolVLM# 多模态模型 2周前01160
Stability AI发布适用于Stable Diffusion 3.5 Large的官方ControlNets模型:Blur、Canny和Depth 在Black Forest Labs发布了官方FLUX.1 Tools系列开源模型后,Stability AI也不甘落后,于今天发布了三款官方ControlNets模型:Blur、Canny和Dept... 图像模型# ControlNets模型# SD3.5# Stability AI 2周前01230
aiOla发布了集成命名实体识别(NER)和自动语音识别(ASR)的新型模型WhisperNER 语音识别技术在过去几年取得了显著进展,AI的进步大大提高了其可访问性和准确性。然而,该技术仍面临一些挑战,特别是在理解和转录人名、地点和特定术语等口语实体方面。这些挑战不仅在于准确地将语音转换为文本,... 语音模型# aiOla# WhisperNER# 自动语音识别 2周前01440