阿里通义实验室推出强化学习框架ZEROSEARCH:通过模拟搜索引擎来提升大语言模型的信息检索能力阿里通义实验室推出一种创新的强化学习框架ZEROSEARCH,通过模拟搜索引擎来提升大语言模型(LLMs)的信息检索能力,而无需与真实搜索引擎进行交互。该框架通过轻量级的监督微调(SFT),将 LLM...大语言模型# ZEROSEARCH# 强化学习框架11个月前02480
3D 原语组装生成框架PrimitiveAnything:通过自回归变换器将复杂的 3D 形状分解为简单几何原语的组合腾讯和清华大学的研究人员推出一种新型3D 原语组装生成框架PrimitiveAnything,旨在通过自回归变换器将复杂的 3D 形状分解为简单几何原语的组合。该框架通过学习人类如何将复杂形状分解为基...3D模型# 3D# PrimitiveAnything11个月前03760
新型自回归视频扩散模型CausVid:解决传统双向扩散模型在交互式应用中的高延迟问题麻省理工学院和Adobe的研究人员推出新型自回归视频扩散模型CausVid,旨在解决传统双向扩散模型在交互式应用中的高延迟问题。通过将双向扩散模型蒸馏为快速自回归生成器,CausVid 能够实现低延迟...视频模型# CausVid# 自回归视频扩散模型11个月前04370
腾讯推出新型图生视频框架FlexiAct:实现灵活的视频动作克隆腾讯和清华大学的研究人员推出新型图生视频框架FlexiAct,实现灵活的动作控制,能够在异构场景(即具有不同空间结构、骨骼结构或视角的场景)中将参考视频中的动作迁移到任意目标图像上,同时保持动作动态和...视频模型# FlexiAct# 图生视频11个月前03720
基于Flux模型的图像编辑框架Insert Anything:通过用户指定的灵活控制,将参考图像中的对象无缝整合到目标场景中来自 浙江大学、哈佛大学 和 南洋理工大学 的研究人员提出了一种名为 Insert Anything 的创新框架,通过用户指定的灵活控制,将参考图像中的对象无缝整合到目标场景中。这一方法无需为每个任务...图像模型# Insert Anything# 图像编辑11个月前01650
专为漫画线稿上色设计的Cobra框架:能将黑白线稿转化为生动的插图在漫画生产行业中,基于参考图像的线稿上色是一项既复杂又关键的任务。一页漫画通常包含多样的人物、物体和背景,这不仅要求上色过程具备高准确性、上下文一致性,还需要灵活控制以满足不同场景需求。然而,传统的扩...图像模型# Cobra# 上色模型# 漫画线稿11个月前01990
Lightricks 推出全新开源视频生成模型 LTXV-13BLightricks之前推出的都是小尺寸模型,而在今天它宣布推出其最新且最先进的开源视频生成模型——LTXV-13B,这一模型不仅在质量、速度和可访问性方面实现了显著提升,还为创作者提供了强大的工具...视频模型# Lightricks# LTXV-13B# 视频生成模型11个月前04220
音乐生成基础模型ACE-Step:通过创新的整体架构设计,快速生成高质量音乐ACE Studio和阶跃星辰(StepFun)联合推出了一款全新的开源音乐生成基础模型ACE-Step,该模型通过创新的整体架构设计,突破了现有方法的局限性,实现了卓越的性能表现。 GitHub:h...语音模型# ACE-Step# 音乐模型11个月前04970
新型语音语言模型 LLaMA-Omni 2:实现高质量的实时语音交互中国科学院计算技术研究所、中国科学院人工智能安全重点实验室和中国科学院大学的研究人员推出新型语音语言模型 LLaMA-Omni 2 ,旨在实现高质量的实时语音交互。LLaMA-Omni 2 基于 Qw...语音模型# LLaMA-Omni 2# 语音语言模型11个月前02730
新型语音语言基础模型Voila :实现自然、实时、自主的语音交互Maitrix.org、加州大学圣地亚哥分校和MBZUAI的研究人员推出新型语音语言基础模型Voila ,旨在实现自然、实时、自主的语音交互。Voila 通过端到端的架构设计,突破了传统语音交互系统...语音模型# Voila# 语音语言基础模型11个月前04650
字节跳动推出新型图像编辑方法 SuperEdit :通过改进监督信号来提升基于指令的图像编辑性能字节跳动和佛罗里达中央大学计算机视觉研究中心的研究人员推出新型图像编辑方法 SuperEdit ,通过改进监督信号来提升基于指令的图像编辑性能。 项目主页:https://liming-ai.gith...图像模型# SuperEdit# 图像编辑# 字节跳动11个月前02810
基于 FLUX.1-schnell的开源、无审查的生成模型ChromaChroma 是一个基于 FLUX.1-schnell 的 8.9 亿参数生成模型,完全采用 Apache 2.0 许可证,为开发者和研究者提供一个自由、开放、无审查的工具。无论是用于艺术创作、科学研...Flux衍生# Chroma# FLUX.1 [schnell]11个月前09870