字节跳动推出基于修正流Transformer 架构的新型图像和视频生成模型家族Goku香港大学和字节跳动的研究人员推出新型图像和视频生成模型家族Goku,它基于修正流Transformer 架构,实现了行业领先的图像和视频联合生成性能。Goku 的目标是通过高质量的视觉内容生成,推动媒...视频模型# Goku# 字节跳动# 视频生成11个月前04600
新型3D感知视频扩散模型Diffusion as Shader:通过3D控制信号实现多样化且精确的视频生成控制香港科技大学、浙江大学、香港大学、南洋理工大学、武汉大学和德克萨斯A&M大学的研究人员推出新型3D感知视频扩散模型Diffusion as Shader (DaS) ,旨在通过3D控制信号实现多样化且...视频模型# Diffusion as Shader# 视频生成控制11个月前03030
卷麻了!阿里在除夕夜推出超大规模的 MoE 模型 Qwen2.5-Max过去,有一种观点认为,持续增加数据规模和模型参数可能是通向人工通用智能(AGI)的一条可行路径。然而,无论是对于稠密模型还是MoE(Mixture of Experts)模型而言,整个大模型社区在训练...大语言模型# MoE# Qwen2.5-Max# 阿里11个月前03020
艾伦AI研究所推出Tülu 3 405B:超越 DeepSeek V3 的性能表现艾伦AI研究所在成功推出Tülu 3之后,又在昨天宣布推出Tülu 3 405B——这是首次将完全开放的后训练方法应用于最大规模的开放权重模型。此次发布不仅展示了艾伦AI研究所在大规模参数模型上的可扩...大语言模型# Tülu 3# Tülu 3 405B# 艾伦AI研究所11个月前02730
法国AI初创企业Mistral发布高效模型 Mistral Small 3:24亿参数的模型特别针对延迟进行了优化法国AI初创公司Mistral最近发布了其最新的人工智能模型——Mistral Small 3。这款拥有24亿参数的模型特别针对延迟进行了优化,并根据Apache 2.0许可证开放源代码。Mistra...大语言模型# Mistral# Mistral Small 311个月前02640
上海AI实验室发布Lumina系列图像生成模型的最新成果—Lumina-Image 2.0上海AI实验室正式发布了Lumina系列图像生成模型的最新成果——Lumina-Image 2.0。这一版本不仅提高了图像生成的效率,还通过其统一且透明的设计理念,为用户提供了更加流畅和便捷的使用体验...图像模型# Lumina-Image 2.011个月前02860
拟人化实时交互系统SpeechGPT 2.0-preview:支持多种音色,200毫秒延迟复旦大学自然语言处理实验室近期推出了SpeechGPT 2.0-preview,这是他们为实现情景智能而开发的第一个拟人化实时交互系统。基于百万小时级别的语音数据训练而成,这款端到端的语音大模型不仅能...多模态模型# SpeechGPT 2.0-preview# 语音模型11个月前02990
阿里通义实验室发布了Qwen 模型家族的旗舰视觉语言模型Qwen2.5-VL阿里通义实验室发布了Qwen 模型家族的旗舰视觉语言模型Qwen2.5-VL,对比此前发布的 Qwen2-VL 实现了巨大的飞跃。欢迎访问 Qwen Chat 并选择 Qwen2.5-VL-72B-I...多模态模型# Qwen2.5-VL# 视觉语言模型11个月前02500
阿里通义团队推出Qwen2.5-1M:支持100万Token上下文的开源大语言模型阿里通义团队于两个月前升级了 Qwen2.5-Turbo,使其支持最多一百万个Tokens的上下文长度。1月27日,通义团队正式推出开源的 Qwen2.5-1M 模型及其对应的推理框架支持。以下是本次...大语言模型# Qwen2.5-1M11个月前02630
香港科技大学推出歌词生成音乐模型YuE香港科技大学的研究团队近期在探索从给定歌词生成完整歌曲音频的领域取得了重要进展,这一过程被称为“歌词到歌曲”(lyrics2song)。尽管基于文本条件的音乐生成模型在创作非人声音乐短片段方面已经展现...语音模型# AI音乐# YuE11个月前02670
深度求索开源多模态理解与生成模型 Janus-Pro,已释出两个版本Janus-Pro-7B和Janus-Pro-1B深度求索(DeepSeek-AI)在DeepSeek-R1爆火后,又在今天释出了多模态理解与生成模型 Janus-Pro,它是之前工作 Janus 的升级版本,目前释出了两个版本Janus-Pro-7...多模态模型# Janus-Pro# Janus-Pro-1B# Janus-Pro-7B11个月前02880
百川智能发布全模态开源模型Baichuan-Omni-1.5百川智能宣布其最新研发的Baichuan-Omni-1.5开源全模态模型正式上线。这款模型支持文本、图像、音频和视频等多种格式的数据处理,并具备文本与音频的双模态生成能力。Baichuan-Omni...多模态模型# Baichuan-Omni-1.5# 百川智能11个月前02650