Orpheus TTS:基于 Llama-3b 构建的先进文本转语音(TTS)模型Canopy Labs推出基于 Llama-3b 骨干网络构建的开源文本转语音(TTS)模型Orpheus TTS ,这款模型展示了利用大语言模型(LLM)进行高质量语音合成的能力。 模型规模与特性 ...语音模型# Llama-3b# Orpheus TTS# TTS1年前02470
RWKV开源社区推出新型序列建模架构及其预训练语言模型 RWKV-7 "Goose"RWKV开源社区推出新型序列建模架构及其预训练语言模型 RWKV-7 "Goose",RWKV-7 是一种基于递归神经网络(RNN)的架构,专为高效处理长序列数据而设计。它在多语言任务上达到了30亿参...大语言模型# Goose# RWKV Runner# RWKV-71年前01840
LG开源推理模型EXAONE Deep,在数学与编程方面表现出色LG AI Research正式开源了其最新研发的AI推理模型——EXAONE Deep。这款模型分为2.4B、7.8B和32B三个版本,在多个关键领域展现出卓越性能。据官方称,EXAONE Deep...大语言模型# EXAONE Deep# LG# 推理模型1年前02090
英伟达推出世界生成与自适应多模态控制Cosmos-Transfer1英伟达推出了一个名为 Cosmos World Foundation Model Platform 的平台,旨在为 Physical AI(物理人工智能)提供定制化的世界模型(World Founda...视频模型# Cosmos-Transfer1# 英伟达1年前04050
香港科技大学推出统一DiT架构模型AudioX:通过多模态输入(如文本、视频、图像、音乐和音频)生成高质量的音频和音乐香港科技大学的研究人员推出统一DiT架构模型AudioX,通过多模态输入(如文本、视频、图像、音乐和音频)生成高质量的音频和音乐。AudioX通过创新的多模态掩码训练策略,强制模型从掩码输入中学习,从...语音模型# AI音乐# AudioX# DiT模型1年前04880
英伟达开源了世界上第一个人形机器人基础模型 GR00T N1,加速通用人形机器人开发人形机器人旨在适应人类工作空间,处理重复性或高要求任务。然而,为现实世界的任务和不可预测环境开发通用人形机器人具有挑战性。每项任务通常需要专用的AI模型。从头开始为每个新任务和环境训练这些模型是一个繁...多模态模型# GR00T N1# 人形机器人基础模型# 英伟达1年前02850
阿里通义实验室推出新型模型LHM:能够在几秒钟内从单张图像重建出可动画化的人体三维模型阿里通义实验室推出新型模型LHM,能够在几秒钟内从单张图像重建出可动画化的人体三维模型。该模型利用多模态变换器架构,有效融合了人体位置特征和图像特征,通过注意力机制实现了几何和视觉领域的联合推理。 项...视频模型# LHM# 阿里通义实验室1年前05870
Stability AI推出3D模型Stable Virtual Camera:具有 3D 相机控制的多视角视频生成,可将将照片转化为沉浸式 3D 场景Stability AI在今天发布了一款名为 Stable Virtual Camera 的新 AI 模型,能够将 2D 图像转化为具有真实深度和视角的“沉浸式”视频。这一创新工具为数字电影制作和 3...3D模型# 3D模型# Stability AI# Stable Virtual Camera1年前02590
昆仑万维开源多模态思维链推理模型 Skywork R1V昆仑万维正式开源了首款工业界多模态思维链推理模型 Skywork R1V,成为中国第一个开源此类模型的企业。这一举措标志着昆仑万维在多模态 AI 领域的领先地位,并为全球开发者和研究人员提供了强大的工...大语言模型# Skywork R1V# 多模态思维链推理模型# 昆仑万维1年前02090
腾讯混元开源5款基于Hunyuan3D-2.0的新3D 生成模型腾讯在本周开启了开源活动周,在腾讯混元 3D 开源日 活动中,腾讯混元团队正式发布了 5 个全新 3D 生成模型,并在其自研的 3D AI 创作引擎 上进行了重大升级。这些新模型和功能不仅在生成速度...3D模型# Hunyuan3D-2.0# 腾讯混元 3D1年前02360
小米推出音频推理模型R1-AQA:强化学习助力机器“听懂”声音背后的逻辑在大模型时代,人们对机器的期望已经不再局限于简单的语音识别或声音分类,而是希望机器能够具备复杂的推理能力。例如,通过汽车座舱的录音判断车辆是否存在潜在故障,从交响乐中推测作曲家的情绪,或者在地铁站的嘈...语音模型# R1-AQA# 小米# 音频推理模型1年前05370
视觉语言模型SmolDocling:以高效的方式实现端到端的多模态文档转换在数字化时代,文档处理和理解是许多行业和研究领域的核心需求。从学术论文到商业报告,从技术手册到专利文件,文档的高效转换和理解对于信息提取、知识管理和自动化流程至关重要。然而,传统的文档处理方法往往依赖...多模态模型# SmolDocling# 文档转换# 视觉语言模型1年前05810