字节跳动 & 港大推出 Mini-o3:可扩展多轮推理的开源视觉智能体字节跳动与香港大学联合发布 Mini-o3 ——一个具备强大图像理解与长程多轮交互能力的开源多模态模型。该模型能够生成类似 OpenAI o3 风格的代理行为轨迹,在复杂视觉搜索任务中实现数十轮持续推...多模态模型# Mini-o3# 视觉智能体3个月前01830
字节跳动发布 Seedream 4.0:首次支持多模态生图,同一模型实现 文生图、图像编辑、组图生成字节跳动正式推出 Seedream 4.0(即梦图片4.0),新一代图像创作模型。该模型在前代 Seedream 3.0 和 SeedEdit 3.0 的基础上,全面增强逻辑理解与多模态推理能力,首次...图像模型# Seedream 4.0# 即梦图片4.0# 字节跳动3个月前02110
百度推出轻量级推理模型ERNIE-4.5-21B-A3B-Thinking:原生支持函数调用,可联网查天气、调数据库百度推出ERNIE-4.5-21B-A3B-Thinking,一款专为复杂推理任务优化的轻量级 MoE(Mixture of Experts)大模型。该模型在原有 ERNIE-4.5 基础上显著提升了...大语言模型# ERNIE-4.5-21B-A3B-Thinking# 百度3个月前01240
B站推出IndexTTS2:自回归 TTS 模型的持续时间控制与情感表达新突破在大规模文本转语音(TTS)模型的发展中,自回归与非自回归系统各有优劣。自回归模型虽然在语音自然度方面表现优异,但其逐标记生成机制难以实现对语音持续时间的精确控制。这一缺陷在视频配音等需要严格音画同步...语音模型# B站# IndexTTS23个月前04660
AnimaX:支持任意骨骼结构的高效 3D 动画生成框架由北京航空航天大学软件学院、清华大学、香港大学与 VAST 联合提出的新框架 AnimaX,为 3D 角色动画生成带来了一种高效且通用的解决方案。 项目主页:https://anima-x.githu...3D模型# 3D 动画生成# AnimaX3个月前0750
中科大等提出 WinT3R:一种兼顾高精度与实时性的在线 3D 重建新方法由中国科学技术大学、上海人工智能实验室、SII 与浙江大学联合提出的新模型 WinT3R(Window-based Streaming Reconstruction with Camera Token...3D模型# 3D 重建# WinT3R3个月前01520
阿里通义实验室发布 Qwen3-ASR-Flash:支持多语种、歌声识别与上下文定制的新一代语音识别服务阿里通义实验室近日正式推出 Qwen3-ASR-Flash,一款基于 Qwen3 大模型基座 构建的高性能语音识别(ASR)服务。该服务融合千万小时级语音数据与海量多模态训练样本,致力于在准确率、鲁棒...语音模型# Qwen3-ASR-Flash3个月前0750
SGP-Gen :用强化学习提升大模型生成 SVG 图像的能力由香港中文大学、西湖大学、上海人工智能实验室与马克斯·普朗克智能系统研究所联合开展的研究团队,近日推出 SGP-Gen ——一项探索大语言模型(LLM)在符号图形编程(Symbolic Graphic...大语言模型# SGP-Gen# SVG 图像3个月前01540
Resemble AI推出首个情感可控的开源TTS模型ChatterboxResemble AI正式发布了其首个生产级开源TTS模型——Chatterbox。这是目前市面上少有的、具备高质量语音合成能力并支持情感控制的开源项目。目前仅支持英文。 GitHub:https...语音模型# Chatterbox# Resemble AI# TTS模型3个月前03080
突破 SD3.5/FLUX.1!TiM模型实现少步高效与多步高质无缝衔接来自香港中文大学MMLab、上海人工智能实验室和悉尼大学的研究团队,推出了一款名为Transition Models (TiM) 的新型生成模型。该模型通过重构生成学习的核心目标,成功破解了生成模型领...图像模型# Transition Models# 生成模型3个月前02030
新型视频合成方法GenCompositor:实现轨迹可控的视频级前景融合由北京大学经济与管理学院、腾讯PCG ARC实验室、大湾区大学与香港中文大学联合提出的新型视频合成方法 GenCompositor,为视频创作中的“前景-背景融合”问题提供了一种自动化解决方案。该方法...视频模型# GenCompositor# 视频合成3个月前0720
Drawing2CAD:一键把二维工程图转成三维参数化 CAD 模型在工业设计、机械工程、产品开发领域,有一个长期存在的“效率瓶颈”: 设计师画好了二维工程图 → 工程师手动在 CAD 软件里重建三维模型 → 耗时、易错、难迭代。 现在,这个问题有了一个自动化解法 ...图像模型# CAD 模型# Drawing2CAD3个月前03360