字节跳动发布 Seedream 4.0:首次支持多模态生图,同一模型实现 文生图、图像编辑、组图生成字节跳动正式推出 Seedream 4.0(即梦图片4.0),新一代图像创作模型。该模型在前代 Seedream 3.0 和 SeedEdit 3.0 的基础上,全面增强逻辑理解与多模态推理能力,首次...图像模型# Seedream 4.0# 即梦图片4.0# 字节跳动3个月前02110
百度推出轻量级推理模型ERNIE-4.5-21B-A3B-Thinking:原生支持函数调用,可联网查天气、调数据库百度推出ERNIE-4.5-21B-A3B-Thinking,一款专为复杂推理任务优化的轻量级 MoE(Mixture of Experts)大模型。该模型在原有 ERNIE-4.5 基础上显著提升了...大语言模型# ERNIE-4.5-21B-A3B-Thinking# 百度3个月前01240
腾讯混元开源 HunyuanImage 2.1:支持 2K 分辨率的高效文生图模型腾讯混元项目组正式开源HunyuanImage 2.1,一款支持 2048×2048 超高分辨率(2K)生成的文生图模型。该模型在语义对齐、细节控制与推理效率方面实现显著提升,具备电影级构图能力,并原...图像模型# HunyuanImage 2.1# 文生图模型3个月前02520
AnimaX:支持任意骨骼结构的高效 3D 动画生成框架由北京航空航天大学软件学院、清华大学、香港大学与 VAST 联合提出的新框架 AnimaX,为 3D 角色动画生成带来了一种高效且通用的解决方案。 项目主页:https://anima-x.githu...3D模型# 3D 动画生成# AnimaX3个月前0750
中科大等提出 WinT3R:一种兼顾高精度与实时性的在线 3D 重建新方法由中国科学技术大学、上海人工智能实验室、SII 与浙江大学联合提出的新模型 WinT3R(Window-based Streaming Reconstruction with Camera Token...3D模型# 3D 重建# WinT3R3个月前01520
阿里通义实验室发布 Qwen3-ASR-Flash:支持多语种、歌声识别与上下文定制的新一代语音识别服务阿里通义实验室近日正式推出 Qwen3-ASR-Flash,一款基于 Qwen3 大模型基座 构建的高性能语音识别(ASR)服务。该服务融合千万小时级语音数据与海量多模态训练样本,致力于在准确率、鲁棒...语音模型# Qwen3-ASR-Flash3个月前0750
SGP-Gen :用强化学习提升大模型生成 SVG 图像的能力由香港中文大学、西湖大学、上海人工智能实验室与马克斯·普朗克智能系统研究所联合开展的研究团队,近日推出 SGP-Gen ——一项探索大语言模型(LLM)在符号图形编程(Symbolic Graphic...大语言模型# SGP-Gen# SVG 图像3个月前01520
突破 SD3.5/FLUX.1!TiM模型实现少步高效与多步高质无缝衔接来自香港中文大学MMLab、上海人工智能实验室和悉尼大学的研究团队,推出了一款名为Transition Models (TiM) 的新型生成模型。该模型通过重构生成学习的核心目标,成功破解了生成模型领...图像模型# Transition Models# 生成模型3个月前02030
新型视频合成方法GenCompositor:实现轨迹可控的视频级前景融合由北京大学经济与管理学院、腾讯PCG ARC实验室、大湾区大学与香港中文大学联合提出的新型视频合成方法 GenCompositor,为视频创作中的“前景-背景融合”问题提供了一种自动化解决方案。该方法...视频模型# GenCompositor# 视频合成3个月前0720
Drawing2CAD:一键把二维工程图转成三维参数化 CAD 模型在工业设计、机械工程、产品开发领域,有一个长期存在的“效率瓶颈”: 设计师画好了二维工程图 → 工程师手动在 CAD 软件里重建三维模型 → 耗时、易错、难迭代。 现在,这个问题有了一个自动化解法 ...图像模型# CAD 模型# Drawing2CAD3个月前03330
POINTS-Reader:无需蒸馏、端到端的轻量级文档视觉语言模型腾讯、上海交通大学与清华大学联合推出 POINTS-Reader —— WePOINTS 家族最新成员,一款专为文档图像转文本设计的轻量级视觉-语言模型(VLM)。 GitHub:https://gi...多模态模型# POINTS-Reader# 文档视觉语言模型3个月前01680
阿里通义千问上线 Qwen-3-Max-Preview:当前系列最强语言模型阿里Qwen项目组近日在官网及 OpenRouter 平台正式推出 Qwen-3-Max-Preview,并将其定义为通义千问系列中当前最强大的语言模型。 该模型基于 Qwen3 架构进一步优化,在推...大语言模型# Qwen-3-Max-Preview# 阿里3个月前0730