告别 “改不动”!ProEdit:反转编辑新方案,精准修改图像属性,即插即用超 SOTA解决源图像信息过度注入问题,实现更可控的图像与视频编辑 由中山大学、香港中文大学、香港大学与南洋理工大学联合提出,ProEdit 是一种高精度、即插即用的基于反转(inversion-based)的视...图像模型# ProEdit# 编辑图像2个月前0720
阿里通义开源 MAI-UI:32B 模型 GUI 定位超 Gemini-3-Pro,端云协同重构智能体交互阿里通义实验室近日开源 MAI-UI —— 一个面向真实世界部署的 通用 GUI(图形用户界面)智能体基座模型系列,涵盖 2B、8B、32B 和 235B-A22B 四种规模。其 32B 版本在 Sc...多模态模型# MAI-UI# 通用 GUI模型2个月前0500
Stable Video Infinity(SVI)发布 2.0 Pro:基于错误回收机制的无限长视频生成模型洛桑联邦理工学院(EPFL)的研究团队推出 Stable Video Infinity(SVI) ——一款能够生成任意长度视频的人工智能模型。它通过一项名为 “错误回收微调(Error-Recycli...视频模型# Stable Video Infinity2个月前01050
StoryMem:基于Wan2.2的新框架,用“视觉记忆”生成连贯的多镜头长视频生成一段包含多个镜头、角色一致、场景连贯、时长达一分钟的叙事视频,是当前视频生成模型的重大挑战。主流方法要么局限于单镜头,要么在跨镜头切换时出现角色崩坏、场景断裂等问题。 由南洋理工大学与字节跳动联合...视频模型# StoryMem# Wan2.22个月前0400
VideoRAG:用知识图谱和多模态检索让大模型理解多小时视频当前的大语言模型(LLMs)在处理短视频时已表现出强大能力,但面对数小时甚至跨集的长视频(如讲座系列、纪录片、剧集),它们往往力不从心——上下文窗口有限、计算成本高、跨场景语义断裂。 GitHub:h...多模态模型# VideoRAG# 多模态检索# 知识图谱2个月前0330
OmniVCus:用多模态控制信号实现前馈式主题驱动视频定制在视频生成领域,一个长期挑战是:如何让用户通过简单指令(如文本、草图或相机轨迹),灵活定制视频中一个或多个主体的外观、动作与空间关系? 由约翰·霍普金斯大学、Adobe 研究院、香港大学、香港中文大学...视频模型# OmniVCus# 视频2个月前0240
MiniMax 发布 MiniMax-M2.1::更智能、更高效、支持多语言的编码与智能体模型在推出专为智能体和代码任务设计的 M2 模型仅数月后,MiniMax 正式发布其增强版本 —— M2.1。 M2 本就以极低成本(约为 Claude Sonnet 的 8%)和高推理速度著称,更引入了...大语言模型# M2.1# MiniMax# MiniMax-M2.1:2个月前0310
Liquid AI 发布 LFM2-2.6B-Exp:小模型大性能,指令遵循能力超越百倍规模对手Liquid AI 正式推出 LFM2-2.6B-Exp —— 一个基于纯强化学习(RL)训练的实验性语言模型。它在指令遵循、常识推理和数学任务上表现突出,尤其值得注意的是:其 IFBench 评测分...大语言模型# LFM2-2.6B-Exp# Liquid AI2个月前0270
通义百聆发布 Fun-Audio-Chat:8B 端到端语音模型,延迟更低、效率更高通义实验室旗下语音团队 通义百聆(Tongyi Bailin)正式推出 Fun-Audio-Chat —— 一款专为自然、低延迟语音交互设计的端到端大型音频语言模型(Audio Language Mo...语音模型# Fun-Audio-Chat# 通义百聆2个月前0250
阿里通义实验室发布Qwen-Image-Edit-2511:显著提升人物一致性与工业设计能力,支持 LoRA 集成与多图融合阿里通义实验室 Qwen 项目组正式发布 Qwen-Image-Edit-2511,这是继 9 月发布的 Qwen-Image-Edit-2509 后的增强版本。从版本号“2511”可见,该模型原计划...图像模型# Qwen-Image-Edit-2511# 图像编辑模型2个月前01670
智谱AI发布GLM-4.7:聚焦编程、工具使用与多轮推理智谱AI最新发布的 GLM-4.7 在多个关键维度实现突破,特别是在开发者关注的编程、工具调用与复杂推理能力上,带来可观的性能提升。本文将系统梳理 GLM-4.7 的主要改进,并说明如何快速接入与使用...大语言模型# GLM-4.7# 智谱AI2个月前0340
英伟达发布 Nemotron 3 系列:30B Nano 即用,Super/Ultra 2026 年登场英伟达正式推出 Nemotron 3 开源模型系列,聚焦多智能体协作场景,包含 Nano、Super、Ultra 三个版本,覆盖从轻量推理到超大规模智能体系统的全栈需求。 模型:https://hug...大语言模型# Nemotron 3# 英伟达2个月前0320