阿里开源 Qwen3-VL 多模态检索模型:Embedding + Reranker 两阶段提升跨模态精度在多模态 AI 应用日益普及的今天,如何高效检索混合了文本、图像、截图甚至视频的内容,仍是技术难点。传统方案往往依赖多个专用模型,导致系统复杂、语义割裂。 官方说明:https://qwen.ai/b...多模态模型# Qwen3-VL-Embedding# Qwen3-VL-Reranker2个月前0430
UniVideo:滑铁卢大学与快手推出统一视频生成与编辑模型,支持理解、生成、编辑一体化长久以来,视频 AI 能力被割裂为多个独立任务: 理解:靠视觉语言模型(如 Qwen-VL) 生成:依赖扩散模型(如 Sora、HunyuanVideo) 编辑:需专门的编辑网络或掩码引导 这种碎片化...视频模型# UniVideo# 视频生成# 视频编辑2个月前0230
Nemotron-Speech-Streaming-En-0.6B:面向低延迟与高吞吐的流式语音识别模型英伟达推出的 Nemotron-Speech-Streaming-En-0.6B 是 Nemotron Speech 系列中的首个统一语音识别(ASR)模型,专为实时英语转录场景设计。它同时支持低延迟...语音模型# Nemotron-Speech-Streaming-En-0.6B# 英伟达# 语音识别2个月前0270
Lightricks发布LTX-2:首个基于 DiT 的开源音视频基础模型Lightricks发布了首个基于 Diffusion Transformer(DiT) 架构的开源音视频联合生成模型LTX-2。它在一个统一框架中集成了现代视频生成的核心能力:同步的音频与视频输出...视频模型# Lightricks# LTX-2# 音视频模型2个月前0390
九坤至知开源代码大模型IQuest‑Coder‑V1:Code‑Flow训练+双路径优化,40B模型重塑代码大模型性能边界2026年初,量化基金公司九坤旗下至知创新研究院正式开源IQuest‑Coder‑V1系列代码大模型,涵盖7B、14B、40B、40B‑Loop等版本,专注软件工程与竞赛编程场景,目前已释出40B模型...大语言模型# IQuest‑Coder‑V1# 九坤# 代码大模型3个月前01670
阿里发布文生图模型Qwen-Image-2512:人像、纹理、文字渲染显著提升2025 年 12 月 31 日,阿里 Qwen 项目组发布了 Qwen-Image-2512 —— Qwen-Image 文生图基础模型的最新版本。这是继今年 8 月首次开源 Qwen-Image ...图像模型# Qwen-Image-2512# 文生图模型3个月前0410
Yume1.5:用一张图或一段文字,生成可实时探索的虚拟世界想象一下:你上传一张街景照片,或输入一句描述——“一个穿风衣的男人走在雨夜的东京街头,霓虹灯闪烁,远处有全息广告”——模型随即生成一个可自由行走、视角可调、事件可触发的动态 3D 世界。你用键盘控制角...多模态模型# Yume1.5# 世界模型3个月前0370
1步顶100步!TwinFlow让Qwen-Image、Z-Image推理提速100倍,无需判别器或教师模型当前,大规模多模态生成模型(如 Qwen-Image、Z-Image)在图像与视频生成上展现出惊人能力,但其推理效率仍严重受限——标准扩散或流匹配模型通常需 40–100 次函数评估(NFE)才能生成...图像模型# TwinFlow# TwinFlow-Qwen-Image# TwinFlow-Z-Image-Turbo3个月前01540
fal 发布FLUX.2 Turbo:开源图像模型速度提升6倍,成本降至0.008美元/图在完成 1.4 亿美元 D 轮融资后,AI 媒体基础设施平台 fal.ai(简称 fal)于年末推出其最新成果:FLUX.2 [dev] Turbo —— 一款基于 Black Forest Labs...图像模型# FLUX.2 Turbo3个月前01050
告别 “改不动”!ProEdit:反转编辑新方案,精准修改图像属性,即插即用超 SOTA解决源图像信息过度注入问题,实现更可控的图像与视频编辑 由中山大学、香港中文大学、香港大学与南洋理工大学联合提出,ProEdit 是一种高精度、即插即用的基于反转(inversion-based)的视...图像模型# ProEdit# 编辑图像3个月前0900
阿里通义开源 MAI-UI:32B 模型 GUI 定位超 Gemini-3-Pro,端云协同重构智能体交互阿里通义实验室近日开源 MAI-UI —— 一个面向真实世界部署的 通用 GUI(图形用户界面)智能体基座模型系列,涵盖 2B、8B、32B 和 235B-A22B 四种规模。其 32B 版本在 Sc...多模态模型# MAI-UI# 通用 GUI模型3个月前0740
Stable Video Infinity(SVI)发布 2.0 Pro:基于错误回收机制的无限长视频生成模型洛桑联邦理工学院(EPFL)的研究团队推出 Stable Video Infinity(SVI) ——一款能够生成任意长度视频的人工智能模型。它通过一项名为 “错误回收微调(Error-Recycli...视频模型# Stable Video Infinity3个月前01340