阿里DiffSynth-Studio 项目组推出Z-Image-i2L:从单张图像一键生成风格 LoRA阿里 DiffSynth-Studio 项目组 推出 Z-Image-i2L(Image to LoRA)模型——一种“以图生 LoRA”的创新方案。只需输入一张或多张风格统一的图像,模型即可自动生成...图像模型# DiffSynth-Studio# Z-Image-i2L2个月前01610
AI2发布Open Coding Agents:低成本、可复现的开源编程智能体,支持任意私有代码库过去一年,编程智能体(Coding Agents)显著改变了软件开发流程——从自动调试、重构到提交 PR,它们正逐步成为开发者的新“协作者”。然而,主流系统多为闭源、训练成本高昂,且难以适配私有代码库...大语言模型# Ai2# Open Coding Agents# 编程智能体2个月前0830
阿里通义 MAX 项目组发布 Z-Image :支持 CFG 与微调,面向专业创作的非蒸馏基础模型在用户热切期盼下,阿里通义 MAX 项目组正式开源 Z-Image 完整版——这是 Z-Image 系列的基础大模型,专为追求最高生成质量、最大创作自由度与最强提示控制力的专业用户设计。 Huggin...图像模型# Z-Image# 通义 MAX2个月前0350
月之暗面开源最强多模态模型 Kimi K2.5,支持百智能体协同与视觉编程月之暗面(Moonshot AI)正式发布 Kimi K2.5——目前最强的开源多模态大模型。它在 Kimi K2 基础上,基于约 15 万亿混合视觉-文本 Token 进行预训练,不仅在编码与视觉理...多模态模型# Kimi K2.5# 月之暗面2个月前0260
DeepSeek-OCR-V2:用 LLM 替代 CLIP,让 OCR 学会“像人一样阅读”DeepSeek 发布 OCR-V2,这不是一次常规升级,而是一次架构级革新:彻底弃用 CLIP 视觉编码器,改用小型 LLM(Qwen2-0.5B)作为视觉编码器,并引入 “视觉因果流”(Visua...多模态模型# DeepSeek-OCR-V2# OCR模型2个月前0540
阿里通义实验室推出新一代旗舰推理模型Qwen3-Max-Thinking:支持自适应工具调用,性能对标 GPT-5.2阿里通义实验室正式发布 Qwen3-Max-Thinking,作为 Qwen 系列的最新旗舰推理模型。通过显著扩大参数规模并投入大量强化学习训练算力,该模型在事实准确性、复杂推理、指令遵循、人类偏好对...大语言模型# Qwen3-Max-Thinking# 推理模型2个月前0590
天气 AI 革命!英伟达发布 Earth-2 开放模型:0-6 小时预警 + 15 天预报,主权国家可自托管美国冬季风暴来袭前,多地降雪量预测差出“天壤之别”——有的说下5厘米,有的说下20厘米,气象部门和民众都陷入纠结。 在 2026 年 1 月于休斯敦举行的美国气象学会(AMS)年会上,英伟达正式发布了...世界模型# Earth-2# 英伟达2个月前0430
Odyssey 推出交互式世界模型Odyssey-2 Pro,支持实时模拟与多端集成今天,Odyssey 正式推出 Odyssey-2 Pro——目前最强大的通用世界模型——以及配套的 开发者 API。Odyssey表示,这标志着世界模型领域迎来了自己的 “GPT-2 时刻”:一个可...世界模型# Odyssey# Odyssey-2 Pro# 世界模型2个月前01080
微软开源 VibeVoice-ASR:支持60分钟长音频的端到端语音转写模型微软正式开源 VibeVoice-ASR——一款面向真实场景的统一语音识别模型。它能单次处理长达60分钟的连续音频,并输出包含说话人身份、精确时间戳与文本内容的结构化转录结果,同时支持用户注入自定义热...语音模型# VibeVoice-ASR# 微软2个月前0220
Qwen3-TTS 全家桶开源:支持音色克隆、创造与多语言拟人语音在语音生成技术快速迭代的当下,开发者与用户对高保真、可定制、低延迟的语音合成方案需求日益迫切。阿里Qwen项目组推出的 Qwen3-TTS 开源全家桶,凭借音色克隆、音色创造、拟人化语音生成与自然语言...语音模型# Qwen3-TTS# 阿里2个月前0930
英伟达推出实时语音对话模型PersonaPlex,打造支持自定义角色与声音的自然对话AI长期以来,语音对话 AI 面临一个根本性矛盾: 传统级联系统(ASR → LLM → TTS)允许你自定义角色和声音,但对话僵硬、延迟高、无法被打断; 全双工模型(如 Moshi)实现了自然的话轮转换...语音模型# PersonaPlex# 实时语音对话模型# 英伟达2个月前0330
LightOn AI推出的第二代模型 LightOnOCR-2-1B:1B 参数端到端 OCR 模型,支持边界框输出在文档数字化处理领域,兼顾高精度转录、轻量化部署、高效推理的OCR模型一直是行业刚需。LightOn AI推出的第二代模型 LightOnOCR-2-1B,以1B参数量实现端到端PDF文档转写能力,不...多模态模型# LightOn AI# LightOnOCR-2-1B# OCR 模型2个月前0890