清华大学推出SketchColour:基于扩散变换器的高效 2D 动画自动上色方案清华大学的研究人员提出了一种全新的 2D 动画着色方法——SketchColour。该方法基于扩散变换器(DiT)架构,能够将黑白草图序列自动转换为连贯的彩色动画,显著提升动画制作效率。 项目主页:h...视频模型# 2D 动画自动上色# SketchColour8个月前01750
微软推出 Phi 模型家族的最新成员 — Phi-4-mini-flash-reasoning微软今天宣布推出 Phi 模型家族的最新成员 —— Phi-4-mini-flash-reasoning。这款模型专为计算、内存和延迟受限的场景设计,为边缘设备、移动应用等资源受限环境提供高效的推理能...大语言模型# Phi-4-mini-flash-reasoning# 微软8个月前01070
谷歌推出开源医疗 AI 模型系列MedGemma及轻量级图像编码器 MedSigLIP谷歌近日宣布推出其最新的开源医疗 AI 模型系列——MedGemma,并同时发布了轻量级图像编码器 MedSigLIP。这是继健康 AI 开发者基础(HAI-DEF)项目之后,谷歌在医疗 AI 领域迈...多模态模型# MedGemma# MedSigLIP# 谷歌8个月前01580
T5Gemma:谷歌推出全新编码器-解码器 Gemma 模型系列在当前大语言模型(LLM)领域中,解码器独占架构凭借其强大的生成能力成为主流。然而,经典的编码器-解码器架构——如 T5(文本到文本转换变换器)——因其出色的推理效率、灵活的设计以及对输入语义的深度理...大语言模型# T5Gemma# 解码器# 谷歌8个月前04670
OmniPart:用于生成具有明确部件结构的 3D 对象的框架香港大学、哈尔滨大学、VAST和浙江大学的研究人员推出 OmniPart,这是一个用于生成具有明确部件结构的 3D 对象的框架。OmniPart 通过将复杂的 3D 对象分解为可控制的部件,并在保持语...3D模型# OmniPart8个月前04550
StreamDiT:实现实时流式文本到视频生成的新一代扩散模型近年来,随着基于变换器(Transformer)的扩散模型向数十亿参数扩展,文本到视频(Text-to-Video, T2V)生成技术取得了显著进展。尽管当前模型已能生成高质量视频内容,但它们通常只能...视频模型# StreamDiT# 流式视频生成模型8个月前03610
字节跳动 & 南大联合推出 CriticLean 框架:让 AI 更准确地翻译数学为代码将自然语言数学语句自动转化为形式化代码(如 Lean 4)是计算数学中的核心挑战之一。尽管已有许多自动化工具尝试解决这一问题,但其准确性仍面临瓶颈,尤其是在需要深入理解语义的复杂场景中。 为此,字节跳...大语言模型# CriticLean# 字节跳动8个月前01870
昆仑万维天工项目组推出多模态推理模型 Skywork-R1V3-38B昆仑万维天工项目组近日发布了 Skywork-R1V3-38B,这是其开源视觉-语言模型(VLM)系列 Skywork-R1V 的最新迭代版本,也是目前该系列中性能最强的多模态推理模型。基于 Inte...多模态模型# Skywork-R1V3-38B# 多模态推理模型# 昆仑万维8个月前02400
微软推出 NextCoder:基于 Qwen2.5-Coder 的高效代码编辑模型近年来,软件开发中的代码编辑需求日益增长,尤其是在维护和重构已有项目时。然而,现有的大语言模型在面对多样化的代码修改任务时,往往表现不佳。为了解决这一问题,微软联合相关研究团队提出了一套全新的方法,并...大语言模型# NextCoder# Qwen2.5-Coder# 代码编辑模型8个月前02490
LTX Studio为其开源视频生成模型 LTX Video 推出三款全新 LoRA控制模型,为开源视频模型带来前所未有的控制力LTX Studio 为其开源视频生成模型 LTX Video 推出了三项全新的 LoRA 控制模块,让 AI 视频创作进入一个更具操控性与表现力的新阶段。 Depth Control: LTX-Vi...视频模型# LTX Studio# LTX Video8个月前01790
Hugging Face发布SmolLM3:3B 级全能小模型,支持推理/非推理双模式与 128k 上下文随着边缘计算和本地部署需求的增长,小型语言模型(Small Language Model, SLM) 正在成为新一代 AI 应用的关键组成部分。近日,Hugging Face 推出了其最新力作 —— ...大语言模型# Hugging Face# SmolLM3# 小模型8个月前01030
Katanemo Labs发布1.5B 路由模型Arch-Router-1.5B:实现 93% 准确率,无需昂贵微调在 LLM(大语言模型)应用场景日益复杂的背景下,如何将用户查询智能路由到最合适的模型,成为提升效率和体验的关键挑战。 近日,Katanemo Labs 推出了一个创新的解决方案 —— Arch-Ro...大语言模型# Arch-Router-1.5B# 路由模型8个月前01760