MiniMax-Remover:港中大等联合提出高效视频目标移除新方法在视频编辑中,目标移除是一项关键任务:从视频中删除指定对象(如行人、车辆、水印),同时保持背景的视觉一致性与时间连贯性。然而,现有方法常面临三大挑战: 生成伪影或“幻觉对象” 推理速度慢,依赖高步数采...视频模型# MiniMax-Remover5个月前01540
HelpingAI 团队推出全球首个支持“中间思维”的AI模型Dhanishtha-2.0想象一个不仅能快速回答问题,还能像人类一样逐步思考、自我反思、甚至中途改变主意的人工智能。这不是科幻场景,而是 Dhanishtha-2.0 带来的现实。 模型:https://huggingface...大语言模型# Dhanishtha-2.0# HelpingAI5个月前01720
GPT-IMAGE-EDIT-1.5M:用 GPT-4o 重构开源图像编辑数据集在图像生成领域,闭源模型如 GPT-4o、IDEF-2 和 DALL·E 3 已展现出令人惊叹的指令遵循能力,能够精准执行复杂的文本引导编辑任务。相比之下,开源社区虽有进展,却始终受限于高质量、大规模...图像模型# GPT-Image-Edit# GPT-IMAGE-EDIT-1.5M# 图像编辑模型5个月前01730
微软推出Phi-Ground:提高计算机界面(GUI)定位(grounding)的准确性微软推出一个名为 Phi-Ground 的模型家族,旨在提高计算机界面(GUI)定位(grounding)的准确性。GUI 定位是计算机使用代理(CUAs)执行实际操作的核心组件,类似于机器人中的机械...大语言模型# Phi-Ground# 微软5个月前01590
DreamScene:用 GPT-4 规划 + 3D 高斯建模,实现端到端文本生成 3D 场景从一句“现代客厅,带沙发和挂墙电视”,到一个完整、一致、可编辑的 3D 场景——这曾是 3D 内容创作的理想。如今,中国科学技术大学、南洋理工大学、香港科技大学(广州)与奥胡斯大学联合提出的 Drea...3D模型# 3D 场景# DreamScene5个月前01400
腾讯混元项目组联合北京大学提出新框架MixGRPO:用混合微分方程提升图像对齐效率在图像生成领域,如何让模型输出更符合人类审美与偏好,已成为对齐研究的核心目标。基于流匹配(Flow Matching)的生成模型近年来展现出强大潜力,而 Group Relative Policy O...图像模型# MixGRPO5个月前02550
字节跳动 Seed 团队推出Seed Diffusion:打破自回归瓶颈,实现 5.4 倍代码生成加速字节跳动 Seed 团队近期发布了一款实验性语言模型——Seed Diffusion 预览版,它采用离散状态扩散机制,专注于代码生成任务,在推理速度上实现了显著突破:最高可达 2,146 token...大语言模型# Seed Diffusion# 字节跳动5个月前01400
Meta发布新型多语言对比语言-图像预训练(CLIP)模型MetaCLIP 2MetaCLIP 2 是一种新型的多语言对比语言-图像预训练(CLIP)模型,旨在从全球范围内的网络数据中学习图像和文本的表示。传统的 CLIP 模型主要基于英语数据进行训练,而 MetaCLIP 2...大语言模型# Meta# MetaCLIP 25个月前01350
Cohere 推出 Command A Vision:专为企业打造的高效多模态 AI今天,AI 不再只是“读文字”的工具。越来越多的企业需要系统能“看懂”图像——从产品手册、工程图纸到财务报表、现场照片。 为此,Cohere 正式发布 Command A Vision —— 一款专为...多模态模型# Cohere# Command A Vision5个月前01140
阿里推出“会思考”的30B模型Qwen3-30B-A3B-Thinking-2507:复杂任务表现大幅提升阿里通义千问团队再次升级其 30B 级模型线,正式推出 Qwen3-30B-A3B-Thinking-2507。 这并非一次简单迭代,而是针对复杂推理能力的深度优化版本。过去三个月中,项目组重点提升了...大语言模型# Qwen3-30B-A3B-Thinking-2507# 推理模型5个月前03470
阿里推出 Qwen3-Coder-30B-A3B-Instruct:轻量级代码大模型,支持 256K 上下文继发布超大规模的 Qwen3-Coder-480B-A35B-Instruct 后,阿里通义千问团队近日推出一款更轻量但性能强劲的新版本: Qwen3-Coder-30B-A3B-Instruct 这...大语言模型# Qwen3-Coder-30B-A3B-Instruct# 代码大模型5个月前07290
阶跃星辰发布 Step 3:开源最强多模态推理模型,推动“模芯”生态共建在2025世界人工智能大会(WAIC)开幕前夕,中国大模型企业阶跃星辰于今日在上海正式发布其新一代基础大模型——Step 3。该模型定位为“推理时代最适合应用的基座模型”,将于7月31日面向全球开源...大语言模型# Step 3# 多模态推理模型# 阶跃星辰5个月前01350