模型 | 第27页 | SD百科导航

百科工具模型 ComfyUI AI合集 web UI 提示词

大语言模型多模态模型图像模型语音模型 3D模型 Flux衍生视频模型

排序

发布更新浏览点赞

MiniMax-Remover：港中大等联合提出高效视频目标移除新方法

在视频编辑中，目标移除是一项关键任务：从视频中删除指定对象（如行人、车辆、水印），同时保持背景的视觉一致性与时间连贯性。然而，现有方法常面临三大挑战：生成伪影或“幻觉对象” 推理速度慢，依赖高步数采...

视频模型 # MiniMax-Remover

5个月前

01540

HelpingAI 团队推出全球首个支持“中间思维”的AI模型Dhanishtha-2.0

想象一个不仅能快速回答问题，还能像人类一样逐步思考、自我反思、甚至中途改变主意的人工智能。这不是科幻场景，而是 Dhanishtha-2.0 带来的现实。模型：https://huggingface...

大语言模型 # Dhanishtha-2.0 # HelpingAI

5个月前

01720

GPT-IMAGE-EDIT-1.5M：用 GPT-4o 重构开源图像编辑数据集

在图像生成领域，闭源模型如 GPT-4o、IDEF-2 和 DALL·E 3 已展现出令人惊叹的指令遵循能力，能够精准执行复杂的文本引导编辑任务。相比之下，开源社区虽有进展，却始终受限于高质量、大规模...

图像模型 # GPT-Image-Edit # GPT-IMAGE-EDIT-1.5M # 图像编辑模型

5个月前

01730

微软推出Phi-Ground：提高计算机界面（GUI）定位（grounding）的准确性

微软推出一个名为 Phi-Ground 的模型家族，旨在提高计算机界面（GUI）定位（grounding）的准确性。GUI 定位是计算机使用代理（CUAs）执行实际操作的核心组件，类似于机器人中的机械...

大语言模型 # Phi-Ground # 微软

5个月前

01590

DreamScene：用 GPT-4 规划 + 3D 高斯建模，实现端到端文本生成 3D 场景

从一句“现代客厅，带沙发和挂墙电视”，到一个完整、一致、可编辑的 3D 场景——这曾是 3D 内容创作的理想。如今，中国科学技术大学、南洋理工大学、香港科技大学（广州）与奥胡斯大学联合提出的 Drea...

3D模型 # 3D 场景 # DreamScene

5个月前

01400

腾讯混元项目组联合北京大学提出新框架MixGRPO：用混合微分方程提升图像对齐效率

在图像生成领域，如何让模型输出更符合人类审美与偏好，已成为对齐研究的核心目标。基于流匹配（Flow Matching）的生成模型近年来展现出强大潜力，而 Group Relative Policy O...

图像模型 # MixGRPO

5个月前

02550

字节跳动 Seed 团队推出Seed Diffusion：打破自回归瓶颈，实现 5.4 倍代码生成加速

字节跳动 Seed 团队近期发布了一款实验性语言模型——Seed Diffusion 预览版，它采用离散状态扩散机制，专注于代码生成任务，在推理速度上实现了显著突破：最高可达 2,146 token...

大语言模型 # Seed Diffusion # 字节跳动

5个月前

01400

Meta发布新型多语言对比语言-图像预训练（CLIP）模型MetaCLIP 2

MetaCLIP 2 是一种新型的多语言对比语言-图像预训练（CLIP）模型，旨在从全球范围内的网络数据中学习图像和文本的表示。传统的 CLIP 模型主要基于英语数据进行训练，而 MetaCLIP 2...

大语言模型 # Meta # MetaCLIP 2

5个月前

01350

Cohere 推出 Command A Vision：专为企业打造的高效多模态 AI

今天，AI 不再只是“读文字”的工具。越来越多的企业需要系统能“看懂”图像——从产品手册、工程图纸到财务报表、现场照片。为此，Cohere 正式发布 Command A Vision —— 一款专为...

多模态模型 # Cohere # Command A Vision

5个月前

01140

阿里推出“会思考”的30B模型Qwen3-30B-A3B-Thinking-2507：复杂任务表现大幅提升

阿里通义千问团队再次升级其 30B 级模型线，正式推出 Qwen3-30B-A3B-Thinking-2507。这并非一次简单迭代，而是针对复杂推理能力的深度优化版本。过去三个月中，项目组重点提升了...

大语言模型 # Qwen3-30B-A3B-Thinking-2507 # 推理模型

5个月前

03470

阿里推出 Qwen3-Coder-30B-A3B-Instruct：轻量级代码大模型，支持 256K 上下文

继发布超大规模的 Qwen3-Coder-480B-A35B-Instruct 后，阿里通义千问团队近日推出一款更轻量但性能强劲的新版本： Qwen3-Coder-30B-A3B-Instruct 这...

大语言模型 # Qwen3-Coder-30B-A3B-Instruct # 代码大模型

5个月前

07290

阶跃星辰发布 Step 3：开源最强多模态推理模型，推动“模芯”生态共建

在2025世界人工智能大会（WAIC）开幕前夕，中国大模型企业阶跃星辰于今日在上海正式发布其新一代基础大模型——Step 3。该模型定位为“推理时代最适合应用的基座模型”，将于7月31日面向全球开源...

大语言模型 # Step 3 # 多模态推理模型 # 阶跃星辰

5个月前

01350

加载更多

模型

MiniMax-Remover：港中大等联合提出高效视频目标移除新方法

HelpingAI 团队推出全球首个支持“中间思维”的AI模型Dhanishtha-2.0

GPT-IMAGE-EDIT-1.5M：用 GPT-4o 重构开源图像编辑数据集

微软推出Phi-Ground：提高计算机界面（GUI）定位（grounding）的准确性

DreamScene：用 GPT-4 规划 + 3D 高斯建模，实现端到端文本生成 3D 场景

腾讯混元项目组联合北京大学提出新框架MixGRPO：用混合微分方程提升图像对齐效率

字节跳动 Seed 团队推出Seed Diffusion：打破自回归瓶颈，实现 5.4 倍代码生成加速

Meta发布新型多语言对比语言-图像预训练（CLIP）模型MetaCLIP 2

Cohere 推出 Command A Vision：专为企业打造的高效多模态 AI

阿里推出“会思考”的30B模型Qwen3-30B-A3B-Thinking-2507：复杂任务表现大幅提升

阿里推出 Qwen3-Coder-30B-A3B-Instruct：轻量级代码大模型，支持 256K 上下文

阶跃星辰发布 Step 3：开源最强多模态推理模型，推动“模芯”生态共建

Fogsight (雾象)

朱雀大模型检测

Tripo

ITELLOU

新人生 K 线

Google AI Studio

模型

网址

Fogsight (雾象)

朱雀大模型检测

Tripo

ITELLOU

新人生 K 线

Google AI Studio