模型 | 第49页 | SD百科导航

百科工具模型 ComfyUI AI合集 web UI 提示词

大语言模型多模态模型图像模型语音模型 3D模型 Flux衍生视频模型

排序

发布更新浏览点赞

英伟达推出自动语音识别模型Parakeet-TDT-0.6B-v2：专为高质量英语语音转录设计

英伟达推出的 Parakeet-TDT-0.6B-v2 是一款拥有 6 亿参数的自动语音识别（ASR）模型，专为高质量英语语音转录设计。该模型支持标点符号、大写和精准的时间戳预测，能够处理长达 24 ...

8个月前

03480

图像修复模型PixelHacker：基于潜在类别引导并结合扩散模型，显著提升图像修复质量

图像修复（Image Inpainting）是计算机视觉领域的重要研究方向，旨在通过生成合理的图像内容填补缺失或损坏的部分。然而，现有方法在处理复杂结构（如纹理、形状和空间关系）以及语义一致性（如颜色...

图像模型 # PixelHacker # 图像修复模型

8个月前

03410

Watermark-Detection-SigLIP2：高效检测图像水印的视觉语言模型

在数字内容管理中，水印检测是一项关键任务。无论是内容审核、数据集清理，还是版权保护，快速准确地识别图像中的水印都能显著提升工作效率。Watermark-Detection-SigLIP2 是一款基于谷...

多模态模型 # Watermark-Detection-SigLIP2 # 水印检测

8个月前

04660

浙江大学与哈佛大学联合推出高效图像编辑框架In-Context Edit：用自然语言指令轻松实现图像修改

浙江大学和哈佛大学的研究人员联合推出了ICEdit（In-Context Edit），这是一个高效且强大的基于指令的图像编辑框架。与传统方法相比，ICEdit 仅需 1% 的可训练参数（2 亿）和 ...

图像模型 # FLUX # ICEdit # In-Context Edit

8个月前

04700

艾伦AI研究所发布10 亿参数的小模型Olmo 2 1B

艾伦AI研究所（AI2）于周四发布了 Olmo 2 1B，这是一个拥有 10 亿参数的 AI 模型。AI2 宣称，该模型在多项基准测试中击败了谷歌、Meta 和阿里巴巴的同规模模型。尽管参数数量相对较...

大语言模型 # Olmo 2 1B # 艾伦AI研究所

8个月前

02240

思科发布专为网络安全打造的开源模型 Foundation-sec-8b

思科宣布其在AI领域的重大进展——推出首个由全新成立的Foundation AI团队开发的大语言模型（LLM）：Llama-3.1-FoundationAI-SecurityLLM-base-8B（简...

大语言模型 # Foundation-sec-8b # 思科

8个月前

04890

深度研究代理WebThinker：为大型推理模型提供深度研究能力

中国人民大学、智源研究院和华为的研究人员推出一个深度研究代理WebThinker，旨在为大型推理模型（Large Reasoning Models, LRMs）提供深度研究能力。WebThinker ...

大语言模型 # WebThinker # 推理模型 # 深度研究代理

8个月前

02090

微软推出Phi-4系列推理模型：Phi-4-reasoning、Phi-4-reasoning-plus和Phi-4-mini-reasoning

一年前，微软推出了Phi-3，开启了小型语言模型（SLM）的新篇章。这些模型以其高效性和灵活性迅速吸引了广泛关注。如今，在 Phi 系列发布一周年之际，微软再次突破技术边界，推出了三款全新推理模型：P...

大语言模型 # Phi-4-mini-reasoning # Phi-4-reasoning # Phi-4-reasoning-plus

8个月前

02080

DeepSeek 推出 DeepSeek-Prover-V2：为 Lean 4 形式化定理证明设计的开源大语言模型

DeepSeek于4月30日发布了 DeepSeek-Prover-V2，这是一个专门用于 Lean 4 形式化定理证明的开源大语言模型。该模型的设计目标是将非形式化的数学推理与形式化的证明构建整合到...

大语言模型 # DeepSeek # DeepSeek-Prover-V2 # DeepSeek-Prover-V2-671B

8个月前

02120

阿里Qwen团队发布端到端多模态模型Qwen2.5-Omni-3B

阿里Qwen团队在发布Qwen3系列模型后，又推出Qwen2.5-Omni系列的一个新模型Qwen2.5-Omni-3B，这是一个端到端多模态模型，能够无缝处理文本、图像、音频和视频等多种输入形式，并...

多模态模型 # Qwen # Qwen2.5-Omni-3B # 阿里巴巴

8个月前

03510

JetBrains推出其首个用于编码的开源模型Mellum，主要功能为代码补全

软件开发公司JetBrains，以提供一系列流行应用程序开发工具而闻名，它们在今天发布了其首个用于编码的开源模型——Mellum。这款模型于周三在Hugging Face平台上公开，通过高度专业化的代...

大语言模型 # JetBrains # 代码模型 # 代码补全

8个月前

01770

LMMs-Lab发布轻量高效音频模型Aero-1-Audio：擅长长语音ASR与多模态任务

LMMs-Lab 推出了一款紧凑型音频模型 Aero-1-Audio，专为多种音频任务设计，包括语音识别（ASR）、音频理解和音频指令跟随。作为 Aero-1 系列的第一代产品，Aero-1-Audi...

语音模型 # Aero-1-Audio # LMMs-Lab # 语音识别

8个月前

04760

加载更多

模型

英伟达推出自动语音识别模型Parakeet-TDT-0.6B-v2：专为高质量英语语音转录设计

图像修复模型PixelHacker：基于潜在类别引导并结合扩散模型，显著提升图像修复质量

Watermark-Detection-SigLIP2：高效检测图像水印的视觉语言模型

浙江大学与哈佛大学联合推出高效图像编辑框架In-Context Edit：用自然语言指令轻松实现图像修改

艾伦AI研究所发布10 亿参数的小模型Olmo 2 1B

思科发布专为网络安全打造的开源模型 Foundation-sec-8b

深度研究代理WebThinker：为大型推理模型提供深度研究能力

微软推出Phi-4系列推理模型：Phi-4-reasoning、Phi-4-reasoning-plus和Phi-4-mini-reasoning

DeepSeek 推出 DeepSeek-Prover-V2：为 Lean 4 形式化定理证明设计的开源大语言模型

阿里Qwen团队发布端到端多模态模型Qwen2.5-Omni-3B

JetBrains推出其首个用于编码的开源模型Mellum，主要功能为代码补全

LMMs-Lab发布轻量高效音频模型Aero-1-Audio：擅长长语音ASR与多模态任务

人生 K 线

Fogsight (雾象)

朱雀大模型检测

Tripo

秒哒

ITELLOU

模型

网址

人生 K 线

Fogsight (雾象)

朱雀大模型检测

Tripo

秒哒

ITELLOU