SD百科导航
  • 首页
  • 快讯
  • 早报
  • 模型
  • ComfyUI
  • 新技术
  • 百科
    • 教程
    • 硬件
    • 科普
  • 百科工具
    • 工具
  • 知识库
  • 排行榜
    • 首页
    • 快讯
    • 早报
    • 模型
    • ComfyUI
    • 新技术
    • 百科
      • 教程
      • 硬件
      • 科普
    • 百科工具
      • 工具
    • 知识库
    • 排行榜

    模型

    共 1026 篇文章
    百科工具模型ComfyUIAI合集web UI提示词
    大语言模型多模态模型图像模型语音模型3D模型Flux衍生视频模型
    排序
    发布更新浏览点赞
    英伟达推出自动语音识别模型Parakeet-TDT-0.6B-v2:专为高质量英语语音转录设计

    英伟达推出自动语音识别模型Parakeet-TDT-0.6B-v2:专为高质量英语语音转录设计

    英伟达推出的 Parakeet-TDT-0.6B-v2 是一款拥有 6 亿参数的自动语音识别(ASR)模型,专为高质量英语语音转录设计。该模型支持标点符号、大写和精准的时间戳预测,能够处理长达 24 ...
    语音模型# Parakeet-TDT-0.6B-v2# 自动语音识别模型自动语音识别模型# 英伟达
    8个月前
    03480
    图像修复模型PixelHacker:基于潜在类别引导并结合扩散模型,显著提升图像修复质量

    图像修复模型PixelHacker:基于潜在类别引导并结合扩散模型,显著提升图像修复质量

    图像修复(Image Inpainting)是计算机视觉领域的重要研究方向,旨在通过生成合理的图像内容填补缺失或损坏的部分。然而,现有方法在处理复杂结构(如纹理、形状和空间关系)以及语义一致性(如颜色...
    图像模型# PixelHacker# 图像修复模型
    8个月前
    03410
    Watermark-Detection-SigLIP2:高效检测图像水印的视觉语言模型

    Watermark-Detection-SigLIP2:高效检测图像水印的视觉语言模型

    在数字内容管理中,水印检测是一项关键任务。无论是内容审核、数据集清理,还是版权保护,快速准确地识别图像中的水印都能显著提升工作效率。Watermark-Detection-SigLIP2 是一款基于谷...
    多模态模型# Watermark-Detection-SigLIP2# 水印检测
    8个月前
    04660
    浙江大学与哈佛大学联合推出高效图像编辑框架In-Context Edit:用自然语言指令轻松实现图像修改

    浙江大学与哈佛大学联合推出高效图像编辑框架In-Context Edit:用自然语言指令轻松实现图像修改

    浙江大学和哈佛大学的研究人员联合推出了ICEdit(In-Context Edit),这是一个高效且强大的基于指令的图像编辑框架。 与传统方法相比,ICEdit 仅需 1% 的可训练参数(2 亿)和 ...
    图像模型# FLUX# ICEdit# In-Context Edit
    8个月前
    04700
    艾伦AI研究所发布10 亿参数的小模型Olmo 2 1B

    艾伦AI研究所发布10 亿参数的小模型Olmo 2 1B

    艾伦AI研究所(AI2)于周四发布了 Olmo 2 1B,这是一个拥有 10 亿参数的 AI 模型。AI2 宣称,该模型在多项基准测试中击败了谷歌、Meta 和阿里巴巴的同规模模型。尽管参数数量相对较...
    大语言模型# Olmo 2 1B# 艾伦AI研究所
    8个月前
    02240
    思科发布专为网络安全打造的开源模型 Foundation-sec-8b

    思科发布专为网络安全打造的开源模型 Foundation-sec-8b

    思科宣布其在AI领域的重大进展——推出首个由全新成立的Foundation AI团队开发的大语言模型(LLM):Llama-3.1-FoundationAI-SecurityLLM-base-8B(简...
    大语言模型# Foundation-sec-8b# 思科
    8个月前
    04890
    深度研究代理WebThinker:为大型推理模型提供深度研究能力

    深度研究代理WebThinker:为大型推理模型提供深度研究能力

    中国人民大学、智源研究院和华为的研究人员推出一个深度研究代理WebThinker,旨在为大型推理模型(Large Reasoning Models, LRMs)提供深度研究能力。WebThinker ...
    大语言模型# WebThinker# 推理模型# 深度研究代理
    8个月前
    02090
    微软推出Phi-4系列推理模型:Phi-4-reasoning、Phi-4-reasoning-plus和Phi-4-mini-reasoning

    微软推出Phi-4系列推理模型:Phi-4-reasoning、Phi-4-reasoning-plus和Phi-4-mini-reasoning

    一年前,微软推出了Phi-3,开启了小型语言模型(SLM)的新篇章。这些模型以其高效性和灵活性迅速吸引了广泛关注。如今,在 Phi 系列发布一周年之际,微软再次突破技术边界,推出了三款全新推理模型:P...
    大语言模型# Phi-4-mini-reasoning# Phi-4-reasoning# Phi-4-reasoning-plus
    8个月前
    02080
    DeepSeek 推出 DeepSeek-Prover-V2:为 Lean 4 形式化定理证明设计的开源大语言模型

    DeepSeek 推出 DeepSeek-Prover-V2:为 Lean 4 形式化定理证明设计的开源大语言模型

    DeepSeek于4月30日发布了 DeepSeek-Prover-V2,这是一个专门用于 Lean 4 形式化定理证明的开源大语言模型。该模型的设计目标是将非形式化的数学推理与形式化的证明构建整合到...
    大语言模型# DeepSeek# DeepSeek-Prover-V2# DeepSeek-Prover-V2-671B
    8个月前
    02120
    阿里Qwen团队发布端到端多模态模型Qwen2.5-Omni-3B

    阿里Qwen团队发布端到端多模态模型Qwen2.5-Omni-3B

    阿里Qwen团队在发布Qwen3系列模型后,又推出Qwen2.5-Omni系列的一个新模型Qwen2.5-Omni-3B,这是一个端到端多模态模型,能够无缝处理文本、图像、音频和视频等多种输入形式,并...
    多模态模型# Qwen# Qwen2.5-Omni-3B# 阿里巴巴
    8个月前
    03510
    JetBrains推出其首个用于编码的开源模型Mellum,主要功能为代码补全

    JetBrains推出其首个用于编码的开源模型Mellum,主要功能为代码补全

    软件开发公司JetBrains,以提供一系列流行应用程序开发工具而闻名,它们在今天发布了其首个用于编码的开源模型——Mellum。这款模型于周三在Hugging Face平台上公开,通过高度专业化的代...
    大语言模型# JetBrains# 代码模型# 代码补全
    8个月前
    01770
    LMMs-Lab发布轻量高效音频模型Aero-1-Audio:擅长长语音ASR与多模态任务

    LMMs-Lab发布轻量高效音频模型Aero-1-Audio:擅长长语音ASR与多模态任务

    LMMs-Lab 推出了一款紧凑型音频模型 Aero-1-Audio,专为多种音频任务设计,包括语音识别(ASR)、音频理解和音频指令跟随。作为 Aero-1 系列的第一代产品,Aero-1-Audi...
    语音模型# Aero-1-Audio# LMMs-Lab# 语音识别
    8个月前
    04760
    加载更多
    SD百科导航
    SD百科导航是专注于AI创作领域的专业导航网站。我们全面涵盖Stable Diffusion、Flux、AI绘画、AI视频、AI音乐以及大语言模型等前沿内容。

    关于我们网址提交友链申请广告合作

    扫码关注微信公众号SD百科导航
    扫码关注微信公众号
    Copyright © 2025 SD百科导航 皖ICP备18025588号-5  皖公网安备34040002000401 
    网址
    网址文章软件模型

    网址

    日榜周榜月榜
    人生 K 线

    人生 K 线

    人生 K 线(Life Destiny K-Line)是一个结合传统八字命理与现代大语言模型(LLM)的轻量级可视化工具。它将一个人从 1 岁到 100 岁的运势走势,以类似股票 K 线图的形式呈现,试图用数据可视化的方式“翻译”命理推演结果。
    Fogsight (雾象)

    Fogsight (雾象)

    雾象是一款由大语言模型(LLM)驱动的动画引擎 agent 。用户输入抽象概念或词语,雾象会将其转化为高水平的生动动画。
    朱雀大模型检测

    朱雀大模型检测

    腾讯朱雀 AI 检测是于 2025 年 1 月 17 日推出的一款 AI 生成内容检测工具,主要用于帮助用户识别 AI 生成的文本和图像内容。每位用户每天最多可检测20次文本和20次图片。
    Tripo

    Tripo

    Tripo AI 是一家领先的 AI 驱动 3D 建模解决方案提供商,允许用户使用文本、单张图像、多张图像、涂鸦或视频等输入,快速创建高质量的 3D 模型和环境。
    秒哒

    秒哒

    百度秒哒,由百度智能云倾力打造的国内首个“对话式”应用开发平台,正式全量上线。作为一款无代码工具,秒哒致力于让每个人都能通过自然语言描述需求,自动生成完整功能代码,轻松实现创意想法。
    ITELLOU

    ITELLOU

    ITELLYOU(也称为NEXT, ITELLYOU)是一个专注于提供微软原版软件资源的非官方网站,主要帮助用户获取未经修改的微软产品镜像,如Windows操作系统、Office办公软件和开发工具等。
    查看完整榜单