SD百科导航
  • 首页
  • 快讯
  • 早报
  • 模型
  • ComfyUI
  • 工具
  • 新技术
  • 百科
    • 教程
    • 硬件
    • 科普
  • 知识库
  • 导航
    • 首页
    • 快讯
    • 早报
    • 模型
    • ComfyUI
    • 工具
    • 新技术
    • 百科
      • 教程
      • 硬件
      • 科普
    • 知识库
    • 导航

    模型

    共 580 篇文章
    百科工具模型ComfyUIAI合集web UI提示词
    大语言模型多模态模型图像模型语音模型3D模型Flux衍生视频模型
    排序
    发布更新浏览点赞
    音乐生成基础模型ACE-Step:通过创新的整体架构设计,快速生成高质量音乐

    音乐生成基础模型ACE-Step:通过创新的整体架构设计,快速生成高质量音乐

    ACE Studio和阶跃星辰(StepFun)联合推出了一款全新的开源音乐生成基础模型ACE-Step,该模型通过创新的整体架构设计,突破了现有方法的局限性,实现了卓越的性能表现。 GitHub:h...
    语音模型# ACE-Step# 音乐模型
    2个月前
    0840
    新型语音语言模型 LLaMA-Omni 2:实现高质量的实时语音交互

    新型语音语言模型 LLaMA-Omni 2:实现高质量的实时语音交互

    中国科学院计算技术研究所、中国科学院人工智能安全重点实验室和中国科学院大学的研究人员推出新型语音语言模型 LLaMA-Omni 2 ,旨在实现高质量的实时语音交互。LLaMA-Omni 2 基于 Qw...
    语音模型# LLaMA-Omni 2# 语音语言模型
    2个月前
    0670
    新型语音语言基础模型Voila :实现自然、实时、自主的语音交互

    新型语音语言基础模型Voila :实现自然、实时、自主的语音交互

    Maitrix.org、加州大学圣地亚哥分校和MBZUAI的研究人员推出新型语音语言基础模型Voila ,旨在实现自然、实时、自主的语音交互。Voila 通过端到端的架构设计,突破了传统语音交互系统...
    语音模型# Voila# 语音语言基础模型
    2个月前
    01070
    字节跳动推出新型图像编辑方法 SuperEdit :通过改进监督信号来提升基于指令的图像编辑性能

    字节跳动推出新型图像编辑方法 SuperEdit :通过改进监督信号来提升基于指令的图像编辑性能

    字节跳动和佛罗里达中央大学计算机视觉研究中心的研究人员推出新型图像编辑方法 SuperEdit ,通过改进监督信号来提升基于指令的图像编辑性能。 项目主页:https://liming-ai.gith...
    图像模型# SuperEdit# 图像编辑# 字节跳动
    2个月前
    0930
    基于 FLUX.1-schnell的开源、无审查的生成模型Chroma

    基于 FLUX.1-schnell的开源、无审查的生成模型Chroma

    Chroma 是一个基于 FLUX.1-schnell 的 8.9 亿参数生成模型,完全采用 Apache 2.0 许可证,为开发者和研究者提供一个自由、开放、无审查的工具。无论是用于艺术创作、科学研...
    Flux衍生# Chroma# FLUX.1 [schnell]
    2个月前
    05670
    基于两阶段框架的唇部同步方法KeySync:能够生成高分辨率、时间连贯且与音频对齐的视频,同时有效减少表情泄漏并处理面部遮挡

    基于两阶段框架的唇部同步方法KeySync:能够生成高分辨率、时间连贯且与音频对齐的视频,同时有效减少表情泄漏并处理面部遮挡

    唇部同步(Lip Synchronization)是指将视频中的唇部动作与新的输入音频对齐,使其在视觉上看起来自然且与音频同步。尽管这一领域与音频驱动的面部动画(Audio-driven Facial...
    视频模型# KeySync# 唇形同步# 唇部同步
    2个月前
    0780
    英伟达推出自动语音识别模型Parakeet-TDT-0.6B-v2:专为高质量英语语音转录设计

    英伟达推出自动语音识别模型Parakeet-TDT-0.6B-v2:专为高质量英语语音转录设计

    英伟达推出的 Parakeet-TDT-0.6B-v2 是一款拥有 6 亿参数的自动语音识别(ASR)模型,专为高质量英语语音转录设计。该模型支持标点符号、大写和精准的时间戳预测,能够处理长达 24 ...
    语音模型# Parakeet-TDT-0.6B-v2# 自动语音识别模型自动语音识别模型# 英伟达
    2个月前
    01040
    图像修复模型PixelHacker:基于潜在类别引导并结合扩散模型,显著提升图像修复质量

    图像修复模型PixelHacker:基于潜在类别引导并结合扩散模型,显著提升图像修复质量

    图像修复(Image Inpainting)是计算机视觉领域的重要研究方向,旨在通过生成合理的图像内容填补缺失或损坏的部分。然而,现有方法在处理复杂结构(如纹理、形状和空间关系)以及语义一致性(如颜色...
    图像模型# PixelHacker# 图像修复模型
    2个月前
    0950
    Watermark-Detection-SigLIP2:高效检测图像水印的视觉语言模型

    Watermark-Detection-SigLIP2:高效检测图像水印的视觉语言模型

    在数字内容管理中,水印检测是一项关键任务。无论是内容审核、数据集清理,还是版权保护,快速准确地识别图像中的水印都能显著提升工作效率。Watermark-Detection-SigLIP2 是一款基于谷...
    多模态模型# Watermark-Detection-SigLIP2# 水印检测
    2个月前
    0770
    浙江大学与哈佛大学联合推出高效图像编辑框架In-Context Edit:用自然语言指令轻松实现图像修改

    浙江大学与哈佛大学联合推出高效图像编辑框架In-Context Edit:用自然语言指令轻松实现图像修改

    浙江大学和哈佛大学的研究人员联合推出了ICEdit(In-Context Edit),这是一个高效且强大的基于指令的图像编辑框架。 与传统方法相比,ICEdit 仅需 1% 的可训练参数(2 亿)和 ...
    图像模型# FLUX# ICEdit# In-Context Edit
    2个月前
    01350
    艾伦AI研究所发布10 亿参数的小模型Olmo 2 1B

    艾伦AI研究所发布10 亿参数的小模型Olmo 2 1B

    艾伦AI研究所(AI2)于周四发布了 Olmo 2 1B,这是一个拥有 10 亿参数的 AI 模型。AI2 宣称,该模型在多项基准测试中击败了谷歌、Meta 和阿里巴巴的同规模模型。尽管参数数量相对较...
    大语言模型# Olmo 2 1B# 艾伦AI研究所
    2个月前
    0780
    思科发布专为网络安全打造的开源模型 Foundation-sec-8b

    思科发布专为网络安全打造的开源模型 Foundation-sec-8b

    思科宣布其在AI领域的重大进展——推出首个由全新成立的Foundation AI团队开发的大语言模型(LLM):Llama-3.1-FoundationAI-SecurityLLM-base-8B(简...
    大语言模型# Foundation-sec-8b# 思科
    2个月前
    02080
    加载更多
    SD百科导航
    SD百科导航是专注于AI创作领域的专业导航网站。我们全面涵盖Stable Diffusion、Flux、AI绘画、AI视频、AI音乐以及大语言模型等前沿内容。

    友链申请免责声明广告合作关于我们

    扫码关注微信公众号SD百科导航
    扫码关注微信公众号
    Copyright © 2025 SD百科导航 皖ICP备18025588号-5  皖公网安备34040002000401 
    网址
    网址文章软件模型

    网址

    日榜周榜月榜
    Open ASR 排行榜

    Open ASR 排行榜

    Open ASR 排行榜 对 Hugging Face Hub 上的语音识别模型进行排名和评估。我们报告平均 WER(字错误率)(⬇️ 越低越好)和 RTFx(实时因子)(⬆️ 越高越好),模型根据其平均 WER 从低到高进行排名。
    朱雀大模型检测

    朱雀大模型检测

    腾讯朱雀 AI 检测是于 2025 年 1 月 17 日推出的一款 AI 生成内容检测工具,主要用于帮助用户识别 AI 生成的文本和图像内容。每位用户每天最多可检测20次文本和20次图片。
    通义万象

    通义万象

    通义万象是阿里云旗下的图像及视频生成平台,凭借其强大的多模态生成能力,正在引领生成式 AI 的发展。除了传统的文生图能力,通义万象现已支持文生视频、图生视频等多种功能,并在插画设计、涂鸦作画、局部重绘、短片创作、配乐生成等场景化应用中表现出色。
    TTSMaker

    TTSMaker

    TTSMaker是一款在线文本转语音工具,也称为AI语音生成器,它可以将文本转换为音频,并且可以播放或下载音频文件。
    Refly

    Refly

    Refly 是一个基于「自由画布」理念构建的 AI 原生内容创作平台,通过多线程对话、知识库整合、上下文记忆、智能搜索与可见即可得的 AI 文档编辑器,为用户提供从创意萌发到成品内容的一站式解决方案。
    Tripo

    Tripo

    Tripo AI 是一家领先的 AI 驱动 3D 建模解决方案提供商,允许用户使用文本、单张图像、多张图像、涂鸦或视频等输入,快速创建高质量的 3D 模型和环境。
    查看完整榜单