SD百科导航
  • 首页
  • 快讯
  • 早报
  • 模型
  • ComfyUI
  • 新技术
  • 百科
    • 教程
    • 硬件
    • 科普
  • 百科工具
    • 工具
  • 排行榜
  • 网址提交
    • 首页
    • 快讯
    • 早报
    • 模型
    • ComfyUI
    • 新技术
    • 百科
      • 教程
      • 硬件
      • 科普
    • 百科工具
      • 工具
    • 排行榜
    • 网址提交

    模型

    共 1055 篇文章
    百科工具模型ComfyUIAI合集web UI提示词
    大语言模型多模态模型图像模型语音模型3D模型Flux衍生视频模型
    排序
    发布更新浏览点赞
    阿里通义团队为大家送上圣诞节大礼,开源全球首个视觉推理模型 QVQ-72B-Preview

    阿里通义团队为大家送上圣诞节大礼,开源全球首个视觉推理模型 QVQ-72B-Preview

    阿里通义团队为大家送上圣诞节大礼,开源了第一个视觉推理模型QVQ,其中V代表视觉。它只需读取一张图像和一个指令,开始思考,适时反思,持续推理,最终自信地生成预测!然而,它仍处于实验阶段,这个预览版本仍...
    多模态模型# QVQ-72B-Preview# 视觉推理模型# 阿里通义
    11个月前
    03210
    ltx-video-0.9-vae-finetune:基于 LTX Video 0.9 VAE 进行的微调VAE模型

    ltx-video-0.9-vae-finetune:基于 LTX Video 0.9 VAE 进行的微调VAE模型

    ltx-video-0.9-vae-finetune 是由开发者 spacepxl 基于 LTX Video 0.9 VAE 进行的微调VAE模型,旨在解决该模型中常见的棋盘伪影问题。通过专注于解码器...
    视频模型# ltx-video-0.9-vae-finetune# VAE模型
    11个月前
    03250
    lllyasviel推出交互式图像光照绘制新框架LuminaBrush

    lllyasviel推出交互式图像光照绘制新框架LuminaBrush

    ControlNet的作者lllyasviel继推出IC-Light系列之后,再次推出了一个全新的项目——LuminaBrush。这个项目旨在为用户提供一种简单而强大的方式,在图像上绘制和调整光照效果...
    图像模型# LuminaBrush# 光照绘制
    11个月前
    03380
    Nexa AI 推出一款专为边缘部署设计的音频语言模型 OmniAudio-2.6B

    Nexa AI 推出一款专为边缘部署设计的音频语言模型 OmniAudio-2.6B

    音频语言模型(ALMs)在各种应用中发挥着关键作用,包括实时转录、翻译、语音控制系统和辅助技术。然而,许多现有解决方案面临高延迟、大量计算需求以及依赖云端处理等限制。这些问题对边缘部署提出了挑战,因为...
    语音模型# OmniAudio-2.6B
    11个月前
    02780
    LTX-Video推出0.9.1版本,引入全新VAE解码器,原生支持STG/PAG

    LTX-Video推出0.9.1版本,引入全新VAE解码器,原生支持STG/PAG

    之前介绍过的《Lightricks推出开源视频生成模型LTX Video》,今天LTX-Video迎来了它的首次重要更新——0.9.1版本。作为生成式AI视频模型的最新迭代,LTX-Video 0.9...
    视频模型# LTX-Video 0.9.1
    11个月前
    03790
    新型自回归视频生成模型NOVA:能够在无需向量量化的情况下,高效地生成视频

    新型自回归视频生成模型NOVA:能够在无需向量量化的情况下,高效地生成视频

    北京邮电大学、中国科学院计算技术研究所、大连理工大学和北京智源研究院的研究人员提出了一种名为 NOVA 的新型自回归视频生成模型。该模型能够在无需向量量化的情况下,通过重新表述视频生成问题,实现了在时...
    视频模型# NOVA# 自回归视频生成模型
    11个月前
    03250
    加速DiT架构视频生成模型的开源技术栈FastVideo:已推出FastHunyuan和FastMochi 两款模型,生成速度提升8倍

    加速DiT架构视频生成模型的开源技术栈FastVideo:已推出FastHunyuan和FastMochi 两款模型,生成速度提升8倍

    加州大学圣地亚哥分校 Hao AI 实验室推出的一个开源技术栈FastVideo ,旨在显著加速最先进的(SoTA)开源DiT架构视频生成模型的推理速度。它通过引入 一致性蒸馏(Consistency...
    视频模型# FastHunyuan# FastMochi# FastVideo
    11个月前
    03990
    通义语音团队推出语音生成模型CosyVoice 2:提升了多语言语音合成的质量、响应速度和实时性能

    通义语音团队推出语音生成模型CosyVoice 2:提升了多语言语音合成的质量、响应速度和实时性能

    阿里巴巴旗下通义实验室语音团队在之前提出的 CosyVoice 基础上,推出了全新的 CosyVoice 2。该模型通过一系列优化和创新,显著提升了多语言语音合成的质量、响应速度和实时性能。CosyV...
    语音模型# CosyVoice 2# 语音生成模型
    11个月前
    02860
    三阶段扩散模型框架ColorFlow:专门用于解决黑白图像的自动着色问题

    三阶段扩散模型框架ColorFlow:专门用于解决黑白图像的自动着色问题

    ColorFlow 是由清华大学和腾讯ARC实验室提出的一个创新性三阶段扩散模型框架,专门用于解决黑白图像序列的自动着色问题。该模型旨在确保角色和对象的身份(ID)在着色过程中得到一致保留,同时生成高...
    图像模型# ColorFlow
    11个月前
    03330
    基于修复的指令引导图像编辑框架BrushEdit:通过自然语言指令进行无缝编辑,包括添加对象、移除元素或进行结构性更改等多样化编辑操作

    基于修复的指令引导图像编辑框架BrushEdit:通过自然语言指令进行无缝编辑,包括添加对象、移除元素或进行结构性更改等多样化编辑操作

    图像编辑技术近年来在基于反演(inversion-based)和基于指令(instruction-based)的方法上取得了显著进步。然而,这些方法各自存在局限性: 基于反演的方法:在处理重大修改(如...
    图像模型# BrushEdit# 图像编辑
    11个月前
    03270
    图森未来发布图生视频大模型“Ruyi”,能够在消费级显卡上运行

    图森未来发布图生视频大模型“Ruyi”,能够在消费级显卡上运行

    图森未来今日正式发布了其首款“图生视频”大模型——Ruyi,目前Ruyi-Mini-7B版本已经正式释出。这款模型专为生成高质量的影视级视频而设计,能够在消费级显卡(如 RTX 3090 或 RTX ...
    插件视频模型# Ruyi# 图森未来# 图生视频大模型
    11个月前
    04000
    无问芯穹推出全球首个端侧全模态理解开源模型Megrez-3B-Omni

    无问芯穹推出全球首个端侧全模态理解开源模型Megrez-3B-Omni

    12月16日,无问芯穹宣布正式开源其“端模型+端软件+端IP”端上智能一体化解决方案中的小模型——Megrez-3B-Omni,以及纯语言版本模型 Megrez-3B-Instruct。这一举措标志着...
    多模态模型# Megrez-3B-Omni# 无问芯穹
    11个月前
    02690
    加载更多
    SD百科导航
    SD百科导航是专注于AI创作领域的专业导航网站。我们全面涵盖Stable Diffusion、Flux、AI绘画、AI视频、AI音乐以及大语言模型等前沿内容。

    关于我们网址提交友链申请广告合作

    扫码关注微信公众号SD百科导航
    扫码关注微信公众号
    Copyright © 2026 SD百科导航 皖ICP备18025588号-5  皖公网安备34040002000401 
    网址
    网址文章软件模型

    网址

    日榜周榜月榜
    Fogsight (雾象)

    Fogsight (雾象)

    雾象是一款由大语言模型(LLM)驱动的动画引擎 agent 。用户输入抽象概念或词语,雾象会将其转化为高水平的生动动画。
     CutCut

     CutCut

    CutCut是一个视频下载与剪辑工具,支持从 YouTube、Bilibili 等主流平台直接按章节或自定义时间范围下载片段,无需先下完整视频再剪辑。
    人生 K 线

    人生 K 线

    人生 K 线(Life Destiny K-Line)是一个结合传统八字命理与现代大语言模型(LLM)的轻量级可视化工具。它将一个人从 1 岁到 100 岁的运势走势,以类似股票 K 线图的形式呈现,试图用数据可视化的方式“翻译”命理推演结果。
    Tripo

    Tripo

    Tripo AI 是一家领先的 AI 驱动 3D 建模解决方案提供商,允许用户使用文本、单张图像、多张图像、涂鸦或视频等输入,快速创建高质量的 3D 模型和环境。
    ITELLOU

    ITELLOU

    ITELLYOU(也称为NEXT, ITELLYOU)是一个专注于提供微软原版软件资源的非官方网站,主要帮助用户获取未经修改的微软产品镜像,如Windows操作系统、Office办公软件和开发工具等。
    MiroFish

    MiroFish

    MiroFish 是一款基于多智能体技术的新一代 AI 预测引擎。通过提取现实世界的种子信息(如突发新闻、政策草案、金融信号),自动构建出高保真的平行数字世界。
    查看完整榜单