SD百科导航
  • 首页
  • 快讯
  • 早报
  • 模型
  • ComfyUI
  • 新技术
  • 百科
    • 教程
    • 硬件
    • 科普
  • 百科工具
    • 工具
  • 排行榜
  • 网址提交
    • 首页
    • 快讯
    • 早报
    • 模型
    • ComfyUI
    • 新技术
    • 百科
      • 教程
      • 硬件
      • 科普
    • 百科工具
      • 工具
    • 排行榜
    • 网址提交

    模型

    共 1053 篇文章
    百科工具模型ComfyUIAI合集web UI提示词
    大语言模型多模态模型图像模型语音模型3D模型Flux衍生视频模型
    排序
    发布更新浏览点赞
    香港大学与华为合作发布扩散大语言模型 Dream 7B

    香港大学与华为合作发布扩散大语言模型 Dream 7B

    香港大学与华为诺亚方舟实验室携手,正式发布了迄今为止最强大的开放扩散(Diffusion)大语言模型——Dream 7B。这一模型不仅在性能上大幅超越现有的扩散语言模型,还在通用能力、数学能力和编码能...
    大语言模型# Dream 7B# 华为诺亚方舟实验室# 扩散大语言模型
    9个月前
    05410
    多语言、多任务 ASR 模型Dolphin:支持东亚、南亚、东南亚和中东地区的 40 种东方语言,同时也支持 22 种中国方言

    多语言、多任务 ASR 模型Dolphin:支持东亚、南亚、东南亚和中东地区的 40 种东方语言,同时也支持 22 种中国方言

    近年来,自动语音识别(ASR)技术取得了显著进展,这主要得益于模型架构的改进和大规模数据集的可用性。然而,现有的多语言 ASR 模型(如 Whisper)在处理东方语言时表现不佳,且存在可重复性问题 ...
    语音模型# ASR 模型# Dolphin# 语音识别
    10个月前
    06320
    EasyControl 框架:基于扩散变换器(DiT架构)的图像生成模型提供高效且灵活的条件控制能力

    EasyControl 框架:基于扩散变换器(DiT架构)的图像生成模型提供高效且灵活的条件控制能力

    Tiamat AI、上海科技大学、新加坡国立大学和Liblib AI的研究人员推出 EasyControl 框架,为基于扩散变换器(DiT架构)的图像生成模型提供高效且灵活的条件控制能力。它通过一系列...
    图像模型# DiT架构# EasyControl
    10个月前
    02760
    阿里旗下PAI项目组开源了视频生成模型Wan 2.1 的控制模型Wan2.1-Fun系列,支持Canny、Depth、Pose、MLSD等多种模式

    阿里旗下PAI项目组开源了视频生成模型Wan 2.1 的控制模型Wan2.1-Fun系列,支持Canny、Depth、Pose、MLSD等多种模式

    阿里旗下PAI项目组开源了视频生成模型Wan 2.1 的控制模型,支持不同的控制条件,如Canny、Depth、Pose、MLSD等,同时支持使用轨迹控制。 模型地址:https://huggingf...
    视频模型# Wan 2.1# Wan2.1-Fun-1.3B-Control# Wan2.1-Fun-1.3B-InP
    10个月前
    03170
    字节跳动与浙大联合发布轻量高效TTS模型MegaTTS3

    字节跳动与浙大联合发布轻量高效TTS模型MegaTTS3

    字节跳动和浙江大学的研究人员推出的一款轻量级TTS模型:MegaTTS3,0.45B,高质量语音克隆,支持中英文以及中英文混合,支持口音强度控制,后面会支持更细粒度的发音和时长调整。 GitHub:h...
    语音模型# MegaTTS3# TTS模型# 字节跳动
    10个月前
    04650
    AccVideo:通过知识蒸馏技术,将HunyuanVideo模型生成速度提高了 8.5 倍,同时保持生成质量

    AccVideo:通过知识蒸馏技术,将HunyuanVideo模型生成速度提高了 8.5 倍,同时保持生成质量

    视频扩散模型是一种强大的生成模型,能够生成高质量的视频内容。然而,传统的视频扩散模型在生成视频时需要大量的迭代去噪步骤,这使得生成过程非常缓慢且计算成本高昂。例如,HunyuanVideo 模型在单个...
    视频模型# AccVideo# HunyuanVideo# 知识蒸馏
    10个月前
    04460
    基于 GenAI 的视觉内容创作控制框架ZenCtrl:利用单张主体图像生成多视角、多样化场景的高分辨率图像,无需额外微调

    基于 GenAI 的视觉内容创作控制框架ZenCtrl:利用单张主体图像生成多视角、多样化场景的高分辨率图像,无需额外微调

    ZenCtrl 是一款基于 GenAI 的视觉内容创作控制框架,专注于利用单张主体图像生成多视角、多样化场景的高分辨率图像,无需额外微调。它通过精细的控制能力和模块化设计,为创作者提供了一个强大且灵活...
    图像模型# OminiControl# ZenCtrl# 图像控制框架
    8个月前
    04710
    阿里巴巴发布 QVQ-Max:能看、能理解、能思考的视觉推理模型

    阿里巴巴发布 QVQ-Max:能看、能理解、能思考的视觉推理模型

    阿里巴巴推出一款名为 QVQ-Max 的全新视觉推理模型,这是其 Qwen模型系列中的最新成员。QVQ-Max 的独特之处在于它能够理解照片和视频的内容,并对这些信息进行分析和推理,从而提供解决方案...
    多模态模型# QVQ-Max# 视觉推理模型# 阿里巴巴
    10个月前
    02770
    Kyutai发布首个开源实时语音模型MoshiVis,开启视觉与语音交互新时代

    Kyutai发布首个开源实时语音模型MoshiVis,开启视觉与语音交互新时代

    在AI领域,将实时语音交互与视觉内容相结合一直是一个极具挑战性的课题。传统系统通常依赖于多个独立组件来实现语音活动检测、语音识别、文本对话和文本转语音合成,这种分段式的方法不仅容易引入延迟,还难以捕捉...
    语音模型# MoshiVis# 语音模型
    10个月前
    02030
    Ideogram 3.0发布:更真实、更创意、更一致的生成式设计体验

    Ideogram 3.0发布:更真实、更创意、更一致的生成式设计体验

    Ideogram在今天正式发布了其最新模型Ideogram 3.0,这款最新的AI生成模型不仅在图像质量和文本渲染方面取得了重大突破,还通过强大的风格控制功能和高效的设计能力,为创作者和专业人士提供了...
    图像模型# AI绘画# Ideogram# Ideogram 3.0
    10个月前
    04950
    阿里通义实验室发布新一代端到端多模态旗舰模型Qwen2.5-Omni

    阿里通义实验室发布新一代端到端多模态旗舰模型Qwen2.5-Omni

    阿里通义实验室发布了 Qwen2.5-Omni,这是 Qwen 模型家族中的新一代端到端多模态旗舰模型。Qwen2.5-Omni 专为全方位多模态感知设计,能够无缝处理文本、图像、音频和视频等多种输入...
    多模态模型# Qwen2.5-Omni# 多模态模型
    10个月前
    02630
    StarVector:利用多模态大语言模型(MLLM)从图像和文本生成SVG代码

    StarVector:利用多模态大语言模型(MLLM)从图像和文本生成SVG代码

    ServiceNow Research、魁北克人工智能研究所、加拿大 CIFAR 人工智能主席、不列颠哥伦比亚大学、高等工程技术学院和苹果的研究人员推出StarVector,利用多模态大语言模型(ML...
    图像模型# StarVector# SVG代码# 多模态大语言模型
    10个月前
    04560
    加载更多
    SD百科导航
    SD百科导航是专注于AI创作领域的专业导航网站。我们全面涵盖Stable Diffusion、Flux、AI绘画、AI视频、AI音乐以及大语言模型等前沿内容。

    关于我们网址提交友链申请广告合作

    扫码关注微信公众号SD百科导航
    扫码关注微信公众号
    Copyright © 2026 SD百科导航 皖ICP备18025588号-5  皖公网安备34040002000401 
    网址
    网址文章软件模型

    网址

    日榜周榜月榜
    人生 K 线

    人生 K 线

    人生 K 线(Life Destiny K-Line)是一个结合传统八字命理与现代大语言模型(LLM)的轻量级可视化工具。它将一个人从 1 岁到 100 岁的运势走势,以类似股票 K 线图的形式呈现,试图用数据可视化的方式“翻译”命理推演结果。
    Fogsight (雾象)

    Fogsight (雾象)

    雾象是一款由大语言模型(LLM)驱动的动画引擎 agent 。用户输入抽象概念或词语,雾象会将其转化为高水平的生动动画。
    Apple Wallpapers

    Apple Wallpapers

    AppleWalls 提供 iPhone、iPad 与 Mac 系统原生高清壁纸下载,收录 iOS 与 macOS 各版本官方壁纸。探索苹果设计美学,体验纯粹的 Apple 风格。
    互联网大厂模拟器

    互联网大厂模拟器

    《互联网大厂模拟器》或许不会改变现实,但它提供了一个出口:在虚拟世界里,我们可以安全地体验“另一种职场人生”,然后笑着关掉页面,继续面对明天的站会。
    Tripo

    Tripo

    Tripo AI 是一家领先的 AI 驱动 3D 建模解决方案提供商,允许用户使用文本、单张图像、多张图像、涂鸦或视频等输入,快速创建高质量的 3D 模型和环境。
    朱雀大模型检测

    朱雀大模型检测

    腾讯朱雀 AI 检测是于 2025 年 1 月 17 日推出的一款 AI 生成内容检测工具,主要用于帮助用户识别 AI 生成的文本和图像内容。每位用户每天最多可检测20次文本和20次图片。
    查看完整榜单