SD百科导航
  • 首页
  • 快讯
  • 早报
  • 模型
  • ComfyUI
  • 新技术
  • 百科
    • 教程
    • 硬件
    • 科普
  • 百科工具
    • 工具
  • 排行榜
  • 网址提交
    • 首页
    • 快讯
    • 早报
    • 模型
    • ComfyUI
    • 新技术
    • 百科
      • 教程
      • 硬件
      • 科普
    • 百科工具
      • 工具
    • 排行榜
    • 网址提交

    模型

    共 1083 篇文章
    百科工具模型ComfyUIAI合集web UI提示词
    大语言模型多模态模型图像模型语音模型3D模型Flux衍生视频模型世界模型
    排序
    发布更新浏览点赞
    LMMs-Lab发布轻量高效音频模型Aero-1-Audio:擅长长语音ASR与多模态任务

    LMMs-Lab发布轻量高效音频模型Aero-1-Audio:擅长长语音ASR与多模态任务

    LMMs-Lab 推出了一款紧凑型音频模型 Aero-1-Audio,专为多种音频任务设计,包括语音识别(ASR)、音频理解和音频指令跟随。作为 Aero-1 系列的第一代产品,Aero-1-Audi...
    语音模型# Aero-1-Audio# LMMs-Lab# 语音识别
    9个月前
    05700
    新型文生图模型YaART:利用人类反馈的强化学习与人类偏好进行对齐

    新型文生图模型YaART:利用人类反馈的强化学习与人类偏好进行对齐

    来自俄罗斯Yandex、斯科尔科沃科学技术学院、莫斯科国立大学和高等经济学院的研究团队推出新型的、适用于生产环境的文本到图像级联扩散模型YaART(Yet Another Art Rendering ...
    图像模型# YaART# 文生图模型
    12个月前
    05690
    基于神经热场的无混叠任意尺度超分辨率(ASR)方法Thera:实现高质量的图像超分辨率重建

    基于神经热场的无混叠任意尺度超分辨率(ASR)方法Thera:实现高质量的图像超分辨率重建

    苏黎世联邦理工学院和苏黎世大学的研究人员推出一种基于神经热场(Neural Heat Fields)的无混叠任意尺度超分辨率(ASR)方法Thera,该方通过结合神经场(Neural Fields)和...
    图像模型# Thera# 图像放大# 图像高清
    11个月前
    05680
    多模态大语言模型Qwen2-VL-7B-Captioner-Relaxed:经过指令调整的Qwen2-VL-7B-Instruct版本

    多模态大语言模型Qwen2-VL-7B-Captioner-Relaxed:经过指令调整的Qwen2-VL-7B-Instruct版本

    Qwen2-VL-7B-Captioner-Relaxed 是 Qwen2-VL-7B-Instruct 的一个经过指令调整的版本,它是一个多模态大语言模型。这个经过精细调整的版本是基于一个为文生图模...
    多模态模型# Qwen2-VL-7B-Captioner-Relaxed# 多模态大语言模型
    12个月前
    05630
    MagicTailor框架:让用户对生成的图像中的特定视觉元素进行精确控制

    MagicTailor框架:让用户对生成的图像中的特定视觉元素进行精确控制

    近年来,文本到图像(T2I)扩散模型取得了显著进展,能够从简单的文本提示中生成高质量的图像。然而,这些模型在精确控制特定视觉概念生成方面仍然面临挑战。现有的方法可以通过参考图像学习复制给定的概念,但缺...
    图像模型# MagicTailor# 图像定制
    12个月前
    05600
    大型多模态模型LLaVA-Video:专门设计来处理视频指令并进行视频内容理解

    大型多模态模型LLaVA-Video:专门设计来处理视频指令并进行视频内容理解

    字节跳动、南洋理工大学S-Lab和北京邮电大学的研究人员推出大型多模态模型LLaVA-Video,专门设计来处理视频指令并进行视频内容理解。这个模型特别擅长于解析和生成与视频内容相关的语言描述,比如详...
    多模态模型# LLaVA-Video# 多模态模型
    12个月前
    05600
    香港大学与华为合作发布扩散大语言模型 Dream 7B

    香港大学与华为合作发布扩散大语言模型 Dream 7B

    香港大学与华为诺亚方舟实验室携手,正式发布了迄今为止最强大的开放扩散(Diffusion)大语言模型——Dream 7B。这一模型不仅在性能上大幅超越现有的扩散语言模型,还在通用能力、数学能力和编码能...
    大语言模型# Dream 7B# 华为诺亚方舟实验室# 扩散大语言模型
    10个月前
    05590
    Retro Comic Flux:基于FLUX.1-dev的美式复古漫画风格LoRA

    Retro Comic Flux:基于FLUX.1-dev的美式复古漫画风格LoRA

    Retro Comic Flux是一款基于FLUX.1-dev的美式复古漫画风格LoRA模型,主要擅长处理人物形象,当你描述角色和背景场景时,它效果最好。 模型下载(Civitai):https...
    Flux衍生# Lora# Retro Comic Flux# 复古漫画
    12个月前
    05570
    时间延时视频生成模型MagicTime:学习现实世界中的物理知识,并能够生成展示这些知识的时间延时视频

    时间延时视频生成模型MagicTime:学习现实世界中的物理知识,并能够生成展示这些知识的时间延时视频

    来自北京大学深圳研究生院、罗彻斯特大学、新加坡国立大学、广东工业大学和加州大学圣克鲁斯分校的研究人员推出新型时间延时视频生成模型MagicTime,这个模型的目标是学习现实世界中的物理知识,并能够生成...
    视频模型# MagicTime# 时间延时视频生成模型
    12个月前
    05570
    Meta推出图像和视频分割模型SAM 2:图像和视频中的可提示视觉分割

    Meta推出图像和视频分割模型SAM 2:图像和视频中的可提示视觉分割

    Meta在去年推出了图像分割模型Segment Anything,今年它们又推出了升级版Segment Anything Model 2 (SAM 2),这是一种用于图像和视频中可提示视觉分割的基础模...
    图像模型# Meta# SAM 2# 分割模型
    12个月前
    05560
    阿里推出高效的长上下文压缩框架QwenLong-CPRS

    阿里推出高效的长上下文压缩框架QwenLong-CPRS

    在大语言模型(LLM)处理长文本时,两个核心问题始终存在:计算开销高 和 中间信息丢失严重。为了解决这些问题,阿里通义实验室 Qwen-Doc 团队推出了一个全新上下文压缩框架 —— QwenLong...
    大语言模型# QwenLong-CPRS# QwenLong-CPRS-7B
    8个月前
    05550
    Sleeveface :基于 FLUX.1-dev 的风格LoRA,专门设计用来重现2000年代流行的“Sleeveface”风格

    Sleeveface :基于 FLUX.1-dev 的风格LoRA,专门设计用来重现2000年代流行的“Sleeveface”风格

    Sleeveface 是一款基于 FLUX.1-dev 的概念LoRA,专门设计用来重现2000年代流行的“Sleeveface”风格的图像。这种风格的图像通常展示一个人手持一张专辑封面,巧妙地将其与...
    Flux衍生# FLUX.1-dev# Sleeveface
    12个月前
    05480
    加载更多
    SD百科导航
    SD百科导航是专注于AI创作领域的专业导航网站。我们全面涵盖Stable Diffusion、Flux、AI绘画、AI视频、AI音乐以及大语言模型等前沿内容。

    关于我们网址提交友链申请广告合作

    扫码关注微信公众号SD百科导航
    扫码关注微信公众号
    Copyright © 2026 SD百科导航 皖ICP备18025588号-5  皖公网安备34040002000401 
    网址
    网址文章软件模型

    网址

    日榜周榜月榜
    QoderWork

    新QoderWork

    阿里发布旗下首个桌面Agent工具QoderWork,用户无需任何复杂部署工作,输入一句话,QoderWork就能按需调用授权的本地应用,完成文件整理、数据处理、文档生成等任务。
    Clawdbot/Moltbot

    Clawdbot/Moltbot

    Clawdbot 是一款可在您自己的设备上运行的个人 AI 助手。它在您已使用的渠道(WhatsApp、Telegram、Slack、Discord、Google Chat、Signal、iMessage、Microsoft Teams、WebChat)以及扩展渠道(如 BlueBubbles、Matrix、Zalo 和 Zalo Personal)上为您提供应答。它可以在 macOS/iOS/Android 上进行语音交谈,并能渲染一个您可控制的实时画布。网关仅是控制平面——核心产品是助手本身。
    Situation Monitor

    Situation Monitor

    Situation Monitor 是由开发者 Reggie James 创建的一个免费、开源的全球风险监测平台。它通过一张交互式地图,实时整合并可视化全球范围内的关键地缘政治与安全信息,帮助用户快速掌握潜在冲突热点和战略动态。
    Higgsfield AI

    Higgsfield AI

    Higgsfield AI平台支持文生图和图生视频,近期对图生视频功能进行了全面升级,专为追求高质量、风格化内容创作并渴望真正电影级操控的创意人士打造——无论是MV导演、商业片制作人、AI创作者,还是社交媒体叙事者。
     CutCut

     CutCut

    CutCut是一个视频下载与剪辑工具,支持从 YouTube、Bilibili 等主流平台直接按章节或自定义时间范围下载片段,无需先下完整视频再剪辑。
    Fogsight (雾象)

    Fogsight (雾象)

    雾象是一款由大语言模型(LLM)驱动的动画引擎 agent 。用户输入抽象概念或词语,雾象会将其转化为高水平的生动动画。
    查看完整榜单