SD百科导航
  • 首页
  • 快讯
  • 早报
  • 模型
  • ComfyUI
  • 新技术
  • 百科
    • 教程
    • 硬件
    • 科普
  • 百科工具
    • 工具
  • 排行榜
  • 网址提交
    • 首页
    • 快讯
    • 早报
    • 模型
    • ComfyUI
    • 新技术
    • 百科
      • 教程
      • 硬件
      • 科普
    • 百科工具
      • 工具
    • 排行榜
    • 网址提交

    模型

    共 1083 篇文章
    百科工具模型ComfyUIAI合集web UI提示词
    大语言模型多模态模型图像模型语音模型3D模型Flux衍生视频模型世界模型
    排序
    发布更新浏览点赞
    Flex.2-preview:基于 Flux.1 Schnell 微调而成的开源 80 亿参数文生图模型

    Flex.2-preview:基于 Flux.1 Schnell 微调而成的开源 80 亿参数文生图模型

    Flex.2-preview 是一款开源的文本到图像扩散模型,具有 80 亿参数,支持通用控制和图像修复功能。它基于 Flux.1 Schnell 微调而成,旨在为用户提供更灵活、更强大的图像生成能力...
    图像模型# Flex.2-preview# FLUX.1 [schnell]# 文生图模型
    9个月前
    06630
    LibreFLUX:基于FLUX.1 [schnell]的免费、开源、去蒸馏FLUX 模型

    LibreFLUX:基于FLUX.1 [schnell]的免费、开源、去蒸馏FLUX 模型

    LibreFLUX是基于FLUX.1 [schnell] 的去蒸馏版本,旨在提供完整的 T5 上下文长度支持,使用注意力掩码,恢复无分类器指导,并移除了大部分 FLUX 美学微调/DPO。这些改动使得...
    Flux衍生# FLUX 模型# FLUX.1 [schnell]# LibreFLUX
    12个月前
    06630
    创新图像生成框架BeyondScene:能够生成高分辨率(超过8K)、以人为中心的场景图像

    创新图像生成框架BeyondScene:能够生成高分辨率(超过8K)、以人为中心的场景图像

    来自韩国首尔国立大学的研究团队推出创新图像生成框架BeyondScene,它能够生成高分辨率(超过8K)、以人为中心的场景图像。这个框架特别擅长处理包含多个人物和复杂细节的场景,即使这些场景的描述超出...
    图像模型# BeyondScene# 图像生成框架# 高分辨率
    12个月前
    06620
    腾讯混元发布 HunyuanImage-3.0:800亿参数开源原生多模态模型,实现“语义理解-图像生成”的深度融合

    腾讯混元发布 HunyuanImage-3.0:800亿参数开源原生多模态模型,实现“语义理解-图像生成”的深度融合

    腾讯混元项目组正式发布并开源HunyuanImage-3.0——当前开源社区规模最大、性能最强的文生图模型。该模型总参数量突破800亿,推理时每token仅激活130亿参数(兼顾性能与效率),基于原生...
    图像模型# HunyuanImage-3.0# 腾讯混元
    4个月前
    06610
    IterComp:为了解决文本到图像生成中的复杂和组合问题而设计的新框架

    IterComp:为了解决文本到图像生成中的复杂和组合问题而设计的新框架

    清华大学、北京大学、LibAI Lab、中国科学技术大学、牛津大学和普林斯顿大学的研究人员推出AI绘画新框架IterComp,它是为了解决文本到图像生成中的复杂和组合问题而设计的。简单来说,就是当你给...
    图像模型# IterComp# 文本到图像
    12个月前
    06580
    FLUX.1-dev-ControlNet-Union-Pro-2.0 FP8 量化版本:降低对于显存的需求

    FLUX.1-dev-ControlNet-Union-Pro-2.0 FP8 量化版本:降低对于显存的需求

    近期Shakker Labs发布了FLUX.1-dev-ControlNet-Union-Pro-2.0,但原版模型对于显存要求过高,于是就有开发者推出了FP8 量化版本。这不是一个经过微调的模型,而...
    图像模型# FLUX.1-dev-ControlNet-Union-Pro-2.0# FP8 量化版本# Shakker Labs
    10个月前
    06560
    设计灵感来源于PaLI-3!谷歌推出开源视觉语言模型PaliGemma

    设计灵感来源于PaLI-3!谷歌推出开源视觉语言模型PaliGemma

    PaliGemma 是谷歌推出的新一代视觉语言模型家族,其设计灵感来源于PaLI-3,能够接收图像与文本输入并生成文本输出。PaliGemma建立在包括SigLIP视觉模型和Gemma语言模型在内的开...
    多模态模型# PaliGemma# 谷歌
    12个月前
    06530
    Black Forest Labs 推出新一代上下文感知图像生成模型FLUX.1 Kontext,支持图像生成及编辑

    Black Forest Labs 推出新一代上下文感知图像生成模型FLUX.1 Kontext,支持图像生成及编辑

    继 FLUX.1 系列大获成功后,Black Forest Labs(黑森林实验室) 在今天正式发布其最新力作 —— FLUX.1 Kontext。 这是一套全新的上下文流匹配生成模型(Context...
    图像模型# Black Forest Labs# FLUX.1 Kontext# 黑森林实验室
    8个月前
    06510
    多语言、多任务 ASR 模型Dolphin:支持东亚、南亚、东南亚和中东地区的 40 种东方语言,同时也支持 22 种中国方言

    多语言、多任务 ASR 模型Dolphin:支持东亚、南亚、东南亚和中东地区的 40 种东方语言,同时也支持 22 种中国方言

    近年来,自动语音识别(ASR)技术取得了显著进展,这主要得益于模型架构的改进和大规模数据集的可用性。然而,现有的多语言 ASR 模型(如 Whisper)在处理东方语言时表现不佳,且存在可重复性问题 ...
    语音模型# ASR 模型# Dolphin# 语音识别
    10个月前
    06500
    新型框架Diffusion-KTO:用于调整文生图模型,使其生成的图像更符合人类的偏好

    新型框架Diffusion-KTO:用于调整文生图模型,使其生成的图像更符合人类的偏好

    加州大学洛杉矶分校、松下人工智能研究中心和 Salesforce 人工智能研究中心的研究人员推出新型框架Diffusion-KTO,它专门用于调整文生图模型,使其生成的图像更符合人类的偏好。这个过程不...
    图像模型# Diffusion-KTO# 文生图模型
    12个月前
    06480
    Stability AI推出Stable Diffusion 3

    Stability AI推出Stable Diffusion 3

    Stability AI推出Stable Diffusion 3模型的早期预览版本,这是我们迄今为止功能最为强大的文生图模型,在处理多主题提示、图像质量和拼写能力方面都有显著的提升。 Prompt: ...
    图像模型# Stability AI# Stable Diffusion 3
    12个月前
    06460
    图像恢复算法PMRF:改善从损坏的图像中恢复出高质量、逼真图像

    图像恢复算法PMRF:改善从损坏的图像中恢复出高质量、逼真图像

    以色列理工学院的研究人员推出图像恢复算法PMRF(Posterior-Mean Rectified Flow,后验均值校正流),这个算法的目标是改善从损坏的图像中恢复出高质量、逼真图像的方法。具体来说...
    图像模型# PMRF# 图像恢复算法
    12个月前
    06440
    加载更多
    SD百科导航
    SD百科导航是专注于AI创作领域的专业导航网站。我们全面涵盖Stable Diffusion、Flux、AI绘画、AI视频、AI音乐以及大语言模型等前沿内容。

    关于我们网址提交友链申请广告合作

    扫码关注微信公众号SD百科导航
    扫码关注微信公众号
    Copyright © 2026 SD百科导航 皖ICP备18025588号-5  皖公网安备34040002000401 
    网址
    网址文章软件模型

    网址

    日榜周榜月榜
    Clawdbot/Moltbot

    Clawdbot/Moltbot

    Clawdbot 是一款可在您自己的设备上运行的个人 AI 助手。它在您已使用的渠道(WhatsApp、Telegram、Slack、Discord、Google Chat、Signal、iMessage、Microsoft Teams、WebChat)以及扩展渠道(如 BlueBubbles、Matrix、Zalo 和 Zalo Personal)上为您提供应答。它可以在 macOS/iOS/Android 上进行语音交谈,并能渲染一个您可控制的实时画布。网关仅是控制平面——核心产品是助手本身。
    Situation Monitor

    Situation Monitor

    Situation Monitor 是由开发者 Reggie James 创建的一个免费、开源的全球风险监测平台。它通过一张交互式地图,实时整合并可视化全球范围内的关键地缘政治与安全信息,帮助用户快速掌握潜在冲突热点和战略动态。
    Higgsfield AI

    Higgsfield AI

    Higgsfield AI平台支持文生图和图生视频,近期对图生视频功能进行了全面升级,专为追求高质量、风格化内容创作并渴望真正电影级操控的创意人士打造——无论是MV导演、商业片制作人、AI创作者,还是社交媒体叙事者。
    Fogsight (雾象)

    Fogsight (雾象)

    雾象是一款由大语言模型(LLM)驱动的动画引擎 agent 。用户输入抽象概念或词语,雾象会将其转化为高水平的生动动画。
    CivitAI

    CivitAI

    CivitAI是一个AI图像及视频模型托管平台,主要聚焦于 AI 生成的图像、视频和模型。它为用户提供了一个空间,可以上传、分享和发现由特定数据集训练的自定义 AI 模型,这些模型可用于生成独特的内容,如图像、视频。
    ITELLOU

    ITELLOU

    ITELLYOU(也称为NEXT, ITELLYOU)是一个专注于提供微软原版软件资源的非官方网站,主要帮助用户获取未经修改的微软产品镜像,如Windows操作系统、Office办公软件和开发工具等。
    查看完整榜单