SD百科导航
  • 首页
  • 快讯
  • 早报
  • 模型
  • ComfyUI
  • 新技术
  • 百科
    • 教程
    • 硬件
    • 科普
  • 百科工具
    • 工具
  • 排行榜
  • 网址提交
    • 首页
    • 快讯
    • 早报
    • 模型
    • ComfyUI
    • 新技术
    • 百科
      • 教程
      • 硬件
      • 科普
    • 百科工具
      • 工具
    • 排行榜
    • 网址提交

    模型

    共 1055 篇文章
    百科工具模型ComfyUIAI合集web UI提示词
    大语言模型多模态模型图像模型语音模型3D模型Flux衍生视频模型
    排序
    发布更新浏览点赞
    SliderSpace:自动分解文生图模型的视觉能力,将其转化为简单的滑块控件,使用户能够更直观地控制生成结果

    SliderSpace:自动分解文生图模型的视觉能力,将其转化为简单的滑块控件,使用户能够更直观地控制生成结果

    扩散模型(Diffusion Models)在生成高质量图像方面表现出色,但其生成过程的黑箱性质限制了用户的控制能力。为了增强扩散模型的可控性和可解释性,来自美国东北大学和 Adobe Researc...
    图像模型# Adobe Research# SliderSpace# 东北大学
    11个月前
    05000
    谷歌发布多语言视觉语言编码器SigLIP 2

    谷歌发布多语言视觉语言编码器SigLIP 2

    今天,谷歌正式发布了 SigLIP 2——一个全新的多语言视觉语言编码器系列。SigLIP 2 在语义理解、定位和密集特征方面进行了显著改进,进一步提升了视觉语言模型的性能。 官方说明:https...
    多模态模型# PaliGemma 2# SigLIP 2# 视觉编码器
    11个月前
    02540
    西北工业大学开源语音理解模型OSUM

    西北工业大学开源语音理解模型OSUM

    近年来,大语言模型(LLMs)在自然语言处理领域取得了显著进展,这启发了业界对语音理解语言模型(Speech Understanding Language Models, SULMs)的开发。SULM...
    语音模型# OSUM# 西北工业大学# 语音理解模型
    11个月前
    03920
    谷歌推出PaliGemma 2 Mix:在混合视觉语言任务上进行微调的视觉语言模型版本,涵盖 OCR、长短字幕等多种任务

    谷歌推出PaliGemma 2 Mix:在混合视觉语言任务上进行微调的视觉语言模型版本,涵盖 OCR、长短字幕等多种任务

    去年 12 月5日,谷歌发布了 PaliGemma 2,这是一个基于 SigLIP 和 Gemma 2 的新型预训练视觉语言模型(VLM)系列。这些模型提供了三种不同的尺寸(3B、10B、28B)和三...
    多模态模型# PaliGemma 2 Mix# 视觉语言模型# 谷歌
    11个月前
    02370
    昆仑万维开源首个面向 AI 短剧创作的视频生成模型 SkyReels-V1和表情动作可控算法 SkyReels-A1

    昆仑万维开源首个面向 AI 短剧创作的视频生成模型 SkyReels-V1和表情动作可控算法 SkyReels-A1

    昆仑万维近日开源了国内首个面向 AI 短剧创作的视频生成模型 SkyReels-V1,以及国内首个 SOTA 级别基于视频基座模型的表情动作可控算法 SkyReels-A1,这款模型已在昆仑万维海外A...
    视频模型# SkyReels-A1# SkyReels-V1# 昆仑万维
    11个月前
    02430
    让大语言模型“看懂”图形界面!微软推出 OmniParser V2.0:将大语言模型转化为 GUI 交互智能体

    让大语言模型“看懂”图形界面!微软推出 OmniParser V2.0:将大语言模型转化为 GUI 交互智能体

    微软的 OmniParser 发布了 V2 更新,这一版本的核心目标是将任何大语言模型(LLM)转化为能够理解和交互图形用户界面(GUI)的智能体。相比前一代,OmniParser V2 在检测更小可...
    多模态模型# OmniParser V2.0# 微软# 智能体
    11个月前
    02840
    基于DiT模型的多领域程序化序列生成框架MakeAnything:根据文本描述或图像生成分步骤的教程

    基于DiT模型的多领域程序化序列生成框架MakeAnything:根据文本描述或图像生成分步骤的教程

    新加坡国立大学的研究团队推出 MakeAnything,这是一个基于DiT模型的多领域程序化序列生成框架,能够根据文本描述或图像生成分步骤的教程,也就是生成一致性图片序列。 GitHub:https...
    图像模型# DiT模型# MakeAnything
    11个月前
    02620
    阶跃星辰开源面向智能语音交互的框架Step-Audio:1300 亿参数的统一语音-文本多模态模型,能够实现语音理解与生成的统一

    阶跃星辰开源面向智能语音交互的框架Step-Audio:1300 亿参数的统一语音-文本多模态模型,能够实现语音理解与生成的统一

    阶跃星辰团队开源了面向智能语音交互的框架 Step-Audio,旨在解决当前开源语音模型在数据收集成本高、动态控制能力弱和智能水平有限等问题。Step-Audio 提出了一个 1300 亿参数的统一语...
    语音模型# Step-Audio# 语音-文本多模态模型# 语音交互
    11个月前
    03420
    阶跃星辰开源300 亿参数文生视频模型Step-Video-T2V:能够生成长达 204 帧的高质量视频

    阶跃星辰开源300 亿参数文生视频模型Step-Video-T2V:能够生成长达 204 帧的高质量视频

    由前微软全球副总裁、微软亚洲互联网工程院首席科学家姜大昕创办的AI公司阶跃星辰,开源了一款强大的文生视频模型——Step-Video-T2V。该模型拥有 300 亿参数,能够生成长达 204 帧的高质...
    视频模型# Step-Video-T2V# Step-Video-T2V-Turbo# 文生视频模型
    11个月前
    02980
    新型视频生成技术Magic 1-For-1:通过优化内存消耗和推理延迟,快速生成高质量的视频内容

    新型视频生成技术Magic 1-For-1:通过优化内存消耗和推理延迟,快速生成高质量的视频内容

    北京大学、Hedra和英伟达的研究人员推出新型视频生成技术Magic 1-For-1 ,通过将复杂的文本到视频(T2V)生成任务分解为两个更简单的子任务:文本到图像(T2I)生成和图像到视频( I2V...
    视频模型# Magic 1-For-1# 视频生成
    11个月前
    02240
    Zyphra开源支持高保真语音克隆的实时文本转语音(TTS)模型 Zonos-v0.1 测试版

    Zyphra开源支持高保真语音克隆的实时文本转语音(TTS)模型 Zonos-v0.1 测试版

    Zyphra 最近发布了 Zonos-v0.1 测试版,这是一款支持高保真语音克隆的实时文本转语音(TTS)模型。作为开源项目的一部分,Zonos-v0.1 包含两个强大的 TTS 模型:一个 16 ...
    语音模型# TTS模型# Zonos-v0.1
    11个月前
    02420
    通义实验室推出基于指令的图像生成和编辑框架ACE++:基于FLUX.1-dev模型,实现多种图像生成和编辑任务

    通义实验室推出基于指令的图像生成和编辑框架ACE++:基于FLUX.1-dev模型,实现多种图像生成和编辑任务

    阿里巴巴通义实验室推出基于指令的图像生成和编辑框架ACE++,这是之前介绍过的新型多模态生成模型ACE升级版,ACE++ 通过改进的长上下文条件单元(LCU++)和两阶段训练方案,能够高效地利用预训练...
    图像模型# ACE# FLUX.1-dev# 图像生成
    11个月前
    03480
    加载更多
    SD百科导航
    SD百科导航是专注于AI创作领域的专业导航网站。我们全面涵盖Stable Diffusion、Flux、AI绘画、AI视频、AI音乐以及大语言模型等前沿内容。

    关于我们网址提交友链申请广告合作

    扫码关注微信公众号SD百科导航
    扫码关注微信公众号
    Copyright © 2026 SD百科导航 皖ICP备18025588号-5  皖公网安备34040002000401 
    网址
    网址文章软件模型

    网址

    日榜周榜月榜
    人生 K 线

    人生 K 线

    人生 K 线(Life Destiny K-Line)是一个结合传统八字命理与现代大语言模型(LLM)的轻量级可视化工具。它将一个人从 1 岁到 100 岁的运势走势,以类似股票 K 线图的形式呈现,试图用数据可视化的方式“翻译”命理推演结果。
    Fogsight (雾象)

    Fogsight (雾象)

    雾象是一款由大语言模型(LLM)驱动的动画引擎 agent 。用户输入抽象概念或词语,雾象会将其转化为高水平的生动动画。
    互联网大厂模拟器

    互联网大厂模拟器

    《互联网大厂模拟器》或许不会改变现实,但它提供了一个出口:在虚拟世界里,我们可以安全地体验“另一种职场人生”,然后笑着关掉页面,继续面对明天的站会。
    Moonvalley

    Moonvalley

    洛杉矶初创公司 Moonvalley 发布了一款名为“Marey”的 AI 视频生成模型。Marey 使用“自有或完全许可”的源数据进行训练,并提供精细的相机和运动控制等定制选项。
    NOFX

    NOFX

    NOFX是一个基于 DeepSeek/Qwen AI 的加密货币期货自动交易系统,支持 Binance、Hyperliquid和Aster DEX交易所,多AI模型实盘竞赛,具备完整的市场分析、AI决策、自我学习机制和专业的Web监控界面。
     Fizzy

     Fizzy

    Fizzy是一款开源看板应用,旨在为管理 Bug、问题、想法和小型项目等任务提供现代化体验。Fizzy 被设计为 Trello、Jira 和 Asana 等常见工具的快速、直观替代品,强调简洁性和充满活力的用户界面。
    查看完整榜单