SD百科导航
  • 首页
  • 快讯
  • 早报
  • 模型
  • ComfyUI
  • 新技术
  • 百科
    • 教程
    • 硬件
    • 科普
  • 百科工具
    • 工具
  • 排行榜
  • 网址提交
    • 首页
    • 快讯
    • 早报
    • 模型
    • ComfyUI
    • 新技术
    • 百科
      • 教程
      • 硬件
      • 科普
    • 百科工具
      • 工具
    • 排行榜
    • 网址提交

    模型

    共 1082 篇文章
    百科工具模型ComfyUIAI合集web UI提示词
    大语言模型多模态模型图像模型语音模型3D模型Flux衍生视频模型世界模型
    排序
    发布更新浏览点赞
    Lightricks发布LTX-2:首个基于 DiT 的开源音视频基础模型

    Lightricks发布LTX-2:首个基于 DiT 的开源音视频基础模型

    Lightricks发布了首个基于 Diffusion Transformer(DiT) 架构的开源音视频联合生成模型LTX-2。它在一个统一框架中集成了现代视频生成的核心能力:同步的音频与视频输出...
    视频模型# Lightricks# LTX-2# 音视频模型
    3周前
    0170
    九坤至知开源代码大模型IQuest‑Coder‑V1:Code‑Flow训练+双路径优化,40B模型重塑代码大模型性能边界

    九坤至知开源代码大模型IQuest‑Coder‑V1:Code‑Flow训练+双路径优化,40B模型重塑代码大模型性能边界

    2026年初,量化基金公司九坤旗下至知创新研究院正式开源IQuest‑Coder‑V1系列代码大模型,涵盖7B、14B、40B、40B‑Loop等版本,专注软件工程与竞赛编程场景,目前已释出40B模型...
    大语言模型# IQuest‑Coder‑V1# 九坤# 代码大模型
    4周前
    01150
    阿里发布文生图模型Qwen-Image-2512:人像、纹理、文字渲染显著提升

    阿里发布文生图模型Qwen-Image-2512:人像、纹理、文字渲染显著提升

    2025 年 12 月 31 日,阿里 Qwen 项目组发布了 Qwen-Image-2512 —— Qwen-Image 文生图基础模型的最新版本。这是继今年 8 月首次开源 Qwen-Image ...
    图像模型# Qwen-Image-2512# 文生图模型
    1个月前
    0310
    Yume1.5:用一张图或一段文字,生成可实时探索的虚拟世界

    Yume1.5:用一张图或一段文字,生成可实时探索的虚拟世界

    想象一下:你上传一张街景照片,或输入一句描述——“一个穿风衣的男人走在雨夜的东京街头,霓虹灯闪烁,远处有全息广告”——模型随即生成一个可自由行走、视角可调、事件可触发的动态 3D 世界。你用键盘控制角...
    多模态模型# Yume1.5# 世界模型
    1个月前
    0210
    1步顶100步!TwinFlow让Qwen-Image、Z-Image推理提速100倍,无需判别器或教师模型

    1步顶100步!TwinFlow让Qwen-Image、Z-Image推理提速100倍,无需判别器或教师模型

    当前,大规模多模态生成模型(如 Qwen-Image、Z-Image)在图像与视频生成上展现出惊人能力,但其推理效率仍严重受限——标准扩散或流匹配模型通常需 40–100 次函数评估(NFE)才能生成...
    图像模型# TwinFlow# TwinFlow-Qwen-Image# TwinFlow-Z-Image-Turbo
    1个月前
    0910
    fal 发布FLUX.2 Turbo:开源图像模型速度提升6倍,成本降至0.008美元/图

    fal 发布FLUX.2 Turbo:开源图像模型速度提升6倍,成本降至0.008美元/图

    在完成 1.4 亿美元 D 轮融资后,AI 媒体基础设施平台 fal.ai(简称 fal)于年末推出其最新成果:FLUX.2 [dev] Turbo —— 一款基于 Black Forest Labs...
    图像模型# FLUX.2 Turbo
    1个月前
    0770
    告别 “改不动”!ProEdit:反转编辑新方案,精准修改图像属性,即插即用超 SOTA

    告别 “改不动”!ProEdit:反转编辑新方案,精准修改图像属性,即插即用超 SOTA

    解决源图像信息过度注入问题,实现更可控的图像与视频编辑 由中山大学、香港中文大学、香港大学与南洋理工大学联合提出,ProEdit 是一种高精度、即插即用的基于反转(inversion-based)的视...
    图像模型# ProEdit# 编辑图像
    1个月前
    0620
    阿里通义开源 MAI-UI:32B 模型 GUI 定位超 Gemini-3-Pro,端云协同重构智能体交互

    阿里通义开源 MAI-UI:32B 模型 GUI 定位超 Gemini-3-Pro,端云协同重构智能体交互

    阿里通义实验室近日开源 MAI-UI —— 一个面向真实世界部署的 通用 GUI(图形用户界面)智能体基座模型系列,涵盖 2B、8B、32B 和 235B-A22B 四种规模。其 32B 版本在 Sc...
    多模态模型# MAI-UI# 通用 GUI模型
    1个月前
    0410
    Stable Video Infinity(SVI)发布 2.0 Pro:基于错误回收机制的无限长视频生成模型

    Stable Video Infinity(SVI)发布 2.0 Pro:基于错误回收机制的无限长视频生成模型

    洛桑联邦理工学院(EPFL)的研究团队推出 Stable Video Infinity(SVI) ——一款能够生成任意长度视频的人工智能模型。它通过一项名为 “错误回收微调(Error-Recycli...
    视频模型# Stable Video Infinity
    1个月前
    0890
    StoryMem:基于Wan2.2的新框架,用“视觉记忆”生成连贯的多镜头长视频

    StoryMem:基于Wan2.2的新框架,用“视觉记忆”生成连贯的多镜头长视频

    生成一段包含多个镜头、角色一致、场景连贯、时长达一分钟的叙事视频,是当前视频生成模型的重大挑战。主流方法要么局限于单镜头,要么在跨镜头切换时出现角色崩坏、场景断裂等问题。 由南洋理工大学与字节跳动联合...
    视频模型# StoryMem# Wan2.2
    1个月前
    0270
    VideoRAG:用知识图谱和多模态检索让大模型理解多小时视频

    VideoRAG:用知识图谱和多模态检索让大模型理解多小时视频

    当前的大语言模型(LLMs)在处理短视频时已表现出强大能力,但面对数小时甚至跨集的长视频(如讲座系列、纪录片、剧集),它们往往力不从心——上下文窗口有限、计算成本高、跨场景语义断裂。 GitHub:h...
    多模态模型# VideoRAG# 多模态检索# 知识图谱
    1个月前
    0170
    OmniVCus:用多模态控制信号实现前馈式主题驱动视频定制

    OmniVCus:用多模态控制信号实现前馈式主题驱动视频定制

    在视频生成领域,一个长期挑战是:如何让用户通过简单指令(如文本、草图或相机轨迹),灵活定制视频中一个或多个主体的外观、动作与空间关系? 由约翰·霍普金斯大学、Adobe 研究院、香港大学、香港中文大学...
    视频模型# OmniVCus# 视频
    1个月前
    0210
    加载更多
    SD百科导航
    SD百科导航是专注于AI创作领域的专业导航网站。我们全面涵盖Stable Diffusion、Flux、AI绘画、AI视频、AI音乐以及大语言模型等前沿内容。

    关于我们网址提交友链申请广告合作

    扫码关注微信公众号SD百科导航
    扫码关注微信公众号
    Copyright © 2026 SD百科导航 皖ICP备18025588号-5  皖公网安备34040002000401 
    网址
    网址文章软件模型

    网址

    日榜周榜月榜
    Clawdbot/Moltbot

    Clawdbot/Moltbot

    Clawdbot 是一款可在您自己的设备上运行的个人 AI 助手。它在您已使用的渠道(WhatsApp、Telegram、Slack、Discord、Google Chat、Signal、iMessage、Microsoft Teams、WebChat)以及扩展渠道(如 BlueBubbles、Matrix、Zalo 和 Zalo Personal)上为您提供应答。它可以在 macOS/iOS/Android 上进行语音交谈,并能渲染一个您可控制的实时画布。网关仅是控制平面——核心产品是助手本身。
    Higgsfield AI

    Higgsfield AI

    Higgsfield AI平台支持文生图和图生视频,近期对图生视频功能进行了全面升级,专为追求高质量、风格化内容创作并渴望真正电影级操控的创意人士打造——无论是MV导演、商业片制作人、AI创作者,还是社交媒体叙事者。
    Situation Monitor

    Situation Monitor

    Situation Monitor 是由开发者 Reggie James 创建的一个免费、开源的全球风险监测平台。它通过一张交互式地图,实时整合并可视化全球范围内的关键地缘政治与安全信息,帮助用户快速掌握潜在冲突热点和战略动态。
    Fogsight (雾象)

    Fogsight (雾象)

    雾象是一款由大语言模型(LLM)驱动的动画引擎 agent 。用户输入抽象概念或词语,雾象会将其转化为高水平的生动动画。
    CivitAI

    CivitAI

    CivitAI是一个AI图像及视频模型托管平台,主要聚焦于 AI 生成的图像、视频和模型。它为用户提供了一个空间,可以上传、分享和发现由特定数据集训练的自定义 AI 模型,这些模型可用于生成独特的内容,如图像、视频。
    打滑作业平台

    打滑作业平台

    “打滑作业”是一个面向学生和自学者的开源工具,帮助用户快速理解题目、获取答案,从而节省时间,把精力投入到更重要的兴趣与生活中。
    查看完整榜单