SD百科导航
  • 首页
  • 快讯
  • 早报
  • 模型
  • ComfyUI
  • 新技术
  • 百科
    • 教程
    • 硬件
    • 科普
  • 百科工具
    • 工具
  • 知识库
  • 排行榜
  • 网址提交
    • 首页
    • 快讯
    • 早报
    • 模型
    • ComfyUI
    • 新技术
    • 百科
      • 教程
      • 硬件
      • 科普
    • 百科工具
      • 工具
    • 知识库
    • 排行榜
    • 网址提交

    模型

    共 1046 篇文章
    百科工具模型ComfyUIAI合集web UI提示词
    大语言模型多模态模型图像模型语音模型3D模型Flux衍生视频模型
    排序
    发布更新浏览点赞
    Lightricks发布LTX-2:首个基于 DiT 的开源音视频基础模型

    新Lightricks发布LTX-2:首个基于 DiT 的开源音视频基础模型

    Lightricks发布了首个基于 Diffusion Transformer(DiT) 架构的开源音视频联合生成模型LTX-2。它在一个统一框架中集成了现代视频生成的核心能力:同步的音频与视频输出...
    视频模型# Lightricks# LTX-2# 音视频模型
    4小时前
    020
    九坤至知开源代码大模型IQuest‑Coder‑V1:Code‑Flow训练+双路径优化,40B模型重塑代码大模型性能边界

    九坤至知开源代码大模型IQuest‑Coder‑V1:Code‑Flow训练+双路径优化,40B模型重塑代码大模型性能边界

    2026年初,量化基金公司九坤旗下至知创新研究院正式开源IQuest‑Coder‑V1系列代码大模型,涵盖7B、14B、40B、40B‑Loop等版本,专注软件工程与竞赛编程场景,目前已释出40B模型...
    大语言模型# IQuest‑Coder‑V1# 九坤# 代码大模型
    5天前
    0700
    阿里发布文生图模型Qwen-Image-2512:人像、纹理、文字渲染显著提升

    阿里发布文生图模型Qwen-Image-2512:人像、纹理、文字渲染显著提升

    2025 年 12 月 31 日,阿里 Qwen 项目组发布了 Qwen-Image-2512 —— Qwen-Image 文生图基础模型的最新版本。这是继今年 8 月首次开源 Qwen-Image ...
    图像模型# Qwen-Image-2512# 文生图模型
    6天前
    0160
    Yume1.5:用一张图或一段文字,生成可实时探索的虚拟世界

    Yume1.5:用一张图或一段文字,生成可实时探索的虚拟世界

    想象一下:你上传一张街景照片,或输入一句描述——“一个穿风衣的男人走在雨夜的东京街头,霓虹灯闪烁,远处有全息广告”——模型随即生成一个可自由行走、视角可调、事件可触发的动态 3D 世界。你用键盘控制角...
    多模态模型# Yume1.5# 世界模型
    1周前
    0150
    1步顶100步!TwinFlow让Qwen-Image、Z-Image推理提速100倍,无需判别器或教师模型

    1步顶100步!TwinFlow让Qwen-Image、Z-Image推理提速100倍,无需判别器或教师模型

    当前,大规模多模态生成模型(如 Qwen-Image、Z-Image)在图像与视频生成上展现出惊人能力,但其推理效率仍严重受限——标准扩散或流匹配模型通常需 40–100 次函数评估(NFE)才能生成...
    图像模型# TwinFlow# TwinFlow-Qwen-Image# TwinFlow-Z-Image-Turbo
    1周前
    0410
    fal 发布FLUX.2 Turbo:开源图像模型速度提升6倍,成本降至0.008美元/图

    fal 发布FLUX.2 Turbo:开源图像模型速度提升6倍,成本降至0.008美元/图

    在完成 1.4 亿美元 D 轮融资后,AI 媒体基础设施平台 fal.ai(简称 fal)于年末推出其最新成果:FLUX.2 [dev] Turbo —— 一款基于 Black Forest Labs...
    图像模型# FLUX.2 Turbo
    1周前
    0340
    告别 “改不动”!ProEdit:反转编辑新方案,精准修改图像属性,即插即用超 SOTA

    告别 “改不动”!ProEdit:反转编辑新方案,精准修改图像属性,即插即用超 SOTA

    解决源图像信息过度注入问题,实现更可控的图像与视频编辑 由中山大学、香港中文大学、香港大学与南洋理工大学联合提出,ProEdit 是一种高精度、即插即用的基于反转(inversion-based)的视...
    图像模型# ProEdit# 编辑图像
    1周前
    0350
    阿里通义开源 MAI-UI:32B 模型 GUI 定位超 Gemini-3-Pro,端云协同重构智能体交互

    阿里通义开源 MAI-UI:32B 模型 GUI 定位超 Gemini-3-Pro,端云协同重构智能体交互

    阿里通义实验室近日开源 MAI-UI —— 一个面向真实世界部署的 通用 GUI(图形用户界面)智能体基座模型系列,涵盖 2B、8B、32B 和 235B-A22B 四种规模。其 32B 版本在 Sc...
    多模态模型# MAI-UI# 通用 GUI模型
    1周前
    0280
    Stable Video Infinity(SVI)发布 2.0 Pro:基于错误回收机制的无限长视频生成模型

    Stable Video Infinity(SVI)发布 2.0 Pro:基于错误回收机制的无限长视频生成模型

    洛桑联邦理工学院(EPFL)的研究团队推出 Stable Video Infinity(SVI) ——一款能够生成任意长度视频的人工智能模型。它通过一项名为 “错误回收微调(Error-Recycli...
    视频模型# Stable Video Infinity
    1周前
    0520
    StoryMem:基于Wan2.2的新框架,用“视觉记忆”生成连贯的多镜头长视频

    StoryMem:基于Wan2.2的新框架,用“视觉记忆”生成连贯的多镜头长视频

    生成一段包含多个镜头、角色一致、场景连贯、时长达一分钟的叙事视频,是当前视频生成模型的重大挑战。主流方法要么局限于单镜头,要么在跨镜头切换时出现角色崩坏、场景断裂等问题。 由南洋理工大学与字节跳动联合...
    视频模型# StoryMem# Wan2.2
    1周前
    0120
    VideoRAG:用知识图谱和多模态检索让大模型理解多小时视频

    VideoRAG:用知识图谱和多模态检索让大模型理解多小时视频

    当前的大语言模型(LLMs)在处理短视频时已表现出强大能力,但面对数小时甚至跨集的长视频(如讲座系列、纪录片、剧集),它们往往力不从心——上下文窗口有限、计算成本高、跨场景语义断裂。 GitHub:h...
    多模态模型# VideoRAG# 多模态检索# 知识图谱
    1周前
    0120
    OmniVCus:用多模态控制信号实现前馈式主题驱动视频定制

    OmniVCus:用多模态控制信号实现前馈式主题驱动视频定制

    在视频生成领域,一个长期挑战是:如何让用户通过简单指令(如文本、草图或相机轨迹),灵活定制视频中一个或多个主体的外观、动作与空间关系? 由约翰·霍普金斯大学、Adobe 研究院、香港大学、香港中文大学...
    视频模型# OmniVCus# 视频
    2周前
    0170
    加载更多
    SD百科导航
    SD百科导航是专注于AI创作领域的专业导航网站。我们全面涵盖Stable Diffusion、Flux、AI绘画、AI视频、AI音乐以及大语言模型等前沿内容。

    关于我们网址提交友链申请广告合作

    扫码关注微信公众号SD百科导航
    扫码关注微信公众号
    Copyright © 2026 SD百科导航 皖ICP备18025588号-5  皖公网安备34040002000401 
    网址
    网址文章软件模型

    网址

    日榜周榜月榜
    Fogsight (雾象)

    Fogsight (雾象)

    雾象是一款由大语言模型(LLM)驱动的动画引擎 agent 。用户输入抽象概念或词语,雾象会将其转化为高水平的生动动画。
    人生 K 线

    人生 K 线

    人生 K 线(Life Destiny K-Line)是一个结合传统八字命理与现代大语言模型(LLM)的轻量级可视化工具。它将一个人从 1 岁到 100 岁的运势走势,以类似股票 K 线图的形式呈现,试图用数据可视化的方式“翻译”命理推演结果。
    MemU

    MemU

    MemU 是一个开源的 AI 伴侣记忆框架,具有高准确性、快速检索和低成本的特点。它作为一个智能的“记忆文件夹”,能够适应不同的 AI 伴侣应用场景。通过 MemU,你可以构建真正记住你的 AI 伴侣。它们能够学习你的身份、关注点,并在每次互动中与你共同成长。
    NotebookLM

    NotebookLM

    NotebookLM是谷歌推出的一款个性化AI协作工具,旨在帮助用户更高效地进行信息整理和笔记记录。利用强大的语言模型帮助用户更快地从各种文本、图像以及网页中提取主要信息。
    Grok

    Grok

    Grok是一款先进的对话式人工智能。Grok 旨在提供高效、准确且自然的对话交互体验,适用于多种应用场景,包括客户服务、虚拟助手、教育辅导等。
    Midjourney

    Midjourney

    Midjourney是目前最强的AI绘画工具,输入提示词即可通过AI算法生成相对应的图片,只需要不到一分钟。对于新用户,官方提供一段时间的免费试用,用户可以直接通过谷歌账号注册体验。
    查看完整榜单