SD百科导航
  • 首页
  • 快讯
  • 早报
  • 模型
  • ComfyUI
  • 新技术
  • 百科
    • 教程
    • 硬件
    • 科普
  • 百科工具
    • 工具
  • 排行榜
  • 网址提交
    • 首页
    • 快讯
    • 早报
    • 模型
    • ComfyUI
    • 新技术
    • 百科
      • 教程
      • 硬件
      • 科普
    • 百科工具
      • 工具
    • 排行榜
    • 网址提交

    模型

    共 1181 篇文章
    百科工具模型ComfyUIAI合集web UI提示词
    大语言模型多模态模型图像模型语音模型3D模型Flux衍生视频模型世界模型
    排序
    发布更新浏览点赞
    StoryMem:基于Wan2.2的新框架,用“视觉记忆”生成连贯的多镜头长视频

    StoryMem:基于Wan2.2的新框架,用“视觉记忆”生成连贯的多镜头长视频

    生成一段包含多个镜头、角色一致、场景连贯、时长达一分钟的叙事视频,是当前视频生成模型的重大挑战。主流方法要么局限于单镜头,要么在跨镜头切换时出现角色崩坏、场景断裂等问题。 由南洋理工大学与字节跳动联合...
    视频模型# StoryMem# Wan2.2
    3个月前
    0740
    VideoRAG:用知识图谱和多模态检索让大模型理解多小时视频

    VideoRAG:用知识图谱和多模态检索让大模型理解多小时视频

    当前的大语言模型(LLMs)在处理短视频时已表现出强大能力,但面对数小时甚至跨集的长视频(如讲座系列、纪录片、剧集),它们往往力不从心——上下文窗口有限、计算成本高、跨场景语义断裂。 GitHub:h...
    多模态模型# VideoRAG# 多模态检索# 知识图谱
    3个月前
    0450
    OmniVCus:用多模态控制信号实现前馈式主题驱动视频定制

    OmniVCus:用多模态控制信号实现前馈式主题驱动视频定制

    在视频生成领域,一个长期挑战是:如何让用户通过简单指令(如文本、草图或相机轨迹),灵活定制视频中一个或多个主体的外观、动作与空间关系? 由约翰·霍普金斯大学、Adobe 研究院、香港大学、香港中文大学...
    视频模型# OmniVCus# 视频
    3个月前
    0280
    MiniMax 发布 MiniMax-M2.1::更智能、更高效、支持多语言的编码与智能体模型

    MiniMax 发布 MiniMax-M2.1::更智能、更高效、支持多语言的编码与智能体模型

    在推出专为智能体和代码任务设计的 M2 模型仅数月后,MiniMax 正式发布其增强版本 —— M2.1。 M2 本就以极低成本(约为 Claude Sonnet 的 8%)和高推理速度著称,更引入了...
    大语言模型# M2.1# MiniMax# MiniMax-M2.1:
    3个月前
    0360
    Liquid AI 发布 LFM2-2.6B-Exp:小模型大性能,指令遵循能力超越百倍规模对手

    Liquid AI 发布 LFM2-2.6B-Exp:小模型大性能,指令遵循能力超越百倍规模对手

    Liquid AI 正式推出 LFM2-2.6B-Exp —— 一个基于纯强化学习(RL)训练的实验性语言模型。它在指令遵循、常识推理和数学任务上表现突出,尤其值得注意的是:其 IFBench 评测分...
    大语言模型# LFM2-2.6B-Exp# Liquid AI
    3个月前
    0400
    通义百聆发布 Fun-Audio-Chat:8B 端到端语音模型,延迟更低、效率更高

    通义百聆发布 Fun-Audio-Chat:8B 端到端语音模型,延迟更低、效率更高

    通义实验室旗下语音团队 通义百聆(Tongyi Bailin)正式推出 Fun-Audio-Chat —— 一款专为自然、低延迟语音交互设计的端到端大型音频语言模型(Audio Language Mo...
    语音模型# Fun-Audio-Chat# 通义百聆
    3个月前
    0280
    阿里通义实验室发布Qwen-Image-Edit-2511:显著提升人物一致性与工业设计能力,支持 LoRA 集成与多图融合

    阿里通义实验室发布Qwen-Image-Edit-2511:显著提升人物一致性与工业设计能力,支持 LoRA 集成与多图融合

    阿里通义实验室 Qwen 项目组正式发布 Qwen-Image-Edit-2511,这是继 9 月发布的 Qwen-Image-Edit-2509 后的增强版本。从版本号“2511”可见,该模型原计划...
    图像模型# Qwen-Image-Edit-2511# 图像编辑模型
    3个月前
    01800
    智谱AI发布GLM-4.7:聚焦编程、工具使用与多轮推理

    智谱AI发布GLM-4.7:聚焦编程、工具使用与多轮推理

    智谱AI最新发布的 GLM-4.7 在多个关键维度实现突破,特别是在开发者关注的编程、工具调用与复杂推理能力上,带来可观的性能提升。本文将系统梳理 GLM-4.7 的主要改进,并说明如何快速接入与使用...
    大语言模型# GLM-4.7# 智谱AI
    3个月前
    0410
    英伟达发布 Nemotron 3 系列:30B Nano 即用,Super/Ultra 2026 年登场

    英伟达发布 Nemotron 3 系列:30B Nano 即用,Super/Ultra 2026 年登场

    英伟达正式推出 Nemotron 3 开源模型系列,聚焦多智能体协作场景,包含 Nano、Super、Ultra 三个版本,覆盖从轻量推理到超大规模智能体系统的全栈需求。 模型:https://hug...
    大语言模型# Nemotron 3# 英伟达
    3个月前
    0340
    图宾根大学提出3D-RE-GEN:从单张照片生成可编辑的完整3D室内场景

    图宾根大学提出3D-RE-GEN:从单张照片生成可编辑的完整3D室内场景

    只需一张室内照片——哪怕家具相互遮挡、背景杂乱——就能重建出带纹理、可单独编辑、空间对齐正确的完整3D场景?图宾根大学的研究团队提出的 3D-RE-GEN 框架,正在将这一目标推向实用化。 项目主页...
    3D模型# 3D-RE-GEN
    3个月前
    0560
    TurboDiffusion:视频扩散模型提速 100–200 倍,质量几乎无损

    TurboDiffusion:视频扩散模型提速 100–200 倍,质量几乎无损

    视频扩散模型虽能生成高质量内容,但其缓慢的推理速度长期制约实际应用。近日,清华大学、生数科技与加州大学伯克利分校联合提出 TurboDiffusion——一个端到端视频生成加速框架,在单张 RTX 5...
    视频模型# TurboDiffusion# Wan2.2
    3个月前
    0320
    苹果提出 SHARPA:单图生成 3D 高斯模型,实现秒级实时视图合成

    苹果提出 SHARPA:单图生成 3D 高斯模型,实现秒级实时视图合成

    苹果近期提出 SHARPA(Single-image High-Accuracy Real-time Parallax),一种从单张 RGB 图像生成高保真、可交互 3D 场景的新方法。该技术通过神经...
    3D模型# 3D 高斯模型# SHARPA
    3个月前
    01010
    加载更多
    SD百科导航
    SD百科导航是专注于AI创作领域的专业导航网站。我们全面涵盖Stable Diffusion、Flux、AI绘画、AI视频、AI音乐以及大语言模型等前沿内容。

    关于我们网址提交友链申请广告合作

    扫码关注微信公众号SD百科导航
    扫码关注微信公众号
    Copyright © 2026 SD百科导航 皖ICP备18025588号-5  皖公网安备34040002000401 
    网址
    网址文章软件模型

    网址

    日榜周榜月榜
    S.H.I.T

    S.H.I.T

    在主流学术界为顶刊版面、高影响因子和“非升即走”的考核指标疯狂内卷之时,一场名为“学术垃圾”的反叛运动正在角落里悄然兴起。一群“想开了”的硕博研究生和青年学者(青椒),不再试图迎合传统的学术评价体系,而是隆重推出了一系列名字惊世骇俗的“旗舰”期刊——《SHIT》、《Notrue》、《Silence》、《Crazy》。
    悟空

    新悟空

    阿里巴巴发布全球首个企业级AI原生工作平台——“悟空”,让每个团队、每家公司,都能拥有一支24h工作的“龙虾军团”。悟空是一款独立应用,即日起开启邀测,也将直接内置到超2000万企业组织的钉钉之中。
    ArkClaw

    ArkClaw

    字节旗下火山引擎正式上线 ArkClaw, 开箱即用的云上 SaaS 版 OpenClaw。无需任何复杂配置,打开网页即可使用 7×24 小时在线的 AI 助手。
    Joker of Academics(小丑学术期刊 )

    Joker of Academics(小丑学术期刊 )

    Joker 🤡 of Academics(小丑学术期刊 ) 是一本完全经过同行评审的开放获取期刊,致力于严肃研究非严肃的学术成果。我们发表敢于风趣的严谨研究、不知何故居然行得通的荒诞主义方法论,以及应用于可能并不需要它的领域的批判理论。
    360 安全龙虾

    新360 安全龙虾

    60安全龙虾目前已接入16家国内主流大模型,覆盖文本生成、编程开发、多模态创作等多种能力。同时内置100余个高频技能,可直接用于文档生成、数据分析、PPT制作、会议转写等常见办公场景。
    QClaw

    QClaw

    腾讯推出QClaw ,这是基于 OpenClaw 进行深度产品化封装的“官方一键安装包”。它的目标非常明确:让强大的 AI Agent 能力,像安装普通软件一样简单,并直接融入中国人的国民级应用——微信和 QQ。
    查看完整榜单