SD百科导航
  • 首页
  • 快讯
  • 早报
  • 模型
  • ComfyUI
  • 新技术
  • 百科
    • 教程
    • 硬件
    • 科普
  • 百科工具
    • 工具
  • 排行榜
  • 网址提交
    • 首页
    • 快讯
    • 早报
    • 模型
    • ComfyUI
    • 新技术
    • 百科
      • 教程
      • 硬件
      • 科普
    • 百科工具
      • 工具
    • 排行榜
    • 网址提交

    模型

    共 1136 篇文章
    百科工具模型ComfyUIAI合集web UI提示词
    大语言模型多模态模型图像模型语音模型3D模型Flux衍生视频模型世界模型
    排序
    发布更新浏览点赞
    英伟达推出NitroGen:基于人类游戏视频的通用视觉-动作基础模型

    英伟达推出NitroGen:基于人类游戏视频的通用视觉-动作基础模型

    NitroGen 是由英伟达开发的开放性具身智能基础模型(foundation model for embodied agents),旨在通过观察人类玩家的游戏视频,直接学习从原始画面到手柄动作的映射...
    视频模型# NitroGen# 英伟达
    2个月前
    0700
    港科大与阿里推出Qwen-Image-Layered:将单图分解为可编辑RGBA图层,实现像素级精准编辑

    港科大与阿里推出Qwen-Image-Layered:将单图分解为可编辑RGBA图层,实现像素级精准编辑

    在传统图像编辑中,若想修改照片中的某个物体(如移动人物、更换背景、调整颜色),往往需要复杂的抠图、蒙版或手动重绘——操作繁琐,且容易破坏整体一致性。 由香港科技大学(广州)、阿里巴巴与香港科技大学联合...
    图像模型# Qwen-Image-Layered# RGBA图层# 编辑模型
    2个月前
    01320
    FlashPortrait:端到端生成无限长度肖像动画,6倍加速且身份一致

    FlashPortrait:端到端生成无限长度肖像动画,6倍加速且身份一致

    在肖像动画(Portrait Animation)任务中,身份一致性与推理效率是两大长期瓶颈。现有扩散模型即便能生成逼真短片,也常在长序列中出现身份漂移、颜色偏移或动作断裂,且生成速度慢,难以用于实际...
    视频模型# FlashPortrait# 肖像动画
    2个月前
    0720
    美团 LongCat 发布统一音频驱动视频模型LongCat-Video-Avatar:支持长视频、多模态输入与多人物动画

    美团 LongCat 发布统一音频驱动视频模型LongCat-Video-Avatar:支持长视频、多模态输入与多人物动画

    音频驱动的人类视频合成(Audio-Driven Talking Head)近年来在唇形同步和画面逼真度上取得显著进展。但生成长时间、高动态、身份一致的视频仍是行业难题:现有方法要么在长序列中出现身份...
    视频模型# LongCat-Video-Avatar# 美团
    2个月前
    0410
    PersonaLive:基于扩散模型的实时肖像动画系统,延迟仅0.25秒

    PersonaLive:基于扩散模型的实时肖像动画系统,延迟仅0.25秒

    在数字人、虚拟主播和直播场景中,高质量、低延迟、身份一致的肖像动画是核心需求。然而,主流扩散模型虽能生成逼真画面,却因高计算成本与多步去噪,难以满足实时交互要求——生成一段3秒视频往往需要数十秒,远不...
    视频模型# PersonaLive# 肖像动画
    2个月前
    0190
    MoLingo:通过语义对齐潜在空间实现高保真文本到动作生成

    MoLingo:通过语义对齐潜在空间实现高保真文本到动作生成

    在虚拟角色动画、VR/AR交互和智能体控制中,如何让AI根据一句自然语言(如“一个人正在跳华尔兹”)生成逼真、连贯且语义一致的人体动作,一直是核心挑战。传统方法要么动作生硬,要么与文本描述脱节,难以兼...
    视频模型# MoLingo# 动作生成
    2个月前
    0590
    Meta发布SAM Audio:首个支持文本、视觉、时间提示的统一音频分离模型

    Meta发布SAM Audio:首个支持文本、视觉、时间提示的统一音频分离模型

    在图像领域,Meta 的 Segment Anything Model (SAM) 通过“任意分割”能力,彻底改变了计算机视觉的交互范式。如今,这一理念正式延伸至音频领域。 Meta 正式发布 SAM...
    语音模型# Meta# SAM Audio# 音频分离模型
    2个月前
    0910
    清华与微软推出 TRELLIS.2:单图生成带透明材质的 3D 资产

    清华与微软推出 TRELLIS.2:单图生成带透明材质的 3D 资产

    由清华大学、微软研究院与中国科学技术大学联合推出,TRELLIS.2 是一个参数量达 40 亿 的先进 3D 生成模型,专为从单张图像生成带完整 PBR 材质的高分辨率 3D 资产而设计。 项目主页...
    3D模型# 3D模型# TRELLIS.2
    2个月前
    0610
    HY-World 1.5:腾讯混元实时交互式 3D 建模框架,24FPS + 几何一致性双突

    HY-World 1.5:腾讯混元实时交互式 3D 建模框架,24FPS + 几何一致性双突

    腾讯混元团队推出的HY-World 1.5,凭借核心模块WorldPlay流式视频扩散模型,成功打破了现有3D世界生成模型“实时交互”与“长期几何一致性”不可兼得的技术瓶颈,实现了24 FPS的实时流...
    3D模型# HY-World 1.5# 腾讯
    2个月前
    0800
    面壁智能发布 VoxCPM1.5:6.25Hz 标记率降低计算开销,支持高质量声音克隆

    面壁智能发布 VoxCPM1.5:6.25Hz 标记率降低计算开销,支持高质量声音克隆

    2025 年 12 月 5 日,面壁智能正式发布 VoxCPM1.5 模型权重。作为 VoxCPM 系列的重大升级版本,它在保留上下文感知语音生成与零样本声音克隆能力的基础上,通过两项关键技术改进,显...
    语音模型# VoxCPM1.5# 面壁智能
    2个月前
    0260
    Dolphin-v2:字节跳动发布支持21类元素的通用文档解析模型

    Dolphin-v2:字节跳动发布支持21类元素的通用文档解析模型

    在办公自动化、知识管理与智能体工作流中,将非结构化文档转化为结构化数据是关键第一步。然而,现实中的文档来源复杂:既有干净的 PDF、Word,也有手机拍摄的带畸变、阴影、模糊的纸质文件。现有解析模型往...
    多模态模型# Dolphin-v2# 字节跳动# 文档解析模型
    2个月前
    01190
    智谱AI发布 Kaleido:通过多参考图像生成主体一致视频的 S2V 框架

    智谱AI发布 Kaleido:通过多参考图像生成主体一致视频的 S2V 框架

    在主体到视频(Subject-to-Video, S2V)生成任务中,目标是根据用户提供的多张目标主体参考图像和文本提示,合成一段主体身份一致、动作自然、背景可控的视频。尽管近期 S2V 模型取得进展...
    视频模型# Kaleido# 智谱AI
    2个月前
    0490
    加载更多
    SD百科导航
    SD百科导航是专注于AI创作领域的专业导航网站。我们全面涵盖Stable Diffusion、Flux、AI绘画、AI视频、AI音乐以及大语言模型等前沿内容。

    关于我们网址提交友链申请广告合作

    扫码关注微信公众号SD百科导航
    扫码关注微信公众号
    Copyright © 2026 SD百科导航 皖ICP备18025588号-5  皖公网安备34040002000401 
    网址
    网址文章软件模型

    网址

    日榜周榜月榜
    A股智能分析系统

    A股智能分析系统

    A股智能分析系统是基于 AI 大模型的 A 股自选股智能分析系统,每日自动分析并推送「决策仪表盘」到企业微信/飞书/Telegram/邮箱
    OpenClaw

    OpenClaw

    OpenClaw 是一个个人 AI 助手,可在您自己的设备上运行。它通过您已经使用的渠道(WhatsApp、Telegram、Slack、Discord、Google Chat、Signal、iMessage、Microsoft Teams、WebChat)以及 BlueBubbles、Matrix、Zalo 和 Zalo Personal 等扩展渠道与您交流。它可以在 macOS/iOS/Android 上说话和聆听,并能渲染一个您控制的实时画布。网关只是控制平面——产品本身才是助手。
    OpenClaw(Clawdbot/Moltbot)

    OpenClaw(Clawdbot/Moltbot)

    Clawdbot 是一款可在您自己的设备上运行的个人 AI 助手。它在您已使用的渠道(WhatsApp、Telegram、Slack、Discord、Google Chat、Signal、iMessage、Microsoft Teams、WebChat)以及扩展渠道(如 BlueBubbles、Matrix、Zalo 和 Zalo Personal)上为您提供应答。它可以在 macOS/iOS/Android 上进行语音交谈,并能渲染一个您可控制的实时画布。网关仅是控制平面——核心产品是助手本身。
    YouMind

    YouMind

    YouMind 是一款重新构想的 AI 写作工具,帮助每个人轻松开启创作之旅。捕捉灵感、收集素材、撰写草稿,并将其转化为精炼的文章、播客、视频等丰富内容。
    MimiClaw

    MimiClaw

    MimiClaw 把一块小小的 ESP32-S3 开发板变成你的私人 AI 助理。插上 USB 供电,连上 WiFi,通过 Telegram 跟它对话 — 它能处理你丢给它的任何任务,还会随时间积累本地记忆不断进化 — 全部跑在一颗拇指大小的芯片上。
    OpenCloud

    OpenCloud

    OpenCloud 是海因莱因集团的文件共享与协作解决方案。通过智能文件管理和强大的开源社区,文件将转变为宝贵的资源,被有效地组织和长期使用。借助灵活的数据空间和智能权限管理,团队可以随时随地无障碍地访问数据并协同工作,从而大幅提升生产力。
    查看完整榜单