SD百科导航
  • 首页
  • 快讯
  • 早报
  • 模型
  • ComfyUI
  • 工具
  • 新技术
  • 百科
    • 教程
    • 硬件
    • 科普
  • 知识库
  • 导航
  • 百科工具
    • 首页
    • 快讯
    • 早报
    • 模型
    • ComfyUI
    • 工具
    • 新技术
    • 百科
      • 教程
      • 硬件
      • 科普
    • 知识库
    • 导航
    • 百科工具

    模型

    共 1007 篇文章
    百科工具模型ComfyUIAI合集web UI提示词
    大语言模型多模态模型图像模型语音模型3D模型Flux衍生视频模型
    排序
    发布更新浏览点赞
    面壁智能发布 VoxCPM1.5:6.25Hz 标记率降低计算开销,支持高质量声音克隆

    新面壁智能发布 VoxCPM1.5:6.25Hz 标记率降低计算开销,支持高质量声音克隆

    2025 年 12 月 5 日,面壁智能正式发布 VoxCPM1.5 模型权重。作为 VoxCPM 系列的重大升级版本,它在保留上下文感知语音生成与零样本声音克隆能力的基础上,通过两项关键技术改进,显...
    语音模型# VoxCPM1.5# 面壁智能
    2天前
    060
    Dolphin-v2:字节跳动发布支持21类元素的通用文档解析模型

    新Dolphin-v2:字节跳动发布支持21类元素的通用文档解析模型

    在办公自动化、知识管理与智能体工作流中,将非结构化文档转化为结构化数据是关键第一步。然而,现实中的文档来源复杂:既有干净的 PDF、Word,也有手机拍摄的带畸变、阴影、模糊的纸质文件。现有解析模型往...
    多模态模型# Dolphin-v2# 字节跳动# 文档解析模型
    2天前
    0160
    智谱AI发布 Kaleido:通过多参考图像生成主体一致视频的 S2V 框架

    新智谱AI发布 Kaleido:通过多参考图像生成主体一致视频的 S2V 框架

    在主体到视频(Subject-to-Video, S2V)生成任务中,目标是根据用户提供的多张目标主体参考图像和文本提示,合成一段主体身份一致、动作自然、背景可控的视频。尽管近期 S2V 模型取得进展...
    视频模型# Kaleido# 智谱AI
    2天前
    070
    智谱AI提出 SSVAE:通过谱结构优化提升视频VAE“可扩散性”的新方法

    新智谱AI提出 SSVAE:通过谱结构优化提升视频VAE“可扩散性”的新方法

    在基于扩散模型的视频生成系统中,视频变分自编码器(VAE) 扮演着关键角色:它将像素空间视频压缩到潜在空间,供扩散模型高效训练。然而,现有视频 VAE 的设计往往过度聚焦于重建保真度,却忽视了一个更根...
    视频模型# SSVAE# 智谱AI
    2天前
    040
    智谱AI发布面向生产级角色动画的生成框架 SCAIL:通过3D一致姿态表征实现影棚级角色动画

    新智谱AI发布面向生产级角色动画的生成框架 SCAIL:通过3D一致姿态表征实现影棚级角色动画

    高质量角色动画长期以来依赖昂贵的动作捕捉设备、繁琐的手动绑定和大量人力修型。尽管近年视频生成模型取得进展,但在复杂动作、风格化角色、多角色交互等场景下,现有方法仍普遍存在结构失真、时间不连贯、身份泄漏...
    视频模型# SCAIL# 智谱AI# 角色动画
    2天前
    090
    智谱AI开源 RealVideo:基于自回归扩散的实时流式对话视频系统

    新智谱AI开源 RealVideo:基于自回归扩散的实时流式对话视频系统

    随着多模态生成技术的发展,用户对虚拟角色的期待已从“能说话”升级为“能自然表达、实时互动、持续存在”。为此,智谱AI推出了 RealVideo —— 一个端到端实时流式视频对话系统,能够将文本对话实时...
    视频模型# RealVideo# 数字人# 智谱AI
    2天前
    070
    MotionEdit:首个专注动作编辑的图像生成基准与训练框架

    新MotionEdit:首个专注动作编辑的图像生成基准与训练框架

    当前主流的图像编辑模型在处理静态属性(如颜色、纹理、物体替换)时已相当成熟,但在修改图像中主体的动作、姿势或交互行为时仍面临显著挑战。例如,让一个人从“站立”变为“坐下”,或让其“拿起桌上的杯子”,现...
    图像模型# MotionEdit# 图像编辑
    2天前
    050
    AnyTalker:用单人数据生成自然互动的多人对话视频

    新AnyTalker:用单人数据生成自然互动的多人对话视频

    多人对话视频的自动生成,长期以来受限于两个关键难题:一是高质量多人视频数据极难获取,二是多个角色之间的互动行为难以建模。为解决这些问题,来自香港科技大学、Video Rebirth、浙江大学和北京交通...
    视频模型# AnyTalker
    2天前
    060
    OpenAI正式发布GPT-5.2 :GDPval 超人类专家,编码/长上下文/视觉能力全面跃升

    新OpenAI正式发布GPT-5.2 :GDPval 超人类专家,编码/长上下文/视觉能力全面跃升

    OpenAI 再度刷新大模型天花板——GPT-5.2 正式发布。这款专为专业知识工作和长期运行智能体打造的前沿模型,在编码、长上下文推理、视觉理解、工具调用等核心能力上实现跨越式提升,甚至在覆盖 44...
    大语言模型早报# GPT-5.2# OpenAI
    2天前
    0120
    智谱AI语音识别模型GLM-ASR双版本登场:云端版精准识别多场景,Nano版开源免费,笔记本/手机均可部署

    智谱AI语音识别模型GLM-ASR双版本登场:云端版精准识别多场景,Nano版开源免费,笔记本/手机均可部署

    智谱AI全新发布 GLM-ASR 系列语音识别模型,包含云端部署的 GLM-ASR-2512 与端侧轻量化的 GLM-ASR-Nano-2512 两个版本。其中 Nano 版以 1.5B 紧凑参数规模...
    语音模型# GLM-ASR-2512# GLM-ASR-Nano-2512# 智谱AI
    3天前
    070
    智谱AI开源GLM-4.6V:128K上下文视觉语言模型,原生工具调用打通感知与执行链路

    智谱AI开源GLM-4.6V:128K上下文视觉语言模型,原生工具调用打通感知与执行链路

    智谱AI正式推出并开源 GLM-4.6V 系列多模态大语言模型,包含面向云端与高性能集群的 GLM-4.6V (106B) 基础模型,以及针对本地部署和低延迟场景优化的 GLM-4.6V-Flash ...
    多模态模型# GLM-4.6V# 智谱AI
    4天前
    080
    Mistral AI 发布 Devstral 2 编程模型+Vibe CLI:1230亿参数适配智能体开发,终端原生编程更高效

    Mistral AI 发布 Devstral 2 编程模型+Vibe CLI:1230亿参数适配智能体开发,终端原生编程更高效

    Mistral AI 推出两大核心产品——新一代软件工程智能体编程模型家族 Devstral 2,以及开源命令行编程助手 Mistral Vibe CLI。前者以高参数、长上下文和高性价比成为开源编程...
    大语言模型# Devstral 2# Mistral AI# 编程模型
    4天前
    050
    加载更多
    SD百科导航
    SD百科导航是专注于AI创作领域的专业导航网站。我们全面涵盖Stable Diffusion、Flux、AI绘画、AI视频、AI音乐以及大语言模型等前沿内容。

    友链申请免责声明广告合作关于我们

    扫码关注微信公众号SD百科导航
    扫码关注微信公众号
    Copyright © 2025 SD百科导航 皖ICP备18025588号-5  皖公网安备34040002000401 
    网址
    网址文章软件模型

    网址

    日榜周榜月榜
    Fogsight (雾象)

    Fogsight (雾象)

    雾象是一款由大语言模型(LLM)驱动的动画引擎 agent 。用户输入抽象概念或词语,雾象会将其转化为高水平的生动动画。
    朱雀大模型检测

    朱雀大模型检测

    腾讯朱雀 AI 检测是于 2025 年 1 月 17 日推出的一款 AI 生成内容检测工具,主要用于帮助用户识别 AI 生成的文本和图像内容。每位用户每天最多可检测20次文本和20次图片。
    Grok

    Grok

    Grok是一款先进的对话式人工智能。Grok 旨在提供高效、准确且自然的对话交互体验,适用于多种应用场景,包括客户服务、虚拟助手、教育辅导等。
    Tripo

    Tripo

    Tripo AI 是一家领先的 AI 驱动 3D 建模解决方案提供商,允许用户使用文本、单张图像、多张图像、涂鸦或视频等输入,快速创建高质量的 3D 模型和环境。
    Google AI Studio

    Google AI Studio

    Google AI Studio 是一个功能齐全的工具,特别适合希望快速构建和试验 AI 应用的开发者。其多模态支持、提示库和与 Gemini API 的无缝集成使其成为生成 AI 开发的有力平台。
    OiiOii AI

    OiiOii AI

    OiiOii.ai 是一个基于多智能体架构的动画生成平台,其核心目标是将动画制作从线性协作流程,转变为端到端的自动化生成。用户只需上传一张图片或输入一段文字描述,系统即可自动完成剧本生成、分镜设计、角色建模、镜头调度、配乐合成与最终渲染,输出一段完整动画视频。
    查看完整榜单