SD百科导航
  • 首页
  • 快讯
  • 早报
  • 模型
  • ComfyUI
  • 工具
  • 新技术
  • 百科
    • 教程
    • 硬件
    • 科普
  • 知识库
  • 导航
  • 百科工具
    • 首页
    • 快讯
    • 早报
    • 模型
    • ComfyUI
    • 工具
    • 新技术
    • 百科
      • 教程
      • 硬件
      • 科普
    • 知识库
    • 导航
    • 百科工具

    模型

    共 1007 篇文章
    百科工具模型ComfyUIAI合集web UI提示词
    大语言模型多模态模型图像模型语音模型3D模型Flux衍生视频模型
    排序
    发布更新浏览点赞
    面壁智能发布 VoxCPM1.5:6.25Hz 标记率降低计算开销,支持高质量声音克隆

    新面壁智能发布 VoxCPM1.5:6.25Hz 标记率降低计算开销,支持高质量声音克隆

    2025 年 12 月 5 日,面壁智能正式发布 VoxCPM1.5 模型权重。作为 VoxCPM 系列的重大升级版本,它在保留上下文感知语音生成与零样本声音克隆能力的基础上,通过两项关键技术改进,显...
    语音模型# VoxCPM1.5# 面壁智能
    2天前
    060
    Dolphin-v2:字节跳动发布支持21类元素的通用文档解析模型

    新Dolphin-v2:字节跳动发布支持21类元素的通用文档解析模型

    在办公自动化、知识管理与智能体工作流中,将非结构化文档转化为结构化数据是关键第一步。然而,现实中的文档来源复杂:既有干净的 PDF、Word,也有手机拍摄的带畸变、阴影、模糊的纸质文件。现有解析模型往...
    多模态模型# Dolphin-v2# 字节跳动# 文档解析模型
    2天前
    0190
    智谱AI发布 Kaleido:通过多参考图像生成主体一致视频的 S2V 框架

    新智谱AI发布 Kaleido:通过多参考图像生成主体一致视频的 S2V 框架

    在主体到视频(Subject-to-Video, S2V)生成任务中,目标是根据用户提供的多张目标主体参考图像和文本提示,合成一段主体身份一致、动作自然、背景可控的视频。尽管近期 S2V 模型取得进展...
    视频模型# Kaleido# 智谱AI
    2天前
    070
    智谱AI提出 SSVAE:通过谱结构优化提升视频VAE“可扩散性”的新方法

    新智谱AI提出 SSVAE:通过谱结构优化提升视频VAE“可扩散性”的新方法

    在基于扩散模型的视频生成系统中,视频变分自编码器(VAE) 扮演着关键角色:它将像素空间视频压缩到潜在空间,供扩散模型高效训练。然而,现有视频 VAE 的设计往往过度聚焦于重建保真度,却忽视了一个更根...
    视频模型# SSVAE# 智谱AI
    2天前
    040
    智谱AI发布面向生产级角色动画的生成框架 SCAIL:通过3D一致姿态表征实现影棚级角色动画

    新智谱AI发布面向生产级角色动画的生成框架 SCAIL:通过3D一致姿态表征实现影棚级角色动画

    高质量角色动画长期以来依赖昂贵的动作捕捉设备、繁琐的手动绑定和大量人力修型。尽管近年视频生成模型取得进展,但在复杂动作、风格化角色、多角色交互等场景下,现有方法仍普遍存在结构失真、时间不连贯、身份泄漏...
    视频模型# SCAIL# 智谱AI# 角色动画
    2天前
    0100
    智谱AI开源 RealVideo:基于自回归扩散的实时流式对话视频系统

    新智谱AI开源 RealVideo:基于自回归扩散的实时流式对话视频系统

    随着多模态生成技术的发展,用户对虚拟角色的期待已从“能说话”升级为“能自然表达、实时互动、持续存在”。为此,智谱AI推出了 RealVideo —— 一个端到端实时流式视频对话系统,能够将文本对话实时...
    视频模型# RealVideo# 数字人# 智谱AI
    2天前
    070
    MotionEdit:首个专注动作编辑的图像生成基准与训练框架

    新MotionEdit:首个专注动作编辑的图像生成基准与训练框架

    当前主流的图像编辑模型在处理静态属性(如颜色、纹理、物体替换)时已相当成熟,但在修改图像中主体的动作、姿势或交互行为时仍面临显著挑战。例如,让一个人从“站立”变为“坐下”,或让其“拿起桌上的杯子”,现...
    图像模型# MotionEdit# 图像编辑
    2天前
    050
    AnyTalker:用单人数据生成自然互动的多人对话视频

    新AnyTalker:用单人数据生成自然互动的多人对话视频

    多人对话视频的自动生成,长期以来受限于两个关键难题:一是高质量多人视频数据极难获取,二是多个角色之间的互动行为难以建模。为解决这些问题,来自香港科技大学、Video Rebirth、浙江大学和北京交通...
    视频模型# AnyTalker
    2天前
    060
    OpenAI正式发布GPT-5.2 :GDPval 超人类专家,编码/长上下文/视觉能力全面跃升

    新OpenAI正式发布GPT-5.2 :GDPval 超人类专家,编码/长上下文/视觉能力全面跃升

    OpenAI 再度刷新大模型天花板——GPT-5.2 正式发布。这款专为专业知识工作和长期运行智能体打造的前沿模型,在编码、长上下文推理、视觉理解、工具调用等核心能力上实现跨越式提升,甚至在覆盖 44...
    大语言模型早报# GPT-5.2# OpenAI
    3天前
    0130
    智谱AI语音识别模型GLM-ASR双版本登场:云端版精准识别多场景,Nano版开源免费,笔记本/手机均可部署

    智谱AI语音识别模型GLM-ASR双版本登场:云端版精准识别多场景,Nano版开源免费,笔记本/手机均可部署

    智谱AI全新发布 GLM-ASR 系列语音识别模型,包含云端部署的 GLM-ASR-2512 与端侧轻量化的 GLM-ASR-Nano-2512 两个版本。其中 Nano 版以 1.5B 紧凑参数规模...
    语音模型# GLM-ASR-2512# GLM-ASR-Nano-2512# 智谱AI
    4天前
    070
    智谱AI开源GLM-4.6V:128K上下文视觉语言模型,原生工具调用打通感知与执行链路

    智谱AI开源GLM-4.6V:128K上下文视觉语言模型,原生工具调用打通感知与执行链路

    智谱AI正式推出并开源 GLM-4.6V 系列多模态大语言模型,包含面向云端与高性能集群的 GLM-4.6V (106B) 基础模型,以及针对本地部署和低延迟场景优化的 GLM-4.6V-Flash ...
    多模态模型# GLM-4.6V# 智谱AI
    4天前
    080
    Mistral AI 发布 Devstral 2 编程模型+Vibe CLI:1230亿参数适配智能体开发,终端原生编程更高效

    Mistral AI 发布 Devstral 2 编程模型+Vibe CLI:1230亿参数适配智能体开发,终端原生编程更高效

    Mistral AI 推出两大核心产品——新一代软件工程智能体编程模型家族 Devstral 2,以及开源命令行编程助手 Mistral Vibe CLI。前者以高参数、长上下文和高性价比成为开源编程...
    大语言模型# Devstral 2# Mistral AI# 编程模型
    4天前
    060
    加载更多
    SD百科导航
    SD百科导航是专注于AI创作领域的专业导航网站。我们全面涵盖Stable Diffusion、Flux、AI绘画、AI视频、AI音乐以及大语言模型等前沿内容。

    友链申请免责声明广告合作关于我们

    扫码关注微信公众号SD百科导航
    扫码关注微信公众号
    Copyright © 2025 SD百科导航 皖ICP备18025588号-5  皖公网安备34040002000401 
    网址
    网址文章软件模型

    网址

    日榜周榜月榜
    Grok

    Grok

    Grok是一款先进的对话式人工智能。Grok 旨在提供高效、准确且自然的对话交互体验,适用于多种应用场景,包括客户服务、虚拟助手、教育辅导等。
    Flowith

    Flowith

    Flowith 是一个基于 AI 的工具,适合深度工作和内容创作。它提供一个直观的画布界面,让用户可以轻松生成长文本、组织知识和协作。它的 AI 代理 Oracle 可以自动规划复杂任务,无需手动提示工程,并支持多种顶级 AI 模型如 GPT-4o 和 Claude 3.5 sonnet。
    ClickHelp AI

    ClickHelp AI

    ClickHelp 正式推出 ClickHelp AI 套件,标志着ClickHelp迈向智能化文档管理的新阶段。这一套件将多个 AI 功能整合为统一平台,旨在为技术写作团队提供更强的生产力和更高的可扩展性。
    Fogsight (雾象)

    Fogsight (雾象)

    雾象是一款由大语言模型(LLM)驱动的动画引擎 agent 。用户输入抽象概念或词语,雾象会将其转化为高水平的生动动画。
    Dex Camera

    Dex Camera

    这款设备以“现实互动+AI辅助”为核心,让孩子在拍照探索中自然学外语,目前已完成480万美元融资,支持多语言及方言,同时通过多重安全设计与隐私政策保障儿童使用。
    MemU

    MemU

    MemU 是一个开源的 AI 伴侣记忆框架,具有高准确性、快速检索和低成本的特点。它作为一个智能的“记忆文件夹”,能够适应不同的 AI 伴侣应用场景。通过 MemU,你可以构建真正记住你的 AI 伴侣。它们能够学习你的身份、关注点,并在每次互动中与你共同成长。
    查看完整榜单