SD百科导航
  • 首页
  • 快讯
  • 早报
  • 模型
  • ComfyUI
  • 工具
  • 新技术
  • 百科
    • 教程
    • 硬件
    • 科普
  • 知识库
  • 导航
  • 百科工具
    • 首页
    • 快讯
    • 早报
    • 模型
    • ComfyUI
    • 工具
    • 新技术
    • 百科
      • 教程
      • 硬件
      • 科普
    • 知识库
    • 导航
    • 百科工具

    智谱AI

    共 15 篇文章
    排序
    发布更新浏览点赞
    智谱AI发布 Kaleido:通过多参考图像生成主体一致视频的 S2V 框架

    智谱AI发布 Kaleido:通过多参考图像生成主体一致视频的 S2V 框架

    在主体到视频(Subject-to-Video, S2V)生成任务中,目标是根据用户提供的多张目标主体参考图像和文本提示,合成一段主体身份一致、动作自然、背景可控的视频。尽管近期 S2V 模型取得进展...
    视频模型# Kaleido# 智谱AI
    3天前
    080
    智谱AI提出 SSVAE:通过谱结构优化提升视频VAE“可扩散性”的新方法

    智谱AI提出 SSVAE:通过谱结构优化提升视频VAE“可扩散性”的新方法

    在基于扩散模型的视频生成系统中,视频变分自编码器(VAE) 扮演着关键角色:它将像素空间视频压缩到潜在空间,供扩散模型高效训练。然而,现有视频 VAE 的设计往往过度聚焦于重建保真度,却忽视了一个更根...
    视频模型# SSVAE# 智谱AI
    3天前
    040
    智谱AI发布面向生产级角色动画的生成框架 SCAIL:通过3D一致姿态表征实现影棚级角色动画

    智谱AI发布面向生产级角色动画的生成框架 SCAIL:通过3D一致姿态表征实现影棚级角色动画

    高质量角色动画长期以来依赖昂贵的动作捕捉设备、繁琐的手动绑定和大量人力修型。尽管近年视频生成模型取得进展,但在复杂动作、风格化角色、多角色交互等场景下,现有方法仍普遍存在结构失真、时间不连贯、身份泄漏...
    视频模型# SCAIL# 智谱AI# 角色动画
    3天前
    0150
    智谱AI开源 RealVideo:基于自回归扩散的实时流式对话视频系统

    智谱AI开源 RealVideo:基于自回归扩散的实时流式对话视频系统

    随着多模态生成技术的发展,用户对虚拟角色的期待已从“能说话”升级为“能自然表达、实时互动、持续存在”。为此,智谱AI推出了 RealVideo —— 一个端到端实时流式视频对话系统,能够将文本对话实时...
    视频模型# RealVideo# 数字人# 智谱AI
    3天前
    0110
    智谱AI语音识别模型GLM-ASR双版本登场:云端版精准识别多场景,Nano版开源免费,笔记本/手机均可部署

    智谱AI语音识别模型GLM-ASR双版本登场:云端版精准识别多场景,Nano版开源免费,笔记本/手机均可部署

    智谱AI全新发布 GLM-ASR 系列语音识别模型,包含云端部署的 GLM-ASR-2512 与端侧轻量化的 GLM-ASR-Nano-2512 两个版本。其中 Nano 版以 1.5B 紧凑参数规模...
    语音模型# GLM-ASR-2512# GLM-ASR-Nano-2512# 智谱AI
    5天前
    070
    智谱AI开源GLM-4.6V:128K上下文视觉语言模型,原生工具调用打通感知与执行链路

    智谱AI开源GLM-4.6V:128K上下文视觉语言模型,原生工具调用打通感知与执行链路

    智谱AI正式推出并开源 GLM-4.6V 系列多模态大语言模型,包含面向云端与高性能集群的 GLM-4.6V (106B) 基础模型,以及针对本地部署和低延迟场景优化的 GLM-4.6V-Flash ...
    多模态模型# GLM-4.6V# 智谱AI
    5天前
    080
    智谱AI推出「Claude API用户特别搬家计划」:全面兼容协议,一键迁移至GLM

    智谱AI推出「Claude API用户特别搬家计划」:全面兼容协议,一键迁移至GLM

    Anthropic宣布调整其API服务策略,停止向多数股权由中国资本持有的企业出售Claude服务,涵盖中国大陆及通过海外注册实体或云服务间接使用的情况。这一变化影响了部分依赖Claude进行AI开发...
    早报# Claude API# GLM# 智谱AI
    3个月前
    01900
    智谱AI发布AutoGLM 2.0:全球首个手机Agent免费开放,云端运行不占本地资源

    智谱AI发布AutoGLM 2.0:全球首个手机Agent免费开放,云端运行不占本地资源

    智谱AI正式推出 AutoGLM 2.0,定位“全球首个手机Agent”,面向所有用户免费开放。新版本以“Agent + 云手机 + 云电脑”为技术底座,让AI在云端独立运行,完全不占用本地设备资源...
    早报# AutoGLM 2.0# 智谱AI
    4个月前
    01710
    智谱AI发布GLM-4.5V:106B参数的开源视觉推理模型,支持“思考模式”切换

    智谱AI发布GLM-4.5V:106B参数的开源视觉推理模型,支持“思考模式”切换

    今日,智谱 AI 正式推出其新一代开源视觉语言模型 GLM-4.5V,并在魔搭社区与 Hugging Face 同步开源。该模型总参数达 106B,采用 MOE(Mixture of Experts...
    多模态模型# GLM-4.5V# 智谱AI
    4个月前
    01490
    智谱AI正式推出 GLM 系列最新旗舰大模型GLM-4.5 系列:统一推理、编码与代理的全能旗舰模型

    智谱AI正式推出 GLM 系列最新旗舰大模型GLM-4.5 系列:统一推理、编码与代理的全能旗舰模型

    智谱AI正式推出 GLM-4.5 与 GLM-4.5-Air —— GLM 系列最新旗舰大模型。这两款模型专为代理(Agent)导向应用设计,首次在单一架构中深度融合了复杂推理、高效编码与多工具协同能...
    大语言模型# GLM-4.5# GLM-4.5-Air# 智谱AI
    5个月前
    02270
    智谱AI联合清华推出新一代视觉语言推理模型开源 GLM-4.1V-9B-Thinking

    智谱AI联合清华推出新一代视觉语言推理模型开源 GLM-4.1V-9B-Thinking

    随着智能任务日益复杂,视觉语言大模型(VLM)正从基础的多模态感知迈向更高层次的推理能力提升。为了应对这一趋势,智谱AI 与清华大学联合推出了新一代 VLM 开源模型 —— GLM-4.1V-9B-T...
    多模态模型# GLM-4.1V-9B-Thinking# 智谱AI
    6个月前
    02620
    智谱发布新一代 GLM-4-32B-0414 系列模型:高性能、多功能、易部署

    智谱发布新一代 GLM-4-32B-0414 系列模型:高性能、多功能、易部署

    4 月 14 日,智谱发布了一则重磅消息:推出新一代 GLM-4-32B-0414 系列模型。这一系列模型凭借 320 亿参数的强大性能,效果直逼 OpenAI 的 GPT 系列和 DeepSeek ...
    大语言模型# GLM-4-32B-0414# 智谱AI
    8个月前
    02720
    加载更多
    SD百科导航
    SD百科导航是专注于AI创作领域的专业导航网站。我们全面涵盖Stable Diffusion、Flux、AI绘画、AI视频、AI音乐以及大语言模型等前沿内容。

    友链申请免责声明广告合作关于我们

    扫码关注微信公众号SD百科导航
    扫码关注微信公众号
    Copyright © 2025 SD百科导航 皖ICP备18025588号-5  皖公网安备34040002000401 
    网址
    网址文章软件模型

    网址

    日榜周榜月榜
    朱雀大模型检测

    朱雀大模型检测

    腾讯朱雀 AI 检测是于 2025 年 1 月 17 日推出的一款 AI 生成内容检测工具,主要用于帮助用户识别 AI 生成的文本和图像内容。每位用户每天最多可检测20次文本和20次图片。
    Fogsight (雾象)

    Fogsight (雾象)

    雾象是一款由大语言模型(LLM)驱动的动画引擎 agent 。用户输入抽象概念或词语,雾象会将其转化为高水平的生动动画。
    ITELLOU

    ITELLOU

    ITELLYOU(也称为NEXT, ITELLYOU)是一个专注于提供微软原版软件资源的非官方网站,主要帮助用户获取未经修改的微软产品镜像,如Windows操作系统、Office办公软件和开发工具等。
    秒哒

    秒哒

    百度秒哒,由百度智能云倾力打造的国内首个“对话式”应用开发平台,正式全量上线。作为一款无代码工具,秒哒致力于让每个人都能通过自然语言描述需求,自动生成完整功能代码,轻松实现创意想法。
    CyberCut

    CyberCut

    CyberCut 并非追求“一键出爆款”,而是通过 AI 将重复性剪辑工作自动化,让创作者更专注于内容本身。其文本驱动、自动规划、高精度字幕等能力,为短视频生产提供了一条高效、可控、低门槛的新路径。
    NaturalReader

    NaturalReader

    NaturalReader 是一款功能强大、易于使用的文本转语音工具,适合各种场景下的阅读需求。无论您是希望节省时间的学生、需要无障碍支持的读者,还是寻求高质量语音内容的创作者,NaturalReader 都能为您提供卓越的体验。
    查看完整榜单