SD百科导航
  • 首页
  • 快讯
  • 早报
  • 模型
  • ComfyUI
  • 新技术
  • 百科
    • 教程
    • 硬件
    • 科普
  • 百科工具
    • 工具
  • 知识库
  • 排行榜
  • 网址提交
    • 首页
    • 快讯
    • 早报
    • 模型
    • ComfyUI
    • 新技术
    • 百科
      • 教程
      • 硬件
      • 科普
    • 百科工具
      • 工具
    • 知识库
    • 排行榜
    • 网址提交

    模型

    共 1050 篇文章
    百科工具模型ComfyUIAI合集web UI提示词
    大语言模型多模态模型图像模型语音模型3D模型Flux衍生视频模型
    排序
    发布更新浏览点赞
    智谱AI开源 RealVideo:基于自回归扩散的实时流式对话视频系统

    智谱AI开源 RealVideo:基于自回归扩散的实时流式对话视频系统

    随着多模态生成技术的发展,用户对虚拟角色的期待已从“能说话”升级为“能自然表达、实时互动、持续存在”。为此,智谱AI推出了 RealVideo —— 一个端到端实时流式视频对话系统,能够将文本对话实时...
    视频模型# RealVideo# 数字人# 智谱AI
    4周前
    0310
    MotionEdit:首个专注动作编辑的图像生成基准与训练框架

    MotionEdit:首个专注动作编辑的图像生成基准与训练框架

    当前主流的图像编辑模型在处理静态属性(如颜色、纹理、物体替换)时已相当成熟,但在修改图像中主体的动作、姿势或交互行为时仍面临显著挑战。例如,让一个人从“站立”变为“坐下”,或让其“拿起桌上的杯子”,现...
    图像模型# MotionEdit# 图像编辑
    4周前
    0340
    AnyTalker:用单人数据生成自然互动的多人对话视频

    AnyTalker:用单人数据生成自然互动的多人对话视频

    多人对话视频的自动生成,长期以来受限于两个关键难题:一是高质量多人视频数据极难获取,二是多个角色之间的互动行为难以建模。为解决这些问题,来自香港科技大学、Video Rebirth、浙江大学和北京交通...
    视频模型# AnyTalker
    4周前
    0160
    OpenAI正式发布GPT-5.2 :GDPval 超人类专家,编码/长上下文/视觉能力全面跃升

    OpenAI正式发布GPT-5.2 :GDPval 超人类专家,编码/长上下文/视觉能力全面跃升

    OpenAI 再度刷新大模型天花板——GPT-5.2 正式发布。这款专为专业知识工作和长期运行智能体打造的前沿模型,在编码、长上下文推理、视觉理解、工具调用等核心能力上实现跨越式提升,甚至在覆盖 44...
    大语言模型早报# GPT-5.2# OpenAI
    4周前
    0410
    智谱AI语音识别模型GLM-ASR双版本登场:云端版精准识别多场景,Nano版开源免费,笔记本/手机均可部署

    智谱AI语音识别模型GLM-ASR双版本登场:云端版精准识别多场景,Nano版开源免费,笔记本/手机均可部署

    智谱AI全新发布 GLM-ASR 系列语音识别模型,包含云端部署的 GLM-ASR-2512 与端侧轻量化的 GLM-ASR-Nano-2512 两个版本。其中 Nano 版以 1.5B 紧凑参数规模...
    语音模型# GLM-ASR-2512# GLM-ASR-Nano-2512# 智谱AI
    1个月前
    0230
    智谱AI开源GLM-4.6V:128K上下文视觉语言模型,原生工具调用打通感知与执行链路

    智谱AI开源GLM-4.6V:128K上下文视觉语言模型,原生工具调用打通感知与执行链路

    智谱AI正式推出并开源 GLM-4.6V 系列多模态大语言模型,包含面向云端与高性能集群的 GLM-4.6V (106B) 基础模型,以及针对本地部署和低延迟场景优化的 GLM-4.6V-Flash ...
    多模态模型# GLM-4.6V# 智谱AI
    1个月前
    0180
    Mistral AI 发布 Devstral 2 编程模型+Vibe CLI:1230亿参数适配智能体开发,终端原生编程更高效

    Mistral AI 发布 Devstral 2 编程模型+Vibe CLI:1230亿参数适配智能体开发,终端原生编程更高效

    Mistral AI 推出两大核心产品——新一代软件工程智能体编程模型家族 Devstral 2,以及开源命令行编程助手 Mistral Vibe CLI。前者以高参数、长上下文和高性价比成为开源编程...
    大语言模型# Devstral 2# Mistral AI# 编程模型
    1个月前
    0280
    腾讯发布混元 2.0 大模型:406B MoE 架构,256K 上下文,推理效率国内领先

    腾讯发布混元 2.0 大模型:406B MoE 架构,256K 上下文,推理效率国内领先

    腾讯正式发布自研大模型 混元 2.0(Tencent HY 2.0),包含 HY 2.0 Think(推理优化版)与 HY 2.0 Instruct(指令对齐版)两个版本。该模型采用 混合专家(MoE...
    大语言模型# 混元 2.0 大模型# 腾讯
    1个月前
    0290
    微软发布轻量级实时TTS模型VibeVoice-Realtime:300ms响应的流式长文本TTS模型

    微软发布轻量级实时TTS模型VibeVoice-Realtime:300ms响应的流式长文本TTS模型

    实时文本转语音(TTS)技术在智能助手、实时播报、大模型交互等场景中有着极高的需求,但传统模型往往面临“延迟高”“长文本生成不稳定”“流式输入支持差”等痛点。 微软推出了一款轻量级实时TTS模型——V...
    语音模型# VibeVoice-Realtime# 微软
    1个月前
    0380
    巨人网络AI实验室推出YingVideo-MV:音乐驱动的多阶段视频生成框架,让 AI 会“演”一首歌

    巨人网络AI实验室推出YingVideo-MV:音乐驱动的多阶段视频生成框架,让 AI 会“演”一首歌

    巨人网络AI实验室推出 YingVideo-MV,这是一个用于音乐驱动的多阶段视频生成框架,能够从音频信号中自动生成高质量的音乐表演视频。YingVideo-MV 集成了音频语义分析、可解释的镜头规划...
    视频模型# YingVideo-MV
    1个月前
    0140
    扩散模型加速框架Glance:仅用 1 张图 + 1 GPU 小时,将扩散模型加速至 8 步

    扩散模型加速框架Glance:仅用 1 张图 + 1 GPU 小时,将扩散模型加速至 8 步

    武汉大学、新加坡国立大学、中南大学、电子科技大学和微软的研究人员推出一个用于加速扩散模型(Diffusion Models)的轻量级框架 Glance,通过“慢-快”(Slow-Fast)的阶段感知...
    图像模型# Glance# 加速框架
    1个月前
    0410
    亚马逊推出全新Nova模型系列及开创性服务:Nova Forge与Nova Act

    亚马逊推出全新Nova模型系列及开创性服务:Nova Forge与Nova Act

    核心要点 Nova 2 模型系列在推理、多模态处理、对话式AI、代码生成及智能体任务方面提供业界领先的性价比。 Nova Forge 服务允许企业通过其独特的“开放训练”方法,在训练早期融入专有数据...
    大语言模型# NOVA# Nova Act# Nova Forge
    1个月前
    0240
    加载更多
    SD百科导航
    SD百科导航是专注于AI创作领域的专业导航网站。我们全面涵盖Stable Diffusion、Flux、AI绘画、AI视频、AI音乐以及大语言模型等前沿内容。

    关于我们网址提交友链申请广告合作

    扫码关注微信公众号SD百科导航
    扫码关注微信公众号
    Copyright © 2026 SD百科导航 皖ICP备18025588号-5  皖公网安备34040002000401 
    网址
    网址文章软件模型

    网址

    日榜周榜月榜
    Fogsight (雾象)

    Fogsight (雾象)

    雾象是一款由大语言模型(LLM)驱动的动画引擎 agent 。用户输入抽象概念或词语,雾象会将其转化为高水平的生动动画。
    ITELLOU

    ITELLOU

    ITELLYOU(也称为NEXT, ITELLYOU)是一个专注于提供微软原版软件资源的非官方网站,主要帮助用户获取未经修改的微软产品镜像,如Windows操作系统、Office办公软件和开发工具等。
    Obsidian-Skills

    新Obsidian-Skills

    obsidian-skills是一套专为 Obsidian 用户设计的 Claude Skills 插件,允许 Claude Code 直接在你的本地知识库中创建、读取和修改文件——无需离开 Obsidian 生态,也无需额外转换格式。
    人生 K 线

    人生 K 线

    人生 K 线(Life Destiny K-Line)是一个结合传统八字命理与现代大语言模型(LLM)的轻量级可视化工具。它将一个人从 1 岁到 100 岁的运势走势,以类似股票 K 线图的形式呈现,试图用数据可视化的方式“翻译”命理推演结果。
    朱雀大模型检测

    朱雀大模型检测

    腾讯朱雀 AI 检测是于 2025 年 1 月 17 日推出的一款 AI 生成内容检测工具,主要用于帮助用户识别 AI 生成的文本和图像内容。每位用户每天最多可检测20次文本和20次图片。
    Tripo

    Tripo

    Tripo AI 是一家领先的 AI 驱动 3D 建模解决方案提供商,允许用户使用文本、单张图像、多张图像、涂鸦或视频等输入,快速创建高质量的 3D 模型和环境。
    查看完整榜单