SD百科导航
  • 首页
  • 快讯
  • 早报
  • 模型
  • ComfyUI
  • 新技术
  • 百科
    • 教程
    • 硬件
    • 科普
  • 百科工具
    • 工具
  • 排行榜
  • 网址提交
    • 首页
    • 快讯
    • 早报
    • 模型
    • ComfyUI
    • 新技术
    • 百科
      • 教程
      • 硬件
      • 科普
    • 百科工具
      • 工具
    • 排行榜
    • 网址提交

    模型

    共 1081 篇文章
    百科工具模型ComfyUIAI合集web UI提示词
    大语言模型多模态模型图像模型语音模型3D模型Flux衍生视频模型世界模型
    排序
    发布更新浏览点赞
    Liquid AI 发布 LFM2-2.6B-Exp:小模型大性能,指令遵循能力超越百倍规模对手

    Liquid AI 发布 LFM2-2.6B-Exp:小模型大性能,指令遵循能力超越百倍规模对手

    Liquid AI 正式推出 LFM2-2.6B-Exp —— 一个基于纯强化学习(RL)训练的实验性语言模型。它在指令遵循、常识推理和数学任务上表现突出,尤其值得注意的是:其 IFBench 评测分...
    大语言模型# LFM2-2.6B-Exp# Liquid AI
    1个月前
    0170
    通义百聆发布 Fun-Audio-Chat:8B 端到端语音模型,延迟更低、效率更高

    通义百聆发布 Fun-Audio-Chat:8B 端到端语音模型,延迟更低、效率更高

    通义实验室旗下语音团队 通义百聆(Tongyi Bailin)正式推出 Fun-Audio-Chat —— 一款专为自然、低延迟语音交互设计的端到端大型音频语言模型(Audio Language Mo...
    语音模型# Fun-Audio-Chat# 通义百聆
    1个月前
    0230
    阿里通义实验室发布Qwen-Image-Edit-2511:显著提升人物一致性与工业设计能力,支持 LoRA 集成与多图融合

    阿里通义实验室发布Qwen-Image-Edit-2511:显著提升人物一致性与工业设计能力,支持 LoRA 集成与多图融合

    阿里通义实验室 Qwen 项目组正式发布 Qwen-Image-Edit-2511,这是继 9 月发布的 Qwen-Image-Edit-2509 后的增强版本。从版本号“2511”可见,该模型原计划...
    图像模型# Qwen-Image-Edit-2511# 图像编辑模型
    1个月前
    01490
    智谱AI发布GLM-4.7:聚焦编程、工具使用与多轮推理

    智谱AI发布GLM-4.7:聚焦编程、工具使用与多轮推理

    智谱AI最新发布的 GLM-4.7 在多个关键维度实现突破,特别是在开发者关注的编程、工具调用与复杂推理能力上,带来可观的性能提升。本文将系统梳理 GLM-4.7 的主要改进,并说明如何快速接入与使用...
    大语言模型# GLM-4.7# 智谱AI
    1个月前
    0270
    英伟达发布 Nemotron 3 系列:30B Nano 即用,Super/Ultra 2026 年登场

    英伟达发布 Nemotron 3 系列:30B Nano 即用,Super/Ultra 2026 年登场

    英伟达正式推出 Nemotron 3 开源模型系列,聚焦多智能体协作场景,包含 Nano、Super、Ultra 三个版本,覆盖从轻量推理到超大规模智能体系统的全栈需求。 模型:https://hug...
    大语言模型# Nemotron 3# 英伟达
    1个月前
    0270
    图宾根大学提出3D-RE-GEN:从单张照片生成可编辑的完整3D室内场景

    图宾根大学提出3D-RE-GEN:从单张照片生成可编辑的完整3D室内场景

    只需一张室内照片——哪怕家具相互遮挡、背景杂乱——就能重建出带纹理、可单独编辑、空间对齐正确的完整3D场景?图宾根大学的研究团队提出的 3D-RE-GEN 框架,正在将这一目标推向实用化。 项目主页...
    3D模型# 3D-RE-GEN
    1个月前
    0320
    TurboDiffusion:视频扩散模型提速 100–200 倍,质量几乎无损

    TurboDiffusion:视频扩散模型提速 100–200 倍,质量几乎无损

    视频扩散模型虽能生成高质量内容,但其缓慢的推理速度长期制约实际应用。近日,清华大学、生数科技与加州大学伯克利分校联合提出 TurboDiffusion——一个端到端视频生成加速框架,在单张 RTX 5...
    视频模型# TurboDiffusion# Wan2.2
    1个月前
    0240
    苹果提出 SHARPA:单图生成 3D 高斯模型,实现秒级实时视图合成

    苹果提出 SHARPA:单图生成 3D 高斯模型,实现秒级实时视图合成

    苹果近期提出 SHARPA(Single-image High-Accuracy Real-time Parallax),一种从单张 RGB 图像生成高保真、可交互 3D 场景的新方法。该技术通过神经...
    3D模型# 3D 高斯模型# SHARPA
    1个月前
    0610
    Chatterbox-Turbo 发布:3.5 亿参数、一步解码、支持副语言标签的高效 TTS 模型

    Chatterbox-Turbo 发布:3.5 亿参数、一步解码、支持副语言标签的高效 TTS 模型

    Resemble AI 正式开源 Chatterbox 系列——一个由三款高性能文本转语音(TTS)模型组成的开源 TTS 工具集,覆盖低延迟交互、多语言支持与创意语音控制三大典型场景。所有模型均支持...
    语音模型# Chatterbox-Turbo
    1个月前
    0330
    Google DeepMind发布T5Gemma 2:支持多模态与 128K 上下文的高效编码器-解码器模型

    Google DeepMind发布T5Gemma 2:支持多模态与 128K 上下文的高效编码器-解码器模型

    Google DeepMind 正式推出 T5Gemma 2——新一代基于 Gemma 3 架构的编码器-解码器(Encoder-Decoder)模型系列。它不仅继承了 Gemma 3 的先进特性,更...
    多模态模型# Google DeepMind# T5Gemma 2
    1个月前
    0250
    Mistral OCR 3 发布:手写、表格、低质量扫描件识别全面升级

    Mistral OCR 3 发布:手写、表格、低质量扫描件识别全面升级

    Mistral AI 正式推出 Mistral OCR 3,其在复杂文档场景下的识别准确率显著超越前代模型与主流竞品。该模型专注于真实业务环境中的多样化文档——从手写批注、低质量扫描件到多层级表格...
    多模态模型# Mistral OCR 3
    1个月前
    0240
    Grok Voice Agent API 上线:支持多语言、实时工具调用与低延迟语音交互

    Grok Voice Agent API 上线:支持多语言、实时工具调用与低延迟语音交互

    xAI 正式推出 Grok Voice Agent API,向开发者开放其在 Grok 移动应用及特斯拉车载系统中使用的语音交互技术。该 API 支持构建能实时对话、调用工具、搜索网络并流利使用数十种...
    语音模型# Grok Voice Agent
    1个月前
    0210
    加载更多
    SD百科导航
    SD百科导航是专注于AI创作领域的专业导航网站。我们全面涵盖Stable Diffusion、Flux、AI绘画、AI视频、AI音乐以及大语言模型等前沿内容。

    关于我们网址提交友链申请广告合作

    扫码关注微信公众号SD百科导航
    扫码关注微信公众号
    Copyright © 2026 SD百科导航 皖ICP备18025588号-5  皖公网安备34040002000401 
    网址
    网址文章软件模型

    网址

    日榜周榜月榜
    Clawdbot/Moltbot

    Clawdbot/Moltbot

    Clawdbot 是一款可在您自己的设备上运行的个人 AI 助手。它在您已使用的渠道(WhatsApp、Telegram、Slack、Discord、Google Chat、Signal、iMessage、Microsoft Teams、WebChat)以及扩展渠道(如 BlueBubbles、Matrix、Zalo 和 Zalo Personal)上为您提供应答。它可以在 macOS/iOS/Android 上进行语音交谈,并能渲染一个您可控制的实时画布。网关仅是控制平面——核心产品是助手本身。
    Skills.sh

    Skills.sh

    Vercel 近日上线了一个名为 skills.sh 的新站点,专门用于发现、浏览和安装 AI 智能体的“技能”(Skills)。
    Situation Monitor

    Situation Monitor

    Situation Monitor 是由开发者 Reggie James 创建的一个免费、开源的全球风险监测平台。它通过一张交互式地图,实时整合并可视化全球范围内的关键地缘政治与安全信息,帮助用户快速掌握潜在冲突热点和战略动态。
     CutCut

     CutCut

    CutCut是一个视频下载与剪辑工具,支持从 YouTube、Bilibili 等主流平台直接按章节或自定义时间范围下载片段,无需先下完整视频再剪辑。
    Fogsight (雾象)

    Fogsight (雾象)

    雾象是一款由大语言模型(LLM)驱动的动画引擎 agent 。用户输入抽象概念或词语,雾象会将其转化为高水平的生动动画。
    Awesome Clawdbot(Moltbot) Skills

    新Awesome Clawdbot(Moltbot) Skills

    社区维护了一份名为 Awesome Clawdbot (Moltbot) Skills 的精选技能集合。该列表收录了 565 项以上 来自 ClawdHub(Moltbot 官方公共技能注册表)的技能,并按功能类别组织,便于浏览与安装。
    查看完整榜单