SD百科导航
  • 首页
  • 快讯
  • 早报
  • 模型
  • ComfyUI
  • 工具
  • 新技术
  • 百科
    • 教程
    • 硬件
    • 科普
  • 知识库
  • 导航
  • 百科工具
    • 首页
    • 快讯
    • 早报
    • 模型
    • ComfyUI
    • 工具
    • 新技术
    • 百科
      • 教程
      • 硬件
      • 科普
    • 知识库
    • 导航
    • 百科工具

    模型

    共 995 篇文章
    百科工具模型ComfyUIAI合集web UI提示词
    大语言模型多模态模型图像模型语音模型3D模型Flux衍生视频模型
    排序
    发布更新浏览点赞
    Code2Video:基于代码智能体的教育视频生成框架

    Code2Video:基于代码智能体的教育视频生成框架

    尽管当前文生视频模型在短片段合成上取得进展,但在生成结构严谨、知识准确、视觉连贯的教育视频方面仍面临挑战。这类内容不仅要求语义正确,还需具备清晰的空间布局、逻辑动画过渡和教学节奏控制。 为此,新加坡国...
    视频模型# Code2Video# 教育视频生成
    2个月前
    01050
    StreamDiffusionV2:支持多显卡的实时视频生成系统

    StreamDiffusionV2:支持多显卡的实时视频生成系统

    由加州大学伯克利分校、麻省理工学院、斯坦福大学、德克萨斯大学奥斯汀分校与 First Intelligence 联合研发的 StreamDiffusionV2 正式开源。这是一个面向交互式直播场景的实...
    视频模型# StreamDiffusionV2
    2个月前
    01120
    谷歌推出新型 AI 模型Gemini 2.5 Computer Use,可操作浏览器完成网页任务

    谷歌推出新型 AI 模型Gemini 2.5 Computer Use,可操作浏览器完成网页任务

    谷歌发布一款名为 Gemini 2.5 Computer Use 的新型 AI 模型,能够通过浏览器窗口执行点击、滚动、输入文本等交互操作,帮助用户在那些没有开放 API 的网站上自动完成任务。 这项...
    多模态模型# Gemini 2.5 Computer Use# 谷歌
    2个月前
    0900
    Apriel-1.5-15B-Thinker:用中期训练提升多模态推理效率

    Apriel-1.5-15B-Thinker:用中期训练提升多模态推理效率

    在大模型竞赛普遍追求参数规模和算力投入的背景下,一个名为 Apriel-1.5-15B-Thinker 的新开源模型带来了不同的思路:它不依赖强化学习或偏好优化,也不从零训练,而是通过精心设计的中期训...
    大语言模型# Apriel-1.5-15B-Thinker
    2个月前
    0900
    小红书开源 FireRedChat:一个完整、可控的全双工语音交互系统

    小红书开源 FireRedChat:一个完整、可控的全双工语音交互系统

    在智能助手和客户服务场景中,用户希望与AI的对话像人与人交流一样自然——可以随时插话、打断、继续,而系统能即时响应。要实现这种体验,需要真正的全双工语音交互能力。 然而,现有方案存在明显短板: 端到端...
    语音模型# FireRedChat# 小红书
    2个月前
    01820
    IBM 发布 Granite 4.0:基于 Mamba-2/Transformer 混合架构的新一代高效开源大模型

    IBM 发布 Granite 4.0:基于 Mamba-2/Transformer 混合架构的新一代高效开源大模型

    IBM 正式推出其最新开源语言模型系列 Granite 4.0,标志着企业在追求高性能与低推理成本之间的平衡上迈出关键一步。 这一代模型不再依赖传统的纯 Transformer 架构,而是采用创新的 ...
    大语言模型# Granite 4.0# IBM
    2个月前
    0600
    NeuTTS Air:可在本地运行的高效语音合成模型

    NeuTTS Air:可在本地运行的高效语音合成模型

    长期以来,高质量的文本转语音(TTS)能力主要依赖云端 API——虽然效果好,但存在延迟高、隐私风险、网络依赖等问题。 现在,一种新的选择正在出现:在本地设备上实现自然听感的语音合成。 NeuTTS ...
    语音模型# NeuTTS Air# 语音合成模型
    2个月前
    04460
    KaniTTS 发布:一种高效且富有表现力的文本到语音模型

    KaniTTS 发布:一种高效且富有表现力的文本到语音模型

    NineNineSix 团队近日推出 KaniTTS ——一个专为低延迟、高保真语音合成设计的开源文本到语音(TTS)系统。 GitHub:https://github.com/nineninesix...
    语音模型# KaniTTS
    2个月前
    01360
    Liquid AI 发布 LFM2-Audio:一个轻量级、端到端的音频-文本基础模型

    Liquid AI 发布 LFM2-Audio:一个轻量级、端到端的音频-文本基础模型

    Liquid AI 正式推出 LFM2-Audio-1.5B ——一款专为实时交互设计的端到端多模态基础模型,支持音频与文本的任意输入输出组合。 GitHub:https://github.com/L...
    语音模型# LFM2-Audio# Liquid AI
    2个月前
    0930
    Hume AI 发布 Octave 2:更智能、多语言、低延迟的语音合成系统

    Hume AI 发布 Octave 2:更智能、多语言、低延迟的语音合成系统

    Hume AI 正式推出 Octave 2 ——其下一代文本到语音(TTS)模型的重大升级版本。作为“语音语言模型”(Speech Language Model, SLM)架构的延续,Octave 2...
    语音模型# EVI 4 mini# Hume AI# Octave 2
    2个月前
    0760
    新加坡国立大学等提出 SparseD:让扩散语言模型在长上下文场景高效运行的稀疏注意力新方案

    新加坡国立大学等提出 SparseD:让扩散语言模型在长上下文场景高效运行的稀疏注意力新方案

    扩散语言模型(Diffusion Language Models, DLMs)因其支持并行生成文本的能力,被视为自回归模型(AR)之外的一条重要技术路径。然而,其高昂的推理延迟严重制约了实际应用,尤其...
    大语言模型# SparseD# 稀疏注意力# 长上下文场景
    2个月前
    01120
    SLA:清华与伯克利联合提出可训练稀疏线性注意力,加速DiT视频生成

    SLA:清华与伯克利联合提出可训练稀疏线性注意力,加速DiT视频生成

    在高分辨率、长时序视频生成任务中,扩散变换器(Diffusion Transformer, DiT)已成为主流架构。然而,其核心组件——自注意力机制——面临着一个根本性瓶颈:计算复杂度随序列长度呈平方...
    视频模型# SLA# 可训练混合注意力机制
    2个月前
    0690
    加载更多
    SD百科导航
    SD百科导航是专注于AI创作领域的专业导航网站。我们全面涵盖Stable Diffusion、Flux、AI绘画、AI视频、AI音乐以及大语言模型等前沿内容。

    友链申请免责声明广告合作关于我们

    扫码关注微信公众号SD百科导航
    扫码关注微信公众号
    Copyright © 2025 SD百科导航 皖ICP备18025588号-5  皖公网安备34040002000401 
    网址
    网址文章软件模型

    网址

    日榜周榜月榜
    Fogsight (雾象)

    Fogsight (雾象)

    雾象是一款由大语言模型(LLM)驱动的动画引擎 agent 。用户输入抽象概念或词语,雾象会将其转化为高水平的生动动画。
    朱雀大模型检测

    朱雀大模型检测

    腾讯朱雀 AI 检测是于 2025 年 1 月 17 日推出的一款 AI 生成内容检测工具,主要用于帮助用户识别 AI 生成的文本和图像内容。每位用户每天最多可检测20次文本和20次图片。
    Next AI Draw.io

    Next AI Draw.io

    Next AI Draw.io 是一个基于 Next.js 的 Web 应用,将大语言模型(LLM)与 draw.io 的强大图表能力深度集成。用户可通过自然语言指令创建、修改和增强专业图表,无需手动拖拽。
    Tripo

    Tripo

    Tripo AI 是一家领先的 AI 驱动 3D 建模解决方案提供商,允许用户使用文本、单张图像、多张图像、涂鸦或视频等输入,快速创建高质量的 3D 模型和环境。
    Higgsfield AI

    Higgsfield AI

    Higgsfield AI平台支持文生图和图生视频,近期对图生视频功能进行了全面升级,专为追求高质量、风格化内容创作并渴望真正电影级操控的创意人士打造——无论是MV导演、商业片制作人、AI创作者,还是社交媒体叙事者。
    Google AI Studio

    Google AI Studio

    Google AI Studio 是一个功能齐全的工具,特别适合希望快速构建和试验 AI 应用的开发者。其多模态支持、提示库和与 Gemini API 的无缝集成使其成为生成 AI 开发的有力平台。
    查看完整榜单