SD百科导航
  • 首页
  • 快讯
  • 早报
  • 模型
  • ComfyUI
  • 新技术
  • 百科
    • 教程
    • 硬件
    • 科普
  • 百科工具
    • 工具
  • 排行榜
  • 网址提交
    • 首页
    • 快讯
    • 早报
    • 模型
    • ComfyUI
    • 新技术
    • 百科
      • 教程
      • 硬件
      • 科普
    • 百科工具
      • 工具
    • 排行榜
    • 网址提交

    模型

    共 1136 篇文章
    百科工具模型ComfyUIAI合集web UI提示词
    大语言模型多模态模型图像模型语音模型3D模型Flux衍生视频模型世界模型
    排序
    发布更新浏览点赞
    Janus-4o:基于数据集 ShareGPT-4o-Image 的新型多模态图像生成模型

    Janus-4o:基于数据集 ShareGPT-4o-Image 的新型多模态图像生成模型

    香港中文大学(深圳) 的研究人员推出了一项重要的多模态研究成果 —— ShareGPT-4o-Image 数据集 及其衍生的开源多模态大语言模型 Janus-4o。该研究旨在将 GPT-4o 在图像生...
    图像模型# Janus-4o# ShareGPT-4o-Image# 数据集
    8个月前
    03430
    阿里通义实验室推出的端到端网络代理训练框架WebDancer

    阿里通义实验室推出的端到端网络代理训练框架WebDancer

    在信息检索和智能代理领域,如何让 AI 代理具备自主搜索、推理和决策能力是一个关键挑战。为此,阿里通义实验室提出了 WebDancer —— 一个全新的 端到端代理训练框架,旨在增强基于网络的代理在多...
    大语言模型# WebDancer# 阿里通义实验室
    8个月前
    02770
    对话也能生成语音?复旦大学开源 MOSS-TTSD 实现高质量对话语音合成

    对话也能生成语音?复旦大学开源 MOSS-TTSD 实现高质量对话语音合成

    复旦大学 OpenMOSS 团队正式发布了全新语音生成模型 MOSS-TTSD(Text to Spoken Dialogue),这是目前首个能够直接从对话文本生成自然、富有表现力对话语音的大规模模型...
    语音模型# MOSS-TTSD# 复旦大学
    8个月前
    06240
    Neta Lumina 发布:专为二次元创作打造的高品质图像生成模型

    Neta Lumina 发布:专为二次元创作打造的高品质图像生成模型

    由捏Ta实验室(Neta.art)训练的 Neta Lumina 是一款专注于二次元风格的高质量图像生成模型。此模型基于上海人工智能实验室 Alpha-VLLM 团队开源的 Lumina-Image...
    图像模型# Neta Lumina# 二次元
    8个月前
    09870
    DRA-Ctrl:利用视频生成模型实现可控图像生成的新范式

    DRA-Ctrl:利用视频生成模型实现可控图像生成的新范式

    近年来,视频生成模型因其能够捕捉现实世界中的动态变化和复杂因果关系,被广泛视为一种“世界模拟器”。它们整合了视觉、时间、空间和语义等多个维度的信息,在建模长程依赖和多模态交互方面展现出强大潜力。 那么...
    图像模型# DRA-Ctrl# HunyuanVideo-I2V# 知识迁移
    8个月前
    03180
    Kyutai STT:低延迟、高吞吐的流式语音识别模型,专为实时交互优化

    Kyutai STT:低延迟、高吞吐的流式语音识别模型,专为实时交互优化

    近日,Kyutai 实验室发布了一款全新的流式语音转文本(Speech-to-Text)模型——Kyutai STT,专为实时语音交互场景设计,在延迟与准确性之间实现了出色平衡,非常适合如语音助手、在...
    语音模型# Kyutai STT# 语音识别模型
    8个月前
    03450
    国内首个专攻K-12数学教育的大模型开源!网易有道发布“子曰3数学模型”,可在单卡消费级显卡运行

    国内首个专攻K-12数学教育的大模型开源!网易有道发布“子曰3数学模型”,可在单卡消费级显卡运行

    网易有道宣布正式开源其“子曰3”系列大模型中的 数学推理专用模型——Confucius3-Math(中文名:子曰3数学模型),这是国内首个专注于 K-12 数学教育、且可在单块消费级 GPU(如 RT...
    大语言模型# Confucius3-Math# 子曰3数学模型# 网易有道
    8个月前
    02970
    微软新推 Mu 模型:专为 Windows 设置代理而生的小而强语言模型

    微软新推 Mu 模型:专为 Windows 设置代理而生的小而强语言模型

    微软近日推出了一款全新的小型语言模型——Mu,它专为边缘设备和特定任务设计,在本地运行时展现出卓越性能。目前,Mu 已经在 Copilot+ PC 的 Windows Insider 开发频道中,用于...
    大语言模型# Mu 模型# 微软
    8个月前
    02180
    LongWriter-Zero:通过强化学习从零开始训练大语言模型,以实现超长文本生成

    LongWriter-Zero:通过强化学习从零开始训练大语言模型,以实现超长文本生成

    新加坡科技设计大学和清华大学的研究人员推出新型模型LongWriter-Zero,基于 Qwen 2.5-32B-Base 构建,通过强化学习(RL)从零开始训练大语言模型(LLMs),以实现超长文本...
    大语言模型# LongWriter-Zero# 大语言模型
    8个月前
    02510
    多模态框架Tar:通过统一的离散语义表示将视觉理解和生成任务整合到一个共享空间中

    多模态框架Tar:通过统一的离散语义表示将视觉理解和生成任务整合到一个共享空间中

    香港中文大学和字节跳动的研究人员推出多模态框架Tar,通过统一的离散语义表示将视觉理解和生成任务整合到一个共享空间中。该框架的核心是 Text-Aligned Tokenizer (TA-Tok),它...
    图像模型# Tar# 多模态框架
    8个月前
    03800
    新型轨迹感知过程奖励模型(PRM) ReasonFlux-PRM:专门用于评估大型语言模型在长链推理中的轨迹-响应型推理痕迹

    新型轨迹感知过程奖励模型(PRM) ReasonFlux-PRM:专门用于评估大型语言模型在长链推理中的轨迹-响应型推理痕迹

    伊利诺伊大学厄巴纳-香槟分校、普林斯顿大学、康奈尔大学和字节跳动的研究人员推出新型轨迹感知过程奖励模型(PRM) ReasonFlux-PRM,专门用于评估大型语言模型(LLMs)在长链推理(Long...
    大语言模型# ReasonFlux-PRM# 轨迹感知过程奖励模型
    8个月前
    02420
    昆仑万维开源代码模型 Skywork-SWE-32B:用消费级显卡部署 AI 工程师的新可能

    昆仑万维开源代码模型 Skywork-SWE-32B:用消费级显卡部署 AI 工程师的新可能

    今天,昆仑万维正式宣布开源其最新推出的代码智能体 Skywork-SWE-32B,该模型专为软件工程(SWE)任务设计,在 SWE-bench Verified 基准测试中达到 38.0% 的 pas...
    大语言模型# Skywork-SWE-32B# 代码模型# 昆仑万维
    8个月前
    03190
    加载更多
    SD百科导航
    SD百科导航是专注于AI创作领域的专业导航网站。我们全面涵盖Stable Diffusion、Flux、AI绘画、AI视频、AI音乐以及大语言模型等前沿内容。

    关于我们网址提交友链申请广告合作

    扫码关注微信公众号SD百科导航
    扫码关注微信公众号
    Copyright © 2026 SD百科导航 皖ICP备18025588号-5  皖公网安备34040002000401 
    网址
    网址文章软件模型

    网址

    日榜周榜月榜
    YouMind

    YouMind

    YouMind 是一款重新构想的 AI 写作工具,帮助每个人轻松开启创作之旅。捕捉灵感、收集素材、撰写草稿,并将其转化为精炼的文章、播客、视频等丰富内容。
    OpenClaw(Clawdbot/Moltbot)

    OpenClaw(Clawdbot/Moltbot)

    Clawdbot 是一款可在您自己的设备上运行的个人 AI 助手。它在您已使用的渠道(WhatsApp、Telegram、Slack、Discord、Google Chat、Signal、iMessage、Microsoft Teams、WebChat)以及扩展渠道(如 BlueBubbles、Matrix、Zalo 和 Zalo Personal)上为您提供应答。它可以在 macOS/iOS/Android 上进行语音交谈,并能渲染一个您可控制的实时画布。网关仅是控制平面——核心产品是助手本身。
     CutCut

     CutCut

    CutCut是一个视频下载与剪辑工具,支持从 YouTube、Bilibili 等主流平台直接按章节或自定义时间范围下载片段,无需先下完整视频再剪辑。
    Skills.sh

    Skills.sh

    Vercel 近日上线了一个名为 skills.sh 的新站点,专门用于发现、浏览和安装 AI 智能体的“技能”(Skills)。
    OpenClaw

    OpenClaw

    OpenClaw 是一个个人 AI 助手,可在您自己的设备上运行。它通过您已经使用的渠道(WhatsApp、Telegram、Slack、Discord、Google Chat、Signal、iMessage、Microsoft Teams、WebChat)以及 BlueBubbles、Matrix、Zalo 和 Zalo Personal 等扩展渠道与您交流。它可以在 macOS/iOS/Android 上说话和聆听,并能渲染一个您控制的实时画布。网关只是控制平面——产品本身才是助手。
    Fogsight (雾象)

    Fogsight (雾象)

    雾象是一款由大语言模型(LLM)驱动的动画引擎 agent 。用户输入抽象概念或词语,雾象会将其转化为高水平的生动动画。
    查看完整榜单