SD百科导航
  • 首页
  • 快讯
  • 早报
  • 模型
  • ComfyUI
  • 新技术
  • 百科
    • 教程
    • 硬件
    • 科普
  • 百科工具
    • 工具
  • 排行榜
  • 网址提交
    • 首页
    • 快讯
    • 早报
    • 模型
    • ComfyUI
    • 新技术
    • 百科
      • 教程
      • 硬件
      • 科普
    • 百科工具
      • 工具
    • 排行榜
    • 网址提交

    模型

    共 1051 篇文章
    百科工具模型ComfyUIAI合集web UI提示词
    大语言模型多模态模型图像模型语音模型3D模型Flux衍生视频模型
    排序
    发布更新浏览点赞
    DMOSpeech 2:用强化学习优化语音合成的时长预测

    DMOSpeech 2:用强化学习优化语音合成的时长预测

    在零样本文本到语音(TTS)领域,基于扩散模型的系统近年来取得了显著进展。然而,大多数方法仍难以实现对整个生成流程的端到端感知质量优化——尤其是时长预测这一关键组件,长期依赖自监督训练,未能与语音生成...
    语音模型# DMOSpeech 2# TTS 框架
    6个月前
    02910
    告别旧版,迎接进化!阿里Qwen团队发布Qwen3-235B-A22B-Instruct-2507

    告别旧版,迎接进化!阿里Qwen团队发布Qwen3-235B-A22B-Instruct-2507

    在与社区深入交流并综合反馈后,阿里Qwen团队做出一项重要决策:停止使用混合“思维模式”(Thinking Mode)的训练方式,转而采用 Instruct 与 Thinking 模型分离训练 的新策...
    大语言模型# Qwen3-235B-A22B-Instruct-2507
    6个月前
    06040
    CoPart:基于“部分”的3D生成框架,让AI更精细地理解3D对象

    CoPart:基于“部分”的3D生成框架,让AI更精细地理解3D对象

    在3D内容生成领域,早期的研究主要依赖于2D渲染图像的多视角驱动方法。然而,随着技术的发展,3D原生扩散模型逐渐展现出更强的生成能力,尤其是在几何建模和纹理细节方面,因为它直接利用了真实3D数据所包含...
    3D模型# 3D生成# CoPart
    6个月前
    02680
    英伟达发布OpenReasoning-Nemotron:多规模推理模型,覆盖数学、科学与编程

    英伟达发布OpenReasoning-Nemotron:多规模推理模型,覆盖数学、科学与编程

    英伟达近日发布了 OpenReasoning-Nemotron 模型家族,这是一组专为数学、科学和编程推理任务优化的大语言模型。 模型:https://huggingface.co/collectio...
    大语言模型# OpenReasoning-Nemotron# 英伟达
    6个月前
    02760
    新型扩散模型 Diffuman4D :从稀疏视角视频中生成高质量、4D 一致的人体自由视角视频

    新型扩散模型 Diffuman4D :从稀疏视角视频中生成高质量、4D 一致的人体自由视角视频

    浙江大学和蚂蚁研究的研究人员推出新型扩散模型 Diffuman4D ,从稀疏视角视频中生成高质量、4D 一致的人体自由视角视频。该模型通过引入滑动迭代去噪过程和基于人体骨骼的姿态条件机制,显著提升了生...
    视频模型# Diffuman4D# 人体自由视角视频
    6个月前
    02730
    FantasyPortrait:基于DIT架构模型的多角色肖像动画生成框架

    FantasyPortrait:基于DIT架构模型的多角色肖像动画生成框架

    由阿里巴巴与北京邮电大学联合提出,FantasyPortrait 是一个基于扩散变换器(Diffusion Transformer)的创新框架,用于从静态图像生成高保真、富有表现力的单角色与多角色面部...
    视频模型# FantasyPortrait# 多角色肖像动画生成
    6个月前
    0960
    蚂蚁集团发布 M2-Reasoning-7B:通用与空间推理能力领先的多模态大模型

    蚂蚁集团发布 M2-Reasoning-7B:通用与空间推理能力领先的多模态大模型

    蚂蚁集团 inclusionAI 项目组 正式发布 M2-Reasoning-7B,一个在通用推理与空间推理领域表现卓越的多模态大语言模型(MLLM)。该模型基于 70 亿参数架构,通过创新的数据生成...
    多模态模型# M2-Reasoning-7B# 多模态大模型# 蚂蚁集团
    6个月前
    01720
    字节跳动开源 Seed-X:70亿参数的多语言翻译模型,性能媲美 GPT-4 和 Gemini

    字节跳动开源 Seed-X:70亿参数的多语言翻译模型,性能媲美 GPT-4 和 Gemini

    字节跳动推出Seed-X,这是一个开源的多语言翻译模型系列,包括指令模型、强化学习模型和奖励模型,参数规模为 70亿(7B),却在翻译能力上展现出媲美甚至超越超大规模闭源模型(如 Gemini-2.5...
    大语言模型# SEED-X# 多语言翻译模型# 字节跳动
    6个月前
    01130
    RouWei-Gemma:基于 Gemma-3-1b 的文本编码器适配器(用于 Rouwei 0.8)

    RouWei-Gemma:基于 Gemma-3-1b 的文本编码器适配器(用于 Rouwei 0.8)

    RouWei-Gemma是一个为 Rouwei 0.8 开发的文本编码器适配器,基于 Gemma-3-1b 构建,用于替换 SDXL 中的 CLIP 文本编码器。它利用大语言模型(LLM)的强大语义理...
    图像模型# Gemma-3-1b# Rouwei 0.8# RouWei-Gemma
    6个月前
    02630
    ColPali:基于视觉语言模型的新型高效文档检索系统

    ColPali:基于视觉语言模型的新型高效文档检索系统

    由 Illuin科技、Equall.ai、巴黎-萨克雷大学和苏黎世联邦理工学院 联合提出,ColPali 是一种基于视觉语言模型(VLMs)的文档检索模型,能够直接从文档图像中提取信息,实现快速、准确...
    多模态模型# ColPali# 文档检索
    6个月前
    01310
    ColQwen2.5-Omni:首个支持视觉+音频检索的ColBERT风格模型

    ColQwen2.5-Omni:首个支持视觉+音频检索的ColBERT风格模型

    ColQwen2.5-Omni 是基于 Qwen2.5-Omni-3B-Instruct 的新一代多模态检索模型。该模型采用 ColBERT 策略,支持从图像、音频等多模态内容中高效检索信息,是目前首...
    多模态模型# ColQwen2.5-Omni
    6个月前
    01500
    清华、普林斯顿等联合推出数学定理证明模型Goedel-Prover-V2:在自动形式化数学证明生成领域树立了新的技术标杆

    清华、普林斯顿等联合推出数学定理证明模型Goedel-Prover-V2:在自动形式化数学证明生成领域树立了新的技术标杆

    近日,由普林斯顿大学语言与智能实验室、清华大学、英伟达、斯坦福大学、Meta FAIR、亚马逊、上海交通大学和北京大学联合研发的 Goedel-Prover-V2 正式发布。这是一系列开源语言模型,在...
    大语言模型# Goedel-Prover-V2# 数学定理证明模型
    6个月前
    01900
    加载更多
    SD百科导航
    SD百科导航是专注于AI创作领域的专业导航网站。我们全面涵盖Stable Diffusion、Flux、AI绘画、AI视频、AI音乐以及大语言模型等前沿内容。

    关于我们网址提交友链申请广告合作

    扫码关注微信公众号SD百科导航
    扫码关注微信公众号
    Copyright © 2026 SD百科导航 皖ICP备18025588号-5  皖公网安备34040002000401 
    网址
    网址文章软件模型

    网址

    日榜周榜月榜
    人生 K 线

    人生 K 线

    人生 K 线(Life Destiny K-Line)是一个结合传统八字命理与现代大语言模型(LLM)的轻量级可视化工具。它将一个人从 1 岁到 100 岁的运势走势,以类似股票 K 线图的形式呈现,试图用数据可视化的方式“翻译”命理推演结果。
    MiroFish

    MiroFish

    MiroFish 是一款基于多智能体技术的新一代 AI 预测引擎。通过提取现实世界的种子信息(如突发新闻、政策草案、金融信号),自动构建出高保真的平行数字世界。
    Higgsfield AI

    Higgsfield AI

    Higgsfield AI平台支持文生图和图生视频,近期对图生视频功能进行了全面升级,专为追求高质量、风格化内容创作并渴望真正电影级操控的创意人士打造——无论是MV导演、商业片制作人、AI创作者,还是社交媒体叙事者。
    Fogsight (雾象)

    Fogsight (雾象)

    雾象是一款由大语言模型(LLM)驱动的动画引擎 agent 。用户输入抽象概念或词语,雾象会将其转化为高水平的生动动画。
    Grok

    Grok

    Grok是一款先进的对话式人工智能。Grok 旨在提供高效、准确且自然的对话交互体验,适用于多种应用场景,包括客户服务、虚拟助手、教育辅导等。
    AI-Paperless

    AI-Paperless

    AI-Paperless是基于卓越的开源文档管理系统 paperless-ngx 深度二次开发,创新性地融合了 大语言模型(LLM) 与 视觉模型(VLM) 等先进 AI 能力。目标是打造一个功能更强大、交互更智能、管理更高效的智能文档知识库,让您的文档真正实现深度理解与高效利用。
    查看完整榜单