SD百科导航
  • 首页
  • 快讯
  • 早报
  • 模型
  • ComfyUI
  • 新技术
  • 百科
    • 教程
    • 硬件
    • 科普
  • 百科工具
    • 工具
  • 知识库
  • 排行榜
    • 首页
    • 快讯
    • 早报
    • 模型
    • ComfyUI
    • 新技术
    • 百科
      • 教程
      • 硬件
      • 科普
    • 百科工具
      • 工具
    • 知识库
    • 排行榜

    模型

    共 1020 篇文章
    百科工具模型ComfyUIAI合集web UI提示词
    大语言模型多模态模型图像模型语音模型3D模型Flux衍生视频模型
    排序
    发布更新浏览点赞
    CoPart:基于“部分”的3D生成框架,让AI更精细地理解3D对象

    CoPart:基于“部分”的3D生成框架,让AI更精细地理解3D对象

    在3D内容生成领域,早期的研究主要依赖于2D渲染图像的多视角驱动方法。然而,随着技术的发展,3D原生扩散模型逐渐展现出更强的生成能力,尤其是在几何建模和纹理细节方面,因为它直接利用了真实3D数据所包含...
    3D模型# 3D生成# CoPart
    5个月前
    02460
    英伟达发布OpenReasoning-Nemotron:多规模推理模型,覆盖数学、科学与编程

    英伟达发布OpenReasoning-Nemotron:多规模推理模型,覆盖数学、科学与编程

    英伟达近日发布了 OpenReasoning-Nemotron 模型家族,这是一组专为数学、科学和编程推理任务优化的大语言模型。 模型:https://huggingface.co/collectio...
    大语言模型# OpenReasoning-Nemotron# 英伟达
    5个月前
    02700
    新型扩散模型 Diffuman4D :从稀疏视角视频中生成高质量、4D 一致的人体自由视角视频

    新型扩散模型 Diffuman4D :从稀疏视角视频中生成高质量、4D 一致的人体自由视角视频

    浙江大学和蚂蚁研究的研究人员推出新型扩散模型 Diffuman4D ,从稀疏视角视频中生成高质量、4D 一致的人体自由视角视频。该模型通过引入滑动迭代去噪过程和基于人体骨骼的姿态条件机制,显著提升了生...
    视频模型# Diffuman4D# 人体自由视角视频
    5个月前
    02360
    FantasyPortrait:基于DIT架构模型的多角色肖像动画生成框架

    FantasyPortrait:基于DIT架构模型的多角色肖像动画生成框架

    由阿里巴巴与北京邮电大学联合提出,FantasyPortrait 是一个基于扩散变换器(Diffusion Transformer)的创新框架,用于从静态图像生成高保真、富有表现力的单角色与多角色面部...
    视频模型# FantasyPortrait# 多角色肖像动画生成
    5个月前
    0950
    蚂蚁集团发布 M2-Reasoning-7B:通用与空间推理能力领先的多模态大模型

    蚂蚁集团发布 M2-Reasoning-7B:通用与空间推理能力领先的多模态大模型

    蚂蚁集团 inclusionAI 项目组 正式发布 M2-Reasoning-7B,一个在通用推理与空间推理领域表现卓越的多模态大语言模型(MLLM)。该模型基于 70 亿参数架构,通过创新的数据生成...
    多模态模型# M2-Reasoning-7B# 多模态大模型# 蚂蚁集团
    5个月前
    01630
    字节跳动开源 Seed-X:70亿参数的多语言翻译模型,性能媲美 GPT-4 和 Gemini

    字节跳动开源 Seed-X:70亿参数的多语言翻译模型,性能媲美 GPT-4 和 Gemini

    字节跳动推出Seed-X,这是一个开源的多语言翻译模型系列,包括指令模型、强化学习模型和奖励模型,参数规模为 70亿(7B),却在翻译能力上展现出媲美甚至超越超大规模闭源模型(如 Gemini-2.5...
    大语言模型# SEED-X# 多语言翻译模型# 字节跳动
    5个月前
    01110
    RouWei-Gemma:基于 Gemma-3-1b 的文本编码器适配器(用于 Rouwei 0.8)

    RouWei-Gemma:基于 Gemma-3-1b 的文本编码器适配器(用于 Rouwei 0.8)

    RouWei-Gemma是一个为 Rouwei 0.8 开发的文本编码器适配器,基于 Gemma-3-1b 构建,用于替换 SDXL 中的 CLIP 文本编码器。它利用大语言模型(LLM)的强大语义理...
    图像模型# Gemma-3-1b# Rouwei 0.8# RouWei-Gemma
    5个月前
    02280
    ColPali:基于视觉语言模型的新型高效文档检索系统

    ColPali:基于视觉语言模型的新型高效文档检索系统

    由 Illuin科技、Equall.ai、巴黎-萨克雷大学和苏黎世联邦理工学院 联合提出,ColPali 是一种基于视觉语言模型(VLMs)的文档检索模型,能够直接从文档图像中提取信息,实现快速、准确...
    多模态模型# ColPali# 文档检索
    5个月前
    01300
    ColQwen2.5-Omni:首个支持视觉+音频检索的ColBERT风格模型

    ColQwen2.5-Omni:首个支持视觉+音频检索的ColBERT风格模型

    ColQwen2.5-Omni 是基于 Qwen2.5-Omni-3B-Instruct 的新一代多模态检索模型。该模型采用 ColBERT 策略,支持从图像、音频等多模态内容中高效检索信息,是目前首...
    多模态模型# ColQwen2.5-Omni
    5个月前
    01440
    清华、普林斯顿等联合推出数学定理证明模型Goedel-Prover-V2:在自动形式化数学证明生成领域树立了新的技术标杆

    清华、普林斯顿等联合推出数学定理证明模型Goedel-Prover-V2:在自动形式化数学证明生成领域树立了新的技术标杆

    近日,由普林斯顿大学语言与智能实验室、清华大学、英伟达、斯坦福大学、Meta FAIR、亚马逊、上海交通大学和北京大学联合研发的 Goedel-Prover-V2 正式发布。这是一系列开源语言模型,在...
    大语言模型# Goedel-Prover-V2# 数学定理证明模型
    5个月前
    01780
    北大、字节跳动与卡内基梅隆大学联合推出MoVieS:一秒钟完成4D动态视角合成的革命性模型

    北大、字节跳动与卡内基梅隆大学联合推出MoVieS:一秒钟完成4D动态视角合成的革命性模型

    你有没有想象过,仅凭一段普通的手机视频,就能“穿越”到画面中,从任意角度和时间点重新观察整个动态场景?比如在一场足球比赛中,你可以自由“飞行”在球场上空,从不同角度观看球员跑动、球的轨迹,甚至追踪每一...
    3D模型# MoVieS# 前馈模型
    5个月前
    01610
    LightX2V:轻量级视频生成推理框架,统一支持多种模态输入

    LightX2V:轻量级视频生成推理框架,统一支持多种模态输入

    随着多模态生成模型的发展,文本到视频(T2V)、图像到视频(I2V)等任务逐渐成为研究热点。然而,不同模型往往使用不同的推理流程,导致部署与调用复杂、资源占用高。 为此,研究人员推出了一个全新的轻量级...
    视频模型# LightX2V# 视频生成
    5个月前
    02400
    加载更多
    SD百科导航
    SD百科导航是专注于AI创作领域的专业导航网站。我们全面涵盖Stable Diffusion、Flux、AI绘画、AI视频、AI音乐以及大语言模型等前沿内容。

    关于我们网址提交友链申请广告合作

    扫码关注微信公众号SD百科导航
    扫码关注微信公众号
    Copyright © 2025 SD百科导航 皖ICP备18025588号-5  皖公网安备34040002000401 
    网址
    网址文章软件模型

    网址

    日榜周榜月榜
    Fogsight (雾象)

    Fogsight (雾象)

    雾象是一款由大语言模型(LLM)驱动的动画引擎 agent 。用户输入抽象概念或词语,雾象会将其转化为高水平的生动动画。
    人生 K 线

    新人生 K 线

    人生 K 线(Life Destiny K-Line)是一个结合传统八字命理与现代大语言模型(LLM)的轻量级可视化工具。它将一个人从 1 岁到 100 岁的运势走势,以类似股票 K 线图的形式呈现,试图用数据可视化的方式“翻译”命理推演结果。
    PDF Craft

    新PDF Craft

    PDF Craft是一款专注于扫描版书籍 PDF 转换的开源工具。它利用 DeepSeek OCR 模型,在本地完成从图像型 PDF 到结构化电子书(如 Markdown 或 EPUB)的全流程处理,无需联网,不依赖大语言模型(LLM),适合对隐私、精度与效率有要求的用户。
    朱雀大模型检测

    朱雀大模型检测

    腾讯朱雀 AI 检测是于 2025 年 1 月 17 日推出的一款 AI 生成内容检测工具,主要用于帮助用户识别 AI 生成的文本和图像内容。每位用户每天最多可检测20次文本和20次图片。
    秒哒

    秒哒

    百度秒哒,由百度智能云倾力打造的国内首个“对话式”应用开发平台,正式全量上线。作为一款无代码工具,秒哒致力于让每个人都能通过自然语言描述需求,自动生成完整功能代码,轻松实现创意想法。
    AUI

    AUI

    AUI推出的新型基础模型 Apollo-1,基于一种名为 有状态神经符号推理(Stateful Neurosymbolic Reasoning) 的混合架构,在多个任务导向基准测试中实现了超过90%的任务完成率,远超当前主流模型。
    查看完整榜单