SD百科导航
  • 首页
  • 快讯
  • 早报
  • 模型
  • ComfyUI
  • 新技术
  • 百科
    • 教程
    • 硬件
    • 科普
  • 百科工具
    • 工具
  • 知识库
  • 排行榜
    • 首页
    • 快讯
    • 早报
    • 模型
    • ComfyUI
    • 新技术
    • 百科
      • 教程
      • 硬件
      • 科普
    • 百科工具
      • 工具
    • 知识库
    • 排行榜

    模型

    共 1020 篇文章
    百科工具模型ComfyUIAI合集web UI提示词
    大语言模型多模态模型图像模型语音模型3D模型Flux衍生视频模型
    排序
    发布更新浏览点赞
    月之暗面开源智能代理基础模型Kimi K2,参数达 1T,激活参数 32B

    月之暗面开源智能代理基础模型Kimi K2,参数达 1T,激活参数 32B

    月之暗面正式发布其新一代 MoE 架构大模型——Kimi K2,并同步开源。该模型具备卓越的代码能力、数学推理能力以及智能代理(Agent)任务处理能力,是目前最适配于构建自主化智能系统的开源基础模型...
    大语言模型# Kimi K2# 推理模型# 智能代理模型
    5个月前
    01220
    Reka AI发布推理模型Reka Flash 3.1 :强化学习驱动的高效推理模型升级

    Reka AI发布推理模型Reka Flash 3.1 :强化学习驱动的高效推理模型升级

    Reka AI 正式发布了其推理模型 Reka Flash 3.1,这是其 21 亿参数模型 Reka Flash 3 的重要升级版本。该模型在代码生成、智能体任务微调等方面表现尤为突出,并作为 Re...
    大语言模型# Reka AI# Reka Flash 3.1# 推理模型
    5个月前
    01400
    Kimina-Prover:首个实现人类级形式推理的大型定理证明模型

    Kimina-Prover:首个实现人类级形式推理的大型定理证明模型

    由 Numina 与 Kimi 团队联合开发的 Kimina-Prover-72B 正式发布。这是目前在 Lean 4 形式化语言中,首个能够以接近人类方式推理并自动构建数学定理证明的大型神经定理证明...
    大语言模型# Kimina-Prover# 大型定理证明模型
    5个月前
    02030
    Sarvam AI 发布 Sarvam-Translate:支持印度22种语言的文档级翻译模型

    Sarvam AI 发布 Sarvam-Translate:支持印度22种语言的文档级翻译模型

    Sarvam AI 推出了其最新翻译模型 Sarvam-Translate,一款专注于支持印度 22 种官方语言的高质量、上下文感知翻译系统。该模型基于 Google 的 Gemma3-4B-IT 进...
    大语言模型# Sarvam AI# Sarvam-Translate# 翻译模型
    5个月前
    01340
    清华大学推出SketchColour:基于扩散变换器的高效 2D 动画自动上色方案

    清华大学推出SketchColour:基于扩散变换器的高效 2D 动画自动上色方案

    清华大学的研究人员提出了一种全新的 2D 动画着色方法——SketchColour。该方法基于扩散变换器(DiT)架构,能够将黑白草图序列自动转换为连贯的彩色动画,显著提升动画制作效率。 项目主页:h...
    视频模型# 2D 动画自动上色# SketchColour
    5个月前
    01450
    字节跳动推出多模态文档图像解析模型Dolphin

    字节跳动推出多模态文档图像解析模型Dolphin

    在复杂文档图像理解和结构化提取任务中,如何准确识别并组织交织的文本段落、公式、表格和图像,一直是业界的技术难点。 GitHub:https://github.com/bytedance/Dolphin...
    多模态模型# Dolphin# 多模态模型# 字节跳动
    5个月前
    03620
    微软推出 Phi 模型家族的最新成员 — Phi-4-mini-flash-reasoning

    微软推出 Phi 模型家族的最新成员 — Phi-4-mini-flash-reasoning

    微软今天宣布推出 Phi 模型家族的最新成员 —— Phi-4-mini-flash-reasoning。这款模型专为计算、内存和延迟受限的场景设计,为边缘设备、移动应用等资源受限环境提供高效的推理能...
    大语言模型# Phi-4-mini-flash-reasoning# 微软
    5个月前
    0970
    谷歌推出开源医疗 AI 模型系列MedGemma及轻量级图像编码器 MedSigLIP

    谷歌推出开源医疗 AI 模型系列MedGemma及轻量级图像编码器 MedSigLIP

    谷歌近日宣布推出其最新的开源医疗 AI 模型系列——MedGemma,并同时发布了轻量级图像编码器 MedSigLIP。这是继健康 AI 开发者基础(HAI-DEF)项目之后,谷歌在医疗 AI 领域迈...
    多模态模型# MedGemma# MedSigLIP# 谷歌
    5个月前
    01520
    T5Gemma:谷歌推出全新编码器-解码器 Gemma 模型系列

    T5Gemma:谷歌推出全新编码器-解码器 Gemma 模型系列

    在当前大语言模型(LLM)领域中,解码器独占架构凭借其强大的生成能力成为主流。然而,经典的编码器-解码器架构——如 T5(文本到文本转换变换器)——因其出色的推理效率、灵活的设计以及对输入语义的深度理...
    大语言模型# T5Gemma# 解码器# 谷歌
    5个月前
    03330
     OmniPart:用于生成具有明确部件结构的 3D 对象的框架

     OmniPart:用于生成具有明确部件结构的 3D 对象的框架

    香港大学、哈尔滨大学、VAST和浙江大学的研究人员推出 OmniPart,这是一个用于生成具有明确部件结构的 3D 对象的框架。OmniPart 通过将复杂的 3D 对象分解为可控制的部件,并在保持语...
    3D模型# OmniPart
    5个月前
    04040
    StreamDiT:实现实时流式文本到视频生成的新一代扩散模型

    StreamDiT:实现实时流式文本到视频生成的新一代扩散模型

    近年来,随着基于变换器(Transformer)的扩散模型向数十亿参数扩展,文本到视频(Text-to-Video, T2V)生成技术取得了显著进展。尽管当前模型已能生成高质量视频内容,但它们通常只能...
    视频模型# StreamDiT# 流式视频生成模型
    5个月前
    03010
    字节跳动 & 南大联合推出 CriticLean 框架:让 AI 更准确地翻译数学为代码

    字节跳动 & 南大联合推出 CriticLean 框架:让 AI 更准确地翻译数学为代码

    将自然语言数学语句自动转化为形式化代码(如 Lean 4)是计算数学中的核心挑战之一。尽管已有许多自动化工具尝试解决这一问题,但其准确性仍面临瓶颈,尤其是在需要深入理解语义的复杂场景中。 为此,字节跳...
    大语言模型# CriticLean# 字节跳动
    5个月前
    01650
    加载更多
    SD百科导航
    SD百科导航是专注于AI创作领域的专业导航网站。我们全面涵盖Stable Diffusion、Flux、AI绘画、AI视频、AI音乐以及大语言模型等前沿内容。

    关于我们网址提交友链申请广告合作

    扫码关注微信公众号SD百科导航
    扫码关注微信公众号
    Copyright © 2025 SD百科导航 皖ICP备18025588号-5  皖公网安备34040002000401 
    网址
    网址文章软件模型

    网址

    日榜周榜月榜
    人生 K 线

    新人生 K 线

    人生 K 线(Life Destiny K-Line)是一个结合传统八字命理与现代大语言模型(LLM)的轻量级可视化工具。它将一个人从 1 岁到 100 岁的运势走势,以类似股票 K 线图的形式呈现,试图用数据可视化的方式“翻译”命理推演结果。
    Fogsight (雾象)

    Fogsight (雾象)

    雾象是一款由大语言模型(LLM)驱动的动画引擎 agent 。用户输入抽象概念或词语,雾象会将其转化为高水平的生动动画。
    PDF Craft

    新PDF Craft

    PDF Craft是一款专注于扫描版书籍 PDF 转换的开源工具。它利用 DeepSeek OCR 模型,在本地完成从图像型 PDF 到结构化电子书(如 Markdown 或 EPUB)的全流程处理,无需联网,不依赖大语言模型(LLM),适合对隐私、精度与效率有要求的用户。
    朱雀大模型检测

    朱雀大模型检测

    腾讯朱雀 AI 检测是于 2025 年 1 月 17 日推出的一款 AI 生成内容检测工具,主要用于帮助用户识别 AI 生成的文本和图像内容。每位用户每天最多可检测20次文本和20次图片。
    Higgsfield AI

    Higgsfield AI

    Higgsfield AI平台支持文生图和图生视频,近期对图生视频功能进行了全面升级,专为追求高质量、风格化内容创作并渴望真正电影级操控的创意人士打造——无论是MV导演、商业片制作人、AI创作者,还是社交媒体叙事者。
    Tripo

    Tripo

    Tripo AI 是一家领先的 AI 驱动 3D 建模解决方案提供商,允许用户使用文本、单张图像、多张图像、涂鸦或视频等输入,快速创建高质量的 3D 模型和环境。
    查看完整榜单