SD百科导航
  • 首页
  • 快讯
  • 早报
  • 模型
  • ComfyUI
  • 新技术
  • 百科
    • 教程
    • 硬件
    • 科普
  • 百科工具
    • 工具
  • 知识库
  • 排行榜
    • 首页
    • 快讯
    • 早报
    • 模型
    • ComfyUI
    • 新技术
    • 百科
      • 教程
      • 硬件
      • 科普
    • 百科工具
      • 工具
    • 知识库
    • 排行榜

    模型

    共 1017 篇文章
    百科工具模型ComfyUIAI合集web UI提示词
    大语言模型多模态模型图像模型语音模型3D模型Flux衍生视频模型
    排序
    发布更新浏览点赞
    Chroma 模型家族正式发布:基于 FLUX.1-schnell,8.9亿参数开源无限制,4大分支适配不同需求

    Chroma 模型家族正式发布:基于 FLUX.1-schnell,8.9亿参数开源无限制,4大分支适配不同需求

    开发者 lodestones 近期宣布,基于 FLUX.1-schnell 构建的 8.9 亿参数生成模型 Chroma 已完成全部基础训练,正式开放供开发者与研究者使用。作为完全遵循 Apache ...
    图像模型# Chroma# FLUX.1 [schnell]
    4个月前
    09220
    GNER-T5-XXL:GNER 提升零样本实体识别能力,可用于 Flux、Chroma 等模型

    GNER-T5-XXL:GNER 提升零样本实体识别能力,可用于 Flux、Chroma 等模型

    在多模态生成系统中,精准识别文本中的关键语义元素,是生成高质量图像或内容的前提。例如,当输入提示词“一位身着红色礼服的女人,手持手枪,站在黑暗小巷中”,模型需要准确识别出“红色礼服”“手枪”“黑暗小巷...
    图像模型# Chroma# FLUX# GNER-T5-XXL
    4个月前
    02250
    南大、复旦联合英伟达提出LongVie:可控超长视频生成突破1分钟,解决时间不一致难题

    南大、复旦联合英伟达提出LongVie:可控超长视频生成突破1分钟,解决时间不一致难题

    可控超长视频生成(如生成1分钟以上、场景与动作精准可控的视频)是AI生成领域的核心挑战——现有方法在短视频生成中表现尚可,但扩展到长视频时,常出现时间不一致(帧间突变、物体位置漂移)与视觉质量下降(颜...
    视频模型# LongVie# 视频生成
    4个月前
    01460
    深度求索发布 DeepSeek-V3.1:混合思考模式 + 128K 上下文,API 同步升级并支持 Anthropic 格式

    深度求索发布 DeepSeek-V3.1:混合思考模式 + 128K 上下文,API 同步升级并支持 Anthropic 格式

    深度求索(DeepSeek)正式推出 DeepSeek-V3.1 —— 一个在架构设计、推理效率和智能体能力上全面升级的新版本模型。此次更新不仅提升了性能,更引入了混合思考模式,让同一个模型可灵活适应...
    大语言模型# DeepSeek-V3.1# 深度求索
    4个月前
    02410
    阿里通义实验室推出 Mobile-Agent-v3 框架:为图形用户界面(GUI)任务的自动化带来了全新的解决方案

    阿里通义实验室推出 Mobile-Agent-v3 框架:为图形用户界面(GUI)任务的自动化带来了全新的解决方案

    在当今数字化时代,自动化技术的发展日新月异。阿里通义实验室作为行业内的创新先锋,于近期推出了令人瞩目的Mobile-Agent-v3框架,为图形用户界面(GUI)任务的自动化带来了全新的解决方案。 G...
    多模态模型# Mobile-Agent-v3# 图形用户界面# 通义实验室
    4个月前
    08300
    字节跳动 Seed 团队发布 Seed-OSS 系列开源模型:36B 参数,512K 长上下文,可灵活调整思考长度

    字节跳动 Seed 团队发布 Seed-OSS 系列开源模型:36B 参数,512K 长上下文,可灵活调整思考长度

    字节跳动Seed团队正式推出Seed-OSS系列开放权重模型,该系列均为36B参数规模,聚焦长上下文处理、推理能力与代理任务优化,以Apache-2.0许可证开源,为开发者与研究社区提供高实用性工具...
    大语言模型# Seed-OSS# 字节跳动
    4个月前
    02620
    视频多模态大语言模型RynnEC:专为具身认知任务设计

    视频多模态大语言模型RynnEC:专为具身认知任务设计

    阿里达摩院、湖畔实验室和浙江大学的研究人员推出视频多模态大语言模型RynnEC,专为具身认知任务设计。它通过结合区域编码器和掩码解码器,能够灵活地处理视频中的区域级交互,从而为具身代理提供对物理世界的...
    多模态模型# RynnEC# 视频多模态大语言模型
    4个月前
    0880
    新型3D 编辑框架TINKER:用于高保真度的 3D 编辑

    新型3D 编辑框架TINKER:用于高保真度的 3D 编辑

    浙江大学和浙江工业大学的研究人员推出新型3D 编辑框架TINKER ,用于高保真度的 3D 编辑,能够在仅有少量输入图像(甚至一张或两张)的情况下实现多视角一致的编辑效果,且无需针对每个场景进行优化...
    3D模型# 3D 编辑框架# TINKER
    4个月前
    01740
    Surya:NASA与IBM联合推出日球物理学AI基础模型,3.66亿参数开源可微调

    Surya:NASA与IBM联合推出日球物理学AI基础模型,3.66亿参数开源可微调

    由NASA、IBM及合作伙伴联合开发的Surya,是全球首个面向日球物理学的开源AI基础模型。该模型拥有3.66亿参数,基于NASA太阳动力学天文台(SDO)9年的多仪器观测数据(约218TB)预训练...
    大语言模型# Surya# 日球物理学
    4个月前
    02050
    OPPO AI实验室推出新范式Chain-of-Agents(CoA):用于在单个模型中实现多智能体系统的复杂问题解决能力

    OPPO AI实验室推出新范式Chain-of-Agents(CoA):用于在单个模型中实现多智能体系统的复杂问题解决能力

    OPPO AI实验室推出一种新的范式——Chain-of-Agents(CoA),用于在单个模型中实现多智能体系统(Multi-Agent Systems, MAS)的复杂问题解决能力。传统的多智能体...
    大语言模型# Chain-of-Agents# CoA# OPPO AI实验室
    4个月前
    01320
    Thyme:会生成代码的多模态模型,突破“图像思考”边界

    Thyme:会生成代码的多模态模型,突破“图像思考”边界

    由快手联合中科院自动化所、南京大学、清华大学、中国科学技术大学共同研发的Thyme,重新定义了视觉多模态模型的能力边界。它不再局限于传统的“用图像思考”,而是通过自主生成、执行代码,完成多样化的图像处...
    多模态模型# Thyme# 多模态模型
    4个月前
    01150
    英伟达推出小型语言模型 Nemotron-Nano-9B-V2:更小、更快、可控制“思考”的AI

    英伟达推出小型语言模型 Nemotron-Nano-9B-V2:更小、更快、可控制“思考”的AI

    当AI模型不再一味追求“更大”,而是转向“更高效”时,小型语言模型(SLM)的时代正悄然到来。 继麻省理工学院衍生公司 Liquid AI 推出可在智能手表上运行的视觉模型、谷歌发布手机端运行的轻量级...
    大语言模型# Nemotron-Nano-9B-V2# 英伟达
    4个月前
    02380
    加载更多
    SD百科导航
    SD百科导航是专注于AI创作领域的专业导航网站。我们全面涵盖Stable Diffusion、Flux、AI绘画、AI视频、AI音乐以及大语言模型等前沿内容。

    关于我们网址提交友链申请广告合作

    扫码关注微信公众号SD百科导航
    扫码关注微信公众号
    Copyright © 2025 SD百科导航 皖ICP备18025588号-5  皖公网安备34040002000401 
    网址
    网址文章软件模型

    网址

    日榜周榜月榜
    Fogsight (雾象)

    Fogsight (雾象)

    雾象是一款由大语言模型(LLM)驱动的动画引擎 agent 。用户输入抽象概念或词语,雾象会将其转化为高水平的生动动画。
    朱雀大模型检测

    朱雀大模型检测

    腾讯朱雀 AI 检测是于 2025 年 1 月 17 日推出的一款 AI 生成内容检测工具,主要用于帮助用户识别 AI 生成的文本和图像内容。每位用户每天最多可检测20次文本和20次图片。
    ITELLOU

    ITELLOU

    ITELLYOU(也称为NEXT, ITELLYOU)是一个专注于提供微软原版软件资源的非官方网站,主要帮助用户获取未经修改的微软产品镜像,如Windows操作系统、Office办公软件和开发工具等。
    Higgsfield AI

    Higgsfield AI

    Higgsfield AI平台支持文生图和图生视频,近期对图生视频功能进行了全面升级,专为追求高质量、风格化内容创作并渴望真正电影级操控的创意人士打造——无论是MV导演、商业片制作人、AI创作者,还是社交媒体叙事者。
    Google AI Studio

    Google AI Studio

    Google AI Studio 是一个功能齐全的工具,特别适合希望快速构建和试验 AI 应用的开发者。其多模态支持、提示库和与 Gemini API 的无缝集成使其成为生成 AI 开发的有力平台。
    Tripo

    Tripo

    Tripo AI 是一家领先的 AI 驱动 3D 建模解决方案提供商,允许用户使用文本、单张图像、多张图像、涂鸦或视频等输入,快速创建高质量的 3D 模型和环境。
    查看完整榜单