SD百科导航
  • 首页
  • 快讯
  • 早报
  • 模型
  • ComfyUI
  • 新技术
  • 百科
    • 教程
    • 硬件
    • 科普
  • 百科工具
    • 工具
  • 知识库
  • 排行榜
    • 首页
    • 快讯
    • 早报
    • 模型
    • ComfyUI
    • 新技术
    • 百科
      • 教程
      • 硬件
      • 科普
    • 百科工具
      • 工具
    • 知识库
    • 排行榜

    模型

    共 1015 篇文章
    百科工具模型ComfyUIAI合集web UI提示词
    大语言模型多模态模型图像模型语音模型3D模型Flux衍生视频模型
    排序
    发布更新浏览点赞
    OPPO AI实验室推出新范式Chain-of-Agents(CoA):用于在单个模型中实现多智能体系统的复杂问题解决能力

    OPPO AI实验室推出新范式Chain-of-Agents(CoA):用于在单个模型中实现多智能体系统的复杂问题解决能力

    OPPO AI实验室推出一种新的范式——Chain-of-Agents(CoA),用于在单个模型中实现多智能体系统(Multi-Agent Systems, MAS)的复杂问题解决能力。传统的多智能体...
    大语言模型# Chain-of-Agents# CoA# OPPO AI实验室
    4个月前
    01320
    Thyme:会生成代码的多模态模型,突破“图像思考”边界

    Thyme:会生成代码的多模态模型,突破“图像思考”边界

    由快手联合中科院自动化所、南京大学、清华大学、中国科学技术大学共同研发的Thyme,重新定义了视觉多模态模型的能力边界。它不再局限于传统的“用图像思考”,而是通过自主生成、执行代码,完成多样化的图像处...
    多模态模型# Thyme# 多模态模型
    4个月前
    01150
    英伟达推出小型语言模型 Nemotron-Nano-9B-V2:更小、更快、可控制“思考”的AI

    英伟达推出小型语言模型 Nemotron-Nano-9B-V2:更小、更快、可控制“思考”的AI

    当AI模型不再一味追求“更大”,而是转向“更高效”时,小型语言模型(SLM)的时代正悄然到来。 继麻省理工学院衍生公司 Liquid AI 推出可在智能手表上运行的视觉模型、谷歌发布手机端运行的轻量级...
    大语言模型# Nemotron-Nano-9B-V2# 英伟达
    4个月前
    02380
    多模态扩散架构MoDA:用于生成具有任意身份和语音音频的“会说话的头像”

    多模态扩散架构MoDA:用于生成具有任意身份和语音音频的“会说话的头像”

    阿里达摩院、浙江大学、湖畔实验室的研究人员推出多模态扩散架构MoDA,用于生成具有任意身份和语音音频的“会说话的头像”(talking head)。 项目主页:https://lixinyyang.g...
    视频模型# MoDA# 多模态
    4个月前
    01100
    阿里国际发布多模态大语言模型Ovis2.5:原生分辨率视觉感知与深度推理的双重突破

    阿里国际发布多模态大语言模型Ovis2.5:原生分辨率视觉感知与深度推理的双重突破

    阿里国际正式推出 Ovis2.5 —— Ovis2 的继任者,一款在原生分辨率视觉理解和多模态推理能力上实现显著跃升的开源多模态大语言模型(MLLM)。 GitHub:https://github.c...
    多模态模型# Ovis2.5# 多模态大语言模型# 阿里国际
    4个月前
    02710
    清华、上交大等团队提出 SSRL:无需外部搜索的强化学习新范式

    清华、上交大等团队提出 SSRL:无需外部搜索的强化学习新范式

    在当前主流的“代理式搜索”(Agentic Search)系统中,大型语言模型(LLM)通常通过调用外部搜索引擎(如 Google、Bing 或专用 API)来获取实时信息,以回答复杂问题。这一模式虽...
    大语言模型# SSRL# 强化学习
    4个月前
    01570
    阿里 Qwen 团队发布Qwen-Image-Edit:支持语义与外观双重编辑的图像编辑模型

    阿里 Qwen 团队发布Qwen-Image-Edit:支持语义与外观双重编辑的图像编辑模型

    阿里Qwen项目组今日正式推出 Qwen-Image-Edit,基于 Qwen-Image 20B 模型进一步训练而成,是 Qwen-Image 系列在图像编辑方向的重要延伸。 该模型不仅继承了 Qw...
    图像模型# Qwen-Image-Edit# 图像编辑模型
    4个月前
    01830
    文本到音频生成模型TANGOFLUX:从文本描述中快速、忠实地生成高质量的音频内容

    文本到音频生成模型TANGOFLUX:从文本描述中快速、忠实地生成高质量的音频内容

    随着人工智能技术的发展,文本到音频(TTA)生成模型正在逐渐改变我们与数字内容互动的方式。然而,创建高质量且自然的音频输出仍然是一个复杂的技术挑战,尤其是在对齐模型以产生符合人类期望的音频方面。新加坡...
    语音模型# TANGOFLUX# 文本到音频生成模型
    4个月前
    03370
    视觉语言模型ClipTagger-12B:开源视频理解新标杆,性能对标 GPT-4.1,成本低至 1/15

    视觉语言模型ClipTagger-12B:开源视频理解新标杆,性能对标 GPT-4.1,成本低至 1/15

    程序化视频理解正在成为构建智能视觉系统的基础设施。从内容审核到自动化标注,从辅助功能到视频搜索引擎,开发者需要一种高效、可靠的方式,将原始视频帧转化为结构化、可搜索、可操作的数据。 为此,Infere...
    多模态模型# ClipTagger-12B# 视觉语言模型
    4个月前
    03800
    基于多模态大语言模型的高性能UI智能体UI-Venus

    基于多模态大语言模型的高性能UI智能体UI-Venus

    蚂蚁集团推出基于多模态大语言模型(MLLM)的高性能UI智能体(UI Agent)UI-Venus,它仅以屏幕截图作为输入,通过强化微调(Reinforcement Fine-Tune, RFT)技术...
    多模态模型# UI-Venus# UI智能体
    4个月前
    02050
    Nunchaku发布量化版Qwen-Image模型,支持高效图像生成

    Nunchaku发布量化版Qwen-Image模型,支持高效图像生成

    Nunchaku 官方宣布,其基于Qwen-Image的四个量化版本模型已正式上线 Hugging Face和魔塔!这些模型专为高效文本到图像生成而优化,尤其在复杂文本渲染方面表现突出。 Huggin...
    图像模型# Nunchaku# Qwen-Image
    4个月前
    04940
    Meta AI 发布 DINOv3:无需微调、无需标注的下一代视觉模型

    Meta AI 发布 DINOv3:无需微调、无需标注的下一代视觉模型

    Meta AI 正式推出 DINOv3 —— 一项在计算机视觉领域具有里程碑意义的自监督学习模型。它不仅刷新了密集预测任务的性能上限,更首次证明:一个通用、冻结的视觉骨干,可以在无需微调的情况下,在多...
    图像模型# DINOv3# 视觉模型
    4个月前
    05010
    加载更多
    SD百科导航
    SD百科导航是专注于AI创作领域的专业导航网站。我们全面涵盖Stable Diffusion、Flux、AI绘画、AI视频、AI音乐以及大语言模型等前沿内容。

    关于我们网址提交友链申请广告合作

    扫码关注微信公众号SD百科导航
    扫码关注微信公众号
    Copyright © 2025 SD百科导航 皖ICP备18025588号-5  皖公网安备34040002000401 
    网址
    网址文章软件模型

    网址

    日榜周榜月榜
    Fogsight (雾象)

    Fogsight (雾象)

    雾象是一款由大语言模型(LLM)驱动的动画引擎 agent 。用户输入抽象概念或词语,雾象会将其转化为高水平的生动动画。
    ITELLOU

    ITELLOU

    ITELLYOU(也称为NEXT, ITELLYOU)是一个专注于提供微软原版软件资源的非官方网站,主要帮助用户获取未经修改的微软产品镜像,如Windows操作系统、Office办公软件和开发工具等。
    云文档查找工具

    云文档查找工具

    云文档分享站支持一键搜索飞书、Notion、语雀、FlowUS等平台云文档,目前已收录优质文档666个
    Google AI Studio

    Google AI Studio

    Google AI Studio 是一个功能齐全的工具,特别适合希望快速构建和试验 AI 应用的开发者。其多模态支持、提示库和与 Gemini API 的无缝集成使其成为生成 AI 开发的有力平台。
    Poe API

    Poe API

    Quora 旗下的 AI 聚合平台 Poe 正式推出 开发者 API,允许开发者通过统一接口,调用平台上超过 100 款文本、图像、语音和视频生成模型。
    OpenSkills

    OpenSkills

    OpenSkills 是 Anthropic的 Claude Skills 系统的开源实现。它让 Cursor、Windsurf、Aider 等主流 AI 编码代理也能使用与 Claude Code 完全兼容的技能系统——相同的提示格式、相同的文件结构、相同的渐进式披露机制,只是调用方式从内置工具变为 CLI 命令。
    查看完整榜单