SD百科导航
  • 首页
  • 快讯
  • 早报
  • 模型
  • ComfyUI
  • 新技术
  • 百科
    • 教程
    • 硬件
    • 科普
  • 百科工具
    • 工具
  • 知识库
  • 排行榜
    • 首页
    • 快讯
    • 早报
    • 模型
    • ComfyUI
    • 新技术
    • 百科
      • 教程
      • 硬件
      • 科普
    • 百科工具
      • 工具
    • 知识库
    • 排行榜

    模型

    共 1008 篇文章
    百科工具模型ComfyUIAI合集web UI提示词
    大语言模型多模态模型图像模型语音模型3D模型Flux衍生视频模型
    排序
    发布更新浏览点赞
    阶跃星辰发布开源语音大模型Step-Audio 2 mini:多任务性能登顶SOTA,攻克语音AI“智商情商”痛点

    阶跃星辰发布开源语音大模型Step-Audio 2 mini:多任务性能登顶SOTA,攻克语音AI“智商情商”痛点

    今日,阶跃星辰正式发布开源端到端语音大模型Step-Audio 2 mini,该模型在音频理解、语音识别、翻译及对话等多个国际基准测试集中均斩获SOTA(state-of-the-art,当前最优)成...
    语音模型# Step-Audio 2 mini# 阶跃星辰
    4个月前
    01780
    腾讯混元开源轻量级翻译模型 Hunyuan-MT-7B:33语种互译,小模型也能大作为

    腾讯混元开源轻量级翻译模型 Hunyuan-MT-7B:33语种互译,小模型也能大作为

    腾讯混元宣布将其国际翻译模型 Hunyuan-MT-7B 正式开源,供全球开发者免费下载与本地部署。同时开源的还有业界首个翻译集成模型 Hunyuan-MT-Chimera-7B(奇美拉),支持多译文...
    大语言模型# Hunyuan-MT-7B# 翻译模型# 腾讯
    4个月前
    01690
    CoMPaSS:让AI“看懂”空间关系,提升文生图模型的空间理解能力

    CoMPaSS:让AI“看懂”空间关系,提升文生图模型的空间理解能力

    尽管当前的文本到图像(Text-to-Image, T2I)扩散模型能够生成高度逼真的图像,但在一个关键任务上仍频频失手:准确理解并渲染文本中描述的空间关系。 例如,当用户输入: “一个棕色皮革沙发放...
    图像模型# CoMPaSS
    4个月前
    01460
    蚂蚁集团开源医学智能体MedResearcher-R1:以知识引导技术破解领域AI推理难题

    蚂蚁集团开源医学智能体MedResearcher-R1:以知识引导技术破解领域AI推理难题

    蚂蚁集团正式开源医学智能体 MedResearcher-R1,同时对外公开模型及合成数据生成方法。这一智能体聚焦医学领域AI推理的核心痛点,通过“知识图谱构建-轨迹生成-评估验证”的全流程框架,为领域...
    多模态模型# MedResearcher-R1# 医学智能体# 蚂蚁集团
    4个月前
    0790
    苹果发布 MobileCLIP2:更小、更快、更高效的移动端多模态模型

    苹果发布 MobileCLIP2:更小、更快、更高效的移动端多模态模型

    苹果近期推出了新一代轻量级图像-文本模型家族 —— MobileCLIP2,在保持高精度的同时,显著降低模型体积与推理延迟,专为移动设备上的实时多模态理解任务而设计。 GitHub:https://g...
    多模态模型# MobileCLIP2# 图像-文本模型# 苹果
    4个月前
    0740
    苹果推出视觉语言模型FastVLM:用更少的视觉 Token,更快理解高分辨率图像

    苹果推出视觉语言模型FastVLM:用更少的视觉 Token,更快理解高分辨率图像

    苹果近期发布了 FastVLM系列视觉语言模型,并首次引入其自研混合视觉编码器 FastViTHD。该模型解决当前多模态系统在处理高分辨率图像时面临的效率瓶颈,尤其在移动端和实时交互场景中展现出显著优...
    多模态模型# FastVLM# 苹果# 视觉语言模型
    4个月前
    0840
    美团LongCat团队发布5600亿参数模型LongCat-Flash,以MoE架构突破效率与性能瓶颈

    美团LongCat团队发布5600亿参数模型LongCat-Flash,以MoE架构突破效率与性能瓶颈

    美团LongCat团队正式推出大语言模型LongCat-Flash,该模型以5600亿总参数规模为基础,创新采用专家混合(MoE)架构,通过动态计算、架构优化等核心设计,在训练效率、推理性能与实用能力...
    大语言模型# LongCat-Flash# 美团
    4个月前
    0930
    xAI 推出 Grok Code Fast 1:瞄准 GitHub Copilot,主打“快速且经济”的编程辅助

    xAI 推出 Grok Code Fast 1:瞄准 GitHub Copilot,主打“快速且经济”的编程辅助

    埃隆·马斯克旗下的 xAI 正式发布代理式编码模型 Grok Code Fast 1,直接对标微软 GitHub Copilot 和 OpenAI Codex。这款基于全新架构构建的模型,以“速度快...
    大语言模型# Grok Code Fast 1# 编程辅助
    4个月前
    0590
    Nous Research 发布 Hermes 4:无内容限制,数学性能超越 ChatGPT 的开源 AI 新选择

    Nous Research 发布 Hermes 4:无内容限制,数学性能超越 ChatGPT 的开源 AI 新选择

    神秘的 AI 初创公司 Nous Research 本周悄然推出开源大语言模型家族 Hermes 4。该公司声称,这一系列模型不仅在性能上比肩主流专有系统,更以“最小内容限制”和“用户高度可控”为核心...
    大语言模型# Hermes 4# Nous Research
    4个月前
    03540
    研究员改造 OpenAI 开源模型 gpt-oss-20b:移除推理约束,还原 “无对齐” 基础版本

    研究员改造 OpenAI 开源模型 gpt-oss-20b:移除推理约束,还原 “无对齐” 基础版本

    8月初,OpenAI 发布了其首个自 GPT-2 以来的开放权重大语言模型系列 gpt-oss,包含 200 亿(gpt-oss-20b)和 1200 亿(gpt-oss-120b)参数两个版本,采用...
    大语言模型# gpt-oss-20b# gpt-oss-20b-base
    4个月前
    01290
    复旦等团队联合突破文生图模型生成瓶颈:Pref-GRPO解决奖励操控,UniGenBench补上评估短板

    复旦等团队联合突破文生图模型生成瓶颈:Pref-GRPO解决奖励操控,UniGenBench补上评估短板

    文本到图像(T2I)生成技术的进步,离不开强化学习方法的优化与基准测试的支撑。但当前领域存在两大核心问题:一是传统强化学习依赖“点式奖励模型”打分,易出现“分数涨而质量降”的奖励操控现象;二是现有基准...
    图像模型# Pref-GRPO# 文生图模型
    4个月前
    02360
    微软发布rStar2-Agent:14亿参数实现671亿模型性能,数学推理模型迎来“轻量高效”新突破

    微软发布rStar2-Agent:14亿参数实现671亿模型性能,数学推理模型迎来“轻量高效”新突破

    微软近期推出的rStar2-Agent,以14亿参数的轻量化规模,在数学推理领域实现了突破性进展——它未依赖更长的推理时间,而是通过更智能的思考逻辑,达到了与671亿参数的DeepSeek-R1相当的...
    大语言模型# rStar2-Agent# 微软
    4个月前
    01780
    加载更多
    SD百科导航
    SD百科导航是专注于AI创作领域的专业导航网站。我们全面涵盖Stable Diffusion、Flux、AI绘画、AI视频、AI音乐以及大语言模型等前沿内容。

    关于我们网址提交友链申请广告合作

    扫码关注微信公众号SD百科导航
    扫码关注微信公众号
    Copyright © 2025 SD百科导航 皖ICP备18025588号-5  皖公网安备34040002000401 
    网址
    网址文章软件模型

    网址

    日榜周榜月榜
    Fogsight (雾象)

    Fogsight (雾象)

    雾象是一款由大语言模型(LLM)驱动的动画引擎 agent 。用户输入抽象概念或词语,雾象会将其转化为高水平的生动动画。
    秒哒

    秒哒

    百度秒哒,由百度智能云倾力打造的国内首个“对话式”应用开发平台,正式全量上线。作为一款无代码工具,秒哒致力于让每个人都能通过自然语言描述需求,自动生成完整功能代码,轻松实现创意想法。
    Higgsfield AI

    Higgsfield AI

    Higgsfield AI平台支持文生图和图生视频,近期对图生视频功能进行了全面升级,专为追求高质量、风格化内容创作并渴望真正电影级操控的创意人士打造——无论是MV导演、商业片制作人、AI创作者,还是社交媒体叙事者。
    OiiOii AI

    OiiOii AI

    OiiOii.ai 是一个基于多智能体架构的动画生成平台,其核心目标是将动画制作从线性协作流程,转变为端到端的自动化生成。用户只需上传一张图片或输入一段文字描述,系统即可自动完成剧本生成、分镜设计、角色建模、镜头调度、配乐合成与最终渲染,输出一段完整动画视频。
    朱雀大模型检测

    朱雀大模型检测

    腾讯朱雀 AI 检测是于 2025 年 1 月 17 日推出的一款 AI 生成内容检测工具,主要用于帮助用户识别 AI 生成的文本和图像内容。每位用户每天最多可检测20次文本和20次图片。
    ITELLOU

    ITELLOU

    ITELLYOU(也称为NEXT, ITELLYOU)是一个专注于提供微软原版软件资源的非官方网站,主要帮助用户获取未经修改的微软产品镜像,如Windows操作系统、Office办公软件和开发工具等。
    查看完整榜单