SD百科导航
  • 首页
  • 快讯
  • 早报
  • 模型
  • ComfyUI
  • 新技术
  • 百科
    • 教程
    • 硬件
    • 科普
  • 百科工具
    • 工具
  • 排行榜
  • 网址提交
    • 首页
    • 快讯
    • 早报
    • 模型
    • ComfyUI
    • 新技术
    • 百科
      • 教程
      • 硬件
      • 科普
    • 百科工具
      • 工具
    • 排行榜
    • 网址提交

    模型

    共 1186 篇文章
    百科工具模型ComfyUIAI合集web UI提示词
    大语言模型多模态模型图像模型语音模型3D模型Flux衍生视频模型世界模型
    排序
    发布更新浏览点赞
    苹果推出视觉语言模型FastVLM:用更少的视觉 Token,更快理解高分辨率图像

    苹果推出视觉语言模型FastVLM:用更少的视觉 Token,更快理解高分辨率图像

    苹果近期发布了 FastVLM系列视觉语言模型,并首次引入其自研混合视觉编码器 FastViTHD。该模型解决当前多模态系统在处理高分辨率图像时面临的效率瓶颈,尤其在移动端和实时交互场景中展现出显著优...
    多模态模型# FastVLM# 苹果# 视觉语言模型
    7个月前
    0900
    美团LongCat团队发布5600亿参数模型LongCat-Flash,以MoE架构突破效率与性能瓶颈

    美团LongCat团队发布5600亿参数模型LongCat-Flash,以MoE架构突破效率与性能瓶颈

    美团LongCat团队正式推出大语言模型LongCat-Flash,该模型以5600亿总参数规模为基础,创新采用专家混合(MoE)架构,通过动态计算、架构优化等核心设计,在训练效率、推理性能与实用能力...
    大语言模型# LongCat-Flash# 美团
    7个月前
    01250
    xAI 推出 Grok Code Fast 1:瞄准 GitHub Copilot,主打“快速且经济”的编程辅助

    xAI 推出 Grok Code Fast 1:瞄准 GitHub Copilot,主打“快速且经济”的编程辅助

    埃隆·马斯克旗下的 xAI 正式发布代理式编码模型 Grok Code Fast 1,直接对标微软 GitHub Copilot 和 OpenAI Codex。这款基于全新架构构建的模型,以“速度快...
    大语言模型# Grok Code Fast 1# 编程辅助
    7个月前
    0700
    Nous Research 发布 Hermes 4:无内容限制,数学性能超越 ChatGPT 的开源 AI 新选择

    Nous Research 发布 Hermes 4:无内容限制,数学性能超越 ChatGPT 的开源 AI 新选择

    神秘的 AI 初创公司 Nous Research 本周悄然推出开源大语言模型家族 Hermes 4。该公司声称,这一系列模型不仅在性能上比肩主流专有系统,更以“最小内容限制”和“用户高度可控”为核心...
    大语言模型# Hermes 4# Nous Research
    7个月前
    04800
    研究员改造 OpenAI 开源模型 gpt-oss-20b:移除推理约束,还原 “无对齐” 基础版本

    研究员改造 OpenAI 开源模型 gpt-oss-20b:移除推理约束,还原 “无对齐” 基础版本

    8月初,OpenAI 发布了其首个自 GPT-2 以来的开放权重大语言模型系列 gpt-oss,包含 200 亿(gpt-oss-20b)和 1200 亿(gpt-oss-120b)参数两个版本,采用...
    大语言模型# gpt-oss-20b# gpt-oss-20b-base
    7个月前
    01720
    复旦等团队联合突破文生图模型生成瓶颈:Pref-GRPO解决奖励操控,UniGenBench补上评估短板

    复旦等团队联合突破文生图模型生成瓶颈:Pref-GRPO解决奖励操控,UniGenBench补上评估短板

    文本到图像(T2I)生成技术的进步,离不开强化学习方法的优化与基准测试的支撑。但当前领域存在两大核心问题:一是传统强化学习依赖“点式奖励模型”打分,易出现“分数涨而质量降”的奖励操控现象;二是现有基准...
    图像模型# Pref-GRPO# 文生图模型
    7个月前
    03310
    微软发布rStar2-Agent:14亿参数实现671亿模型性能,数学推理模型迎来“轻量高效”新突破

    微软发布rStar2-Agent:14亿参数实现671亿模型性能,数学推理模型迎来“轻量高效”新突破

    微软近期推出的rStar2-Agent,以14亿参数的轻量化规模,在数学推理领域实现了突破性进展——它未依赖更长的推理时间,而是通过更智能的思考逻辑,达到了与671亿参数的DeepSeek-R1相当的...
    大语言模型# rStar2-Agent# 微软
    7个月前
    01960
    中科院+腾讯提出AudioStory:LLM+TTA协同,破解长篇叙事音频“不连贯”痛点

    中科院+腾讯提出AudioStory:LLM+TTA协同,破解长篇叙事音频“不连贯”痛点

    文本到音频(TTA)技术已能生成高质量短音频片段,但面对“雨中追逐场景”“视频配音旁白”这类需要时间连贯性、情感一致性的长篇叙事需求时,传统模型常出现“声音断层”“氛围割裂”等问题。 GitHub:h...
    语音模型# AudioStory# TTA
    7个月前
    01940
    字节跳动推出 USO:统一风格与主体生成模型,开源全方案赋能创作

    字节跳动推出 USO:统一风格与主体生成模型,开源全方案赋能创作

    字节跳动智能创作实验室UXO项目组近期发布了UXO家族的新成员——USO(统一风格-主体优化定制模型)。这款模型打破了现有技术中“风格驱动”与“主体驱动”生成相互孤立的困境,能在单一框架下自由组合任意...
    图像模型# USO# 字节跳动# 统一风格与主体生成模型
    7个月前
    05740
    NEXA AI推出OmniNeural-4B:全球首个为 NPU 原生设计的多模态 AI 模型

    NEXA AI推出OmniNeural-4B:全球首个为 NPU 原生设计的多模态 AI 模型

    当AI模型需要在手机、PC等终端设备上处理文本、图像、音频时,“速度慢、耗电高、依赖网络”往往是难以回避的问题——多数模型最初为GPU设计,移植到终端的NPU(神经网络处理单元)时需“强行适配”,导致...
    多模态模型# Nexa AI# NPU# OmniNeural-4B
    7个月前
    01160
    北航、人大等联合腾讯混元提出VoxHammer:无需训练,实现3D模型精准局部编辑

    北航、人大等联合腾讯混元提出VoxHammer:无需训练,实现3D模型精准局部编辑

    3D指定区域的局部编辑,是游戏资产制作、机器人交互场景中的核心需求——比如给游戏角色更换装备、调整机器人零件结构,都需要在修改目标区域的同时,确保未编辑部分的几何形态与纹理不被破坏。 近期,北京航空航...
    3D模型# 3D模型精准局部编辑# VoxHammer
    7个月前
    02890
    字节跳动发布OmniHuman-1.5:模拟人类双重认知,生成语义连贯的高逼真角色动画

    字节跳动发布OmniHuman-1.5:模拟人类双重认知,生成语义连贯的高逼真角色动画

    字节跳动近期推出新型视频角色生成框架 OmniHuman-1.5,核心突破在于模拟人类“系统1(快速直觉反应)+系统2(缓慢深思规划)”的双重认知过程,实现从“单一图像+语音轨道”到“物理逼真、语义连...
    视频模型# OmniHuman-1.5# 字节跳动
    7个月前
    0760
    加载更多
    SD百科导航
    SD百科导航是专注于AI创作领域的专业导航网站。我们全面涵盖Stable Diffusion、Flux、AI绘画、AI视频、AI音乐以及大语言模型等前沿内容。

    关于我们网址提交友链申请广告合作

    扫码关注微信公众号SD百科导航
    扫码关注微信公众号
    Copyright © 2026 SD百科导航 皖ICP备18025588号-5  皖公网安备34040002000401 
    网址
    网址文章软件模型

    网址

    日榜周榜月榜
    悟空

    新悟空

    阿里巴巴发布全球首个企业级AI原生工作平台——“悟空”,让每个团队、每家公司,都能拥有一支24h工作的“龙虾军团”。悟空是一款独立应用,即日起开启邀测,也将直接内置到超2000万企业组织的钉钉之中。
    S.H.I.T

    S.H.I.T

    在主流学术界为顶刊版面、高影响因子和“非升即走”的考核指标疯狂内卷之时,一场名为“学术垃圾”的反叛运动正在角落里悄然兴起。一群“想开了”的硕博研究生和青年学者(青椒),不再试图迎合传统的学术评价体系,而是隆重推出了一系列名字惊世骇俗的“旗舰”期刊——《SHIT》、《Notrue》、《Silence》、《Crazy》。
    Meshy

    Meshy

    Meshy 是一款非常适合初学者和专业用户的 3D 模型生成工具。无论是快速建模、3D 打印还是动画设计,它都能轻松应对。如果你对 3D 模型创建感兴趣,不妨试试 Meshy,让生成式 AI 为你的创意插上翅膀!
    OpenMAIC

    新OpenMAIC

    OpenMAIC是一个开源的 AI 互动课堂平台,能够将任何主题或文档转化为丰富的互动学习体验。基于多智能体协作引擎,它可以自动生成演示幻灯片、测验、交互式模拟实验和项目制学习活动——由 AI 教师和 AI 同学进行语音讲解、白板绘图,并与你展开实时讨论。内置 OpenClaw 集成,你还可以直接在飞书、Slack、Telegram 等聊天应用中生成课堂。
    Sub2API

    Sub2API

    Sub2API 是一个 AI API 网关平台,用于分发和管理 AI 产品订阅(如 Claude Code $200/月)的 API 配额。用户通过平台生成的 API Key 调用上游 AI 服务,平台负责鉴权、计费、负载均衡和请求转发。
    Websets

    Websets

    Websets 是一款专为知识工作者设计的工具,能够帮助用户高效地查找符合特定标准的实体列表(如公司、人员、研究论文等)。根据基准测试,Websets 在复杂查询方面的表现远超谷歌,检索到的正确结果数量比谷歌多 20 倍以上。
    查看完整榜单