SD百科导航
  • 首页
  • 快讯
  • 早报
  • 模型
  • ComfyUI
  • 新技术
  • 百科
    • 教程
    • 硬件
    • 科普
  • 百科工具
    • 工具
  • 排行榜
  • 网址提交
    • 首页
    • 快讯
    • 早报
    • 模型
    • ComfyUI
    • 新技术
    • 百科
      • 教程
      • 硬件
      • 科普
    • 百科工具
      • 工具
    • 排行榜
    • 网址提交

    模型

    共 1185 篇文章
    百科工具模型ComfyUIAI合集web UI提示词
    大语言模型多模态模型图像模型语音模型3D模型Flux衍生视频模型世界模型
    排序
    发布更新浏览点赞
    Meta 开源代码世界模型CWM:让AI像程序员一样

    Meta 开源代码世界模型CWM:让AI像程序员一样"推演"代码的世界模型

    Meta近日发布并开源代码世界模型(Code World Model, CWM),这是一款320亿参数的仅解码器大型语言模型(LLM),支持最长131k tokens的上下文长度。不同于传统代码模型仅...
    大语言模型# CWM# Meta# 代码世界模型
    6个月前
    02360
    通义万相 Wan2.5-Preview 正式发布:原生支持音画同步的多模态视觉生成引擎

    通义万相 Wan2.5-Preview 正式发布:原生支持音画同步的多模态视觉生成引擎

    阿里通义实验室Wan项目组正式推出 Wan2.5-Preview——一个在架构层面实现革新、真正实现“音视频协同生成”的新一代视觉大模型。 它不是简单的功能叠加,而是通过原生多模态统一架构,将文本、图...
    视频模型# Wan2.5-Preview
    6个月前
    01400
    Qwen3-Max 发布:阿里通义迄今最强语言模型,已开放 API

    Qwen3-Max 发布:阿里通义迄今最强语言模型,已开放 API

    在 Qwen3-2507 系列全面上线后,阿里通义实验室正式推出 Qwen3-Max——迄今为止参数规模最大、综合能力最强的 Qwen 模型。 作为 Qwen3 系列的旗舰型号,Qwen3-Max 不...
    大语言模型# Qwen3-Max
    6个月前
    04310
    阿里发布Qwen3-LiveTranslate-Flash :全球首个视、听、说全模态实时同传大模型

    阿里发布Qwen3-LiveTranslate-Flash :全球首个视、听、说全模态实时同传大模型

    阿里通义实验室今日推出 Qwen3-LiveTranslate-Flash——一款基于 Qwen3-Omni 基座模型打造的多语言实时音视频同声传译大模型。 Demo:https://huggingf...
    语音模型# Qwen3-LiveTranslate-Flash# 实时同传大模型
    6个月前
    08300
    阿里通义实验室发布 Qwen3-VL:迄今最强视觉语言模型,全面开源

    阿里通义实验室发布 Qwen3-VL:迄今最强视觉语言模型,全面开源

    阿里通义实验室 Qwen 项目组正式推出全新升级的 Qwen3-VL 系列——这是截至目前 Qwen 多模态体系中能力最全面、性能最先进的视觉语言模型(Vision-Language Model, V...
    多模态模型# Qwen3-VL# 视觉语言模型
    6个月前
    04250
    Hugging Face推出Smol2Operator:让小模型学会操作图形界面

    Hugging Face推出Smol2Operator:让小模型学会操作图形界面

    在人机交互日益复杂的今天,一个长期被忽视的问题是: 我们能让AI像人类一样“使用”计算机吗? 不是生成文本或识别图像,而是真正理解屏幕上的按钮、输入框、菜单,并通过点击、滑动、输入等动作完成任务——这...
    多模态模型# Hugging Face# Smol2Operator
    6个月前
    01260
    LFM2-2.6B发布:小参数,高性能,重新定义语言模型效率

    LFM2-2.6B发布:小参数,高性能,重新定义语言模型效率

    在大模型“军备竞赛”愈演愈烈的今天,参数规模是否仍是衡量能力的唯一标准? Liquid AI 最新推出的 LFM2-2.6B 给出了一个有力的回答: 更优的架构设计,可以让更小的模型,在关键任务上超越...
    大语言模型# LFM2-2.6B
    6个月前
    01700
    SongPrep:腾讯提出自动化歌曲预处理方案,破解AIGC歌曲生成的数据难题

    SongPrep:腾讯提出自动化歌曲预处理方案,破解AIGC歌曲生成的数据难题

    在AIGC的众多分支中,歌曲生成因兼具“音乐旋律”“歌词文本”“结构韵律”的多维度创作需求,一直是技术难点。尽管互联网上有海量歌曲资源,但要将这些原始音频转化为可训练AIGC模型的“结构化数据”,传统...
    语音模型# SongPrep# 腾讯# 音乐模型
    6个月前
    01260
    Qwen3Guard发布:阿里通义实验室推出首款安全护栏模型

    Qwen3Guard发布:阿里通义实验室推出首款安全护栏模型

    阿里通义实验室 Qwen 项目组正式推出 Qwen3Guard —— Qwen 家族中首款专为内容安全设计的护栏模型(Safety Guardrail Model)。 该模型基于强大的 Qwen3 架...
    大语言模型# Qwen3Guard# 安全护栏模型
    6个月前
    05860
    Lynx:字节跳动提出的单图驱动个性化视频生成方案,实现高保真身份保留

    Lynx:字节跳动提出的单图驱动个性化视频生成方案,实现高保真身份保留

    在内容创作、虚拟社交等场景中,“基于单张图像生成个性化视频”是重要需求——比如用一张自拍生成动态表情视频,或让历史人物照片“动起来”讲述故事。但这类任务长期面临核心挑战:如何在保证视频自然流畅的同时...
    视频模型# Lynx# 个性化视频生成# 字节跳动
    6个月前
    02700
    SpatialGen:布局引导的多模态扩散模型,高效生成高保真3D室内场景

    SpatialGen:布局引导的多模态扩散模型,高效生成高保真3D室内场景

    在室内设计、VR/AR开发、机器人训练等领域,“高保真3D室内场景模型”是核心基础——设计师需要用它预览方案效果,VR设备需要靠它构建沉浸式环境,机器人则依赖它模拟真实导航场景。但长期以来,3D室内场...
    3D模型# 3D室内场景# SpatialGen
    6个月前
    01380
    Stable Part Diffusion 4D:单目输入驱动多视图RGB与运动部件视频生成

    Stable Part Diffusion 4D:单目输入驱动多视图RGB与运动部件视频生成

    在动画制作、AR/VR开发、机器人运动规划等领域,“从单视角视觉信息生成多视图内容+结构化运动部件”是长期存在的技术难点——传统方法要么依赖多设备采集,要么难以保证运动部件在时间与空间上的一致性。 项...
    3D模型# SP4D# Stable Part Diffusion 4D
    6个月前
    0910
    加载更多
    SD百科导航
    SD百科导航是专注于AI创作领域的专业导航网站。我们全面涵盖Stable Diffusion、Flux、AI绘画、AI视频、AI音乐以及大语言模型等前沿内容。

    关于我们网址提交友链申请广告合作

    扫码关注微信公众号SD百科导航
    扫码关注微信公众号
    Copyright © 2026 SD百科导航 皖ICP备18025588号-5  皖公网安备34040002000401 
    网址
    网址文章软件模型

    网址

    日榜周榜月榜
    悟空

    新悟空

    阿里巴巴发布全球首个企业级AI原生工作平台——“悟空”,让每个团队、每家公司,都能拥有一支24h工作的“龙虾军团”。悟空是一款独立应用,即日起开启邀测,也将直接内置到超2000万企业组织的钉钉之中。
    OpenMAIC

    新OpenMAIC

    OpenMAIC是一个开源的 AI 互动课堂平台,能够将任何主题或文档转化为丰富的互动学习体验。基于多智能体协作引擎,它可以自动生成演示幻灯片、测验、交互式模拟实验和项目制学习活动——由 AI 教师和 AI 同学进行语音讲解、白板绘图,并与你展开实时讨论。内置 OpenClaw 集成,你还可以直接在飞书、Slack、Telegram 等聊天应用中生成课堂。
    S.H.I.T

    S.H.I.T

    在主流学术界为顶刊版面、高影响因子和“非升即走”的考核指标疯狂内卷之时,一场名为“学术垃圾”的反叛运动正在角落里悄然兴起。一群“想开了”的硕博研究生和青年学者(青椒),不再试图迎合传统的学术评价体系,而是隆重推出了一系列名字惊世骇俗的“旗舰”期刊——《SHIT》、《Notrue》、《Silence》、《Crazy》。
    Meshy

    Meshy

    Meshy 是一款非常适合初学者和专业用户的 3D 模型生成工具。无论是快速建模、3D 打印还是动画设计,它都能轻松应对。如果你对 3D 模型创建感兴趣,不妨试试 Meshy,让生成式 AI 为你的创意插上翅膀!
    Joker of Academics(小丑学术期刊 )

    Joker of Academics(小丑学术期刊 )

    Joker 🤡 of Academics(小丑学术期刊 ) 是一本完全经过同行评审的开放获取期刊,致力于严肃研究非严肃的学术成果。我们发表敢于风趣的严谨研究、不知何故居然行得通的荒诞主义方法论,以及应用于可能并不需要它的领域的批判理论。
     CutCut

     CutCut

    CutCut是一个视频下载与剪辑工具,支持从 YouTube、Bilibili 等主流平台直接按章节或自定义时间范围下载片段,无需先下完整视频再剪辑。
    查看完整榜单