SD百科导航
  • 首页
  • 快讯
  • 早报
  • 模型
  • ComfyUI
  • 新技术
  • 百科
    • 教程
    • 硬件
    • 科普
  • 百科工具
    • 工具
  • 排行榜
  • 网址提交
    • 首页
    • 快讯
    • 早报
    • 模型
    • ComfyUI
    • 新技术
    • 百科
      • 教程
      • 硬件
      • 科普
    • 百科工具
      • 工具
    • 排行榜
    • 网址提交

    模型

    共 1135 篇文章
    百科工具模型ComfyUIAI合集web UI提示词
    大语言模型多模态模型图像模型语音模型3D模型Flux衍生视频模型世界模型
    排序
    发布更新浏览点赞
    让视频

    让视频"无中生有"的AI魔术师!PISCO:基于稀疏控制的精确视频实例插入技术

    想象一下,你拍了一段空无一人的街道视频,现在想把一只奔跑的猫放进画面里——不仅要让它看起来真实,还要让它和周围环境产生互动:地上要有影子,经过水坑要有倒影,被路灯照到要反光。更神奇的是,你只需要告诉A...
    视频模型# PISCO# 视频编辑
    4天前
    050
    京东开源 JoyAI-LLM-Flash:3B 激活参数 MoE 模型,专为智能体与高吞吐场景优化

    京东开源 JoyAI-LLM-Flash:3B 激活参数 MoE 模型,专为智能体与高吞吐场景优化

    京东在 Hugging Face 正式开源其最新大语言模型 JoyAI-LLM-Flash,标志着其在高效、低成本、智能体友好型 AI 基础模型领域的重大进展。 模型:https://huggingf...
    大语言模型# JoyAI-LLM-Flash# 京东
    4天前
    0190
    字节跳动发布豆包大模型2.0:数学推理顶尖,复杂任务执行强,API价格仅为竞品五分之一

    字节跳动发布豆包大模型2.0:数学推理顶尖,复杂任务执行强,API价格仅为竞品五分之一

    继 Seedance 2.0 视频模型和 Seedream 5.0 Lite 图像模型后,字节跳动于 2 月 14 日正式推出 豆包大模型 2.0(Doubao-Seed-2.0)系列。新版本针对大规...
    大语言模型早报# Doubao-Seed-2.0# 字节跳动# 豆包大模型2.0
    5天前
    0110
    Kyutai 开源 Hibiki-Zero:3B 参数实时语音翻译模型,无需词级对齐,支持音色迁移

    Kyutai 开源 Hibiki-Zero:3B 参数实时语音翻译模型,无需词级对齐,支持音色迁移

    实时语音翻译的核心挑战在于如何在翻译质量与系统延迟之间取得最佳平衡。传统方法通常需要大量精细标注的词级对齐数据来指导模型何时开始翻译,这不仅成本高昂,也极大地限制了模型向新语言的扩展能力。 为彻底解决...
    语音模型# Hibiki-Zero# 实时语音翻译模型
    5天前
    070
    蚂蚁集团 inclusionAI 团队发布统一生成模型Ming-omni-tts:统一语音、音乐与声音生成,实现高精度细粒度可控音频合成

    蚂蚁集团 inclusionAI 团队发布统一生成模型Ming-omni-tts:统一语音、音乐与声音生成,实现高精度细粒度可控音频合成

    蚂蚁集团 inclusionAI 团队近期正式发布了 Ming-omni-tts,这是一款设计简洁、运行高效的统一音频生成模型。它不仅可以在单一框架内合成高质量的语音,还能同时生成音乐与各类环境声音...
    语音模型# Ming-omni-tts# 统一生成模型
    5天前
    0130
    蚂蚁集团开源 ZwZ 模型:无需迭代缩放,单次 glance 实现细粒度多模态感知SOTA

    蚂蚁集团开源 ZwZ 模型:无需迭代缩放,单次 glance 实现细粒度多模态感知SOTA

    当前主流的“图像思考”方法,虽能通过迭代放大感兴趣区域提升细粒度感知能力,却存在致命短板——重复的工具调用与视觉重新编码,导致推理延迟居高不下,难以适配实际应用场景。 针对这一痛点,蚂蚁集团 incl...
    多模态模型# ZwZ# 蚂蚁集团
    5天前
    080
    蚂蚁集团发布Ming-flash-omni 2.0 :100B MoE 多模态全能模型,支持视觉百科、沉浸式语音、高动态图像生成与编辑

    蚂蚁集团发布Ming-flash-omni 2.0 :100B MoE 多模态全能模型,支持视觉百科、沉浸式语音、高动态图像生成与编辑

    蚂蚁集团 inclusionAI 团队正式推出 Ming-flash-omni 2.0,搭载全新 Ling-2.0 混合专家(MoE)架构,以总参数 100B、激活参数 6B 的高效配置,在开源全能型...
    多模态模型# Ming-flash-omni 2.0
    5天前
    020
    蚂蚁集团发布 LLaDA2.1:支持实时自我修正的开源扩散语言模型

    蚂蚁集团发布 LLaDA2.1:支持实时自我修正的开源扩散语言模型

    当大语言模型不再只能逐词生成,而是可以实时编辑自己已经生成的内容,会带来怎样的变革? 蚂蚁集团 inclusionAI 团队正式推出 LLaDA2.1——一款彻底打破自回归模型主导地位的文本扩散大模型...
    大语言模型# LLaDA2.1# 扩散语言模型
    5天前
    050
    蚂蚁集团 inclusionAI 团队推出Ring-2.5-1T:全球首个万亿参数混合线性注意力思维模型

    蚂蚁集团 inclusionAI 团队推出Ring-2.5-1T:全球首个万亿参数混合线性注意力思维模型

    蚂蚁集团 inclusionAI 团队正式推出 Ring-2.5-1T,这是全球首个基于混合线性注意力架构的开源万亿参数思维模型,标志着向通用人工智能体迈出关键一步。 Hugging Face :ht...
    大语言模型# Ring-2.5-1T# 蚂蚁集团
    6天前
    080
    Nanbeige4.1-3B:在保持小参数规模的同时,实现强大推理、偏好对齐与高效智能体能力

    Nanbeige4.1-3B:在保持小参数规模的同时,实现强大推理、偏好对齐与高效智能体能力

    Nanbeige4.1-3B 基于 Nanbeige4-3B-Base 架构构建,是Nanbeige团队此前推出的推理专用模型 Nanbeige4-3B-Thinking-2511 的全面增强迭代版本...
    大语言模型# Nanbeige4.1-3B# 推理模型
    6天前
    0100
    图像编辑模型FireRed-Image-Edit:小红书团队出品,让图片编辑像说话一样简单

    图像编辑模型FireRed-Image-Edit:小红书团队出品,让图片编辑像说话一样简单

    小红书智能创作基础技术团队正式推出 FireRed-Image-Edit——一款通用图像编辑模型,凭借原生编辑架构、精准指令遵循能力,在广泛场景下实现高保真、视觉一致的编辑效果,既打破了专业修图的门槛...
    图像模型# FireRed-Image-Edit# 图像编辑模型# 小红书
    5天前
    0390
    阿里国际发布 Ovis2.6-30B-A3B:MoE 架构多模态大模型,低成本实现高性能视觉理解

    阿里国际发布 Ovis2.6-30B-A3B:MoE 架构多模态大模型,低成本实现高性能视觉理解

    阿里国际正式推出 Ovis2.6-30B-A3B 多模态大语言模型,作为 Ovis 系列的最新迭代版本,它在 Ovis2.5 基础上全面升级主干架构与多模态能力,以更低推理成本实现更强的长上下文、高分...
    多模态模型# Ovis2.6-30B-A3B# 多模态大模型
    6天前
    050
    加载更多
    SD百科导航
    SD百科导航是专注于AI创作领域的专业导航网站。我们全面涵盖Stable Diffusion、Flux、AI绘画、AI视频、AI音乐以及大语言模型等前沿内容。

    关于我们网址提交友链申请广告合作

    扫码关注微信公众号SD百科导航
    扫码关注微信公众号
    Copyright © 2026 SD百科导航 皖ICP备18025588号-5  皖公网安备34040002000401 
    网址
    网址文章软件模型

    网址

    日榜周榜月榜
    OpenClaw(Clawdbot/Moltbot)

    OpenClaw(Clawdbot/Moltbot)

    Clawdbot 是一款可在您自己的设备上运行的个人 AI 助手。它在您已使用的渠道(WhatsApp、Telegram、Slack、Discord、Google Chat、Signal、iMessage、Microsoft Teams、WebChat)以及扩展渠道(如 BlueBubbles、Matrix、Zalo 和 Zalo Personal)上为您提供应答。它可以在 macOS/iOS/Android 上进行语音交谈,并能渲染一个您可控制的实时画布。网关仅是控制平面——核心产品是助手本身。
    OpenClaw

    OpenClaw

    OpenClaw 是一个个人 AI 助手,可在您自己的设备上运行。它通过您已经使用的渠道(WhatsApp、Telegram、Slack、Discord、Google Chat、Signal、iMessage、Microsoft Teams、WebChat)以及 BlueBubbles、Matrix、Zalo 和 Zalo Personal 等扩展渠道与您交流。它可以在 macOS/iOS/Android 上说话和聆听,并能渲染一个您控制的实时画布。网关只是控制平面——产品本身才是助手。
    Skills.sh

    Skills.sh

    Vercel 近日上线了一个名为 skills.sh 的新站点,专门用于发现、浏览和安装 AI 智能体的“技能”(Skills)。
    Situation Monitor

    Situation Monitor

    Situation Monitor 是由开发者 Reggie James 创建的一个免费、开源的全球风险监测平台。它通过一张交互式地图,实时整合并可视化全球范围内的关键地缘政治与安全信息,帮助用户快速掌握潜在冲突热点和战略动态。
    OpenClaw汉化发行版

    OpenClaw汉化发行版

    OpenClaw汉化发行版已上线——不仅将CLI命令行、Dashboard网页控制台全部深度汉化,还能每小时自动同步OpenClaw官方更新,汉化版延迟低于1小时,既保留原版全部功能,又适配国内用户的使用习惯,3步即可完成安装部署,零基础也能快速上手。
    nanobot

    nanobot

    nanobot 是一款受 OpenClaw 启发,却走向极简主义的个人 AI 助手。仅用约 4,000 行代码,nanobot 就实现了核心智能体功能,体积相比 OpenClaw 的 43 万行代码缩减了 99%,真正做到了“小到可以理解”。
    查看完整榜单