SD百科导航
  • 首页
  • 快讯
  • 早报
  • 模型
  • ComfyUI
  • 新技术
  • 百科
    • 教程
    • 硬件
    • 科普
  • 百科工具
    • 工具
  • 排行榜
  • 网址提交
    • 首页
    • 快讯
    • 早报
    • 模型
    • ComfyUI
    • 新技术
    • 百科
      • 教程
      • 硬件
      • 科普
    • 百科工具
      • 工具
    • 排行榜
    • 网址提交

    模型

    共 1237 篇文章
    百科工具模型ComfyUIAI合集web UI提示词
    大语言模型多模态模型图像模型语音模型3D模型Flux衍生视频模型世界模型
    排序
    发布更新浏览点赞
    美团开源 LongCat-Next:原生多模态新范式,用“离散 Token”统一文本、图像与语音

    美团开源 LongCat-Next:原生多模态新范式,用“离散 Token”统一文本、图像与语音

    在人工智能迈向“通用智能”的征途中,如何处理文本、图像、语音等多种模态数据,一直是业界最大的挑战之一。传统方案往往需要为不同模态设计独立的编码器,或采用复杂的跨模态对齐机制,导致模型架构臃肿、训练困难...
    多模态模型# LongCat-Next# 美团
    2周前
    01210
    AI终于能“边看视频边记人”!北大等联合推出PEARL,实时互动不“失忆”

    AI终于能“边看视频边记人”!北大等联合推出PEARL,实时互动不“失忆”

    想象一下这个场景:你正在看一部长达两小时的电影直播,中途你指着屏幕对 AI 助手说:“记住那个穿红衣服的女孩,她叫小红。” 十分钟后,你问:“小红现在在干嘛?” AI 立刻回答:“她在厨房切菜。” 半...
    多模态模型# PEARL# 视频理解
    2周前
    0330
    Phota Labs 发布全新 AI 摄影工具:保留真实人像,实现个性化照片创作与编辑

    Phota Labs 发布全新 AI 摄影工具:保留真实人像,实现个性化照片创作与编辑

    在生成式 AI 席卷图像领域的今天,我们常常面临一个尴尬的困境:AI 生成的图片虽然精美,但里面的人“像我却不是我”。眼神不对、微笑的弧度陌生、甚至五官细节都发生了微妙的偏移。对于摄影而言,真实性与身...
    图像模型早报# Phota Labs
    2周前
    0800
    Mistral 发布 Voxtral TTS:40 亿参数开源模型,以极致低延迟和跨语言克隆挑战 ElevenLabs

    Mistral 发布 Voxtral TTS:40 亿参数开源模型,以极致低延迟和跨语言克隆挑战 ElevenLabs

    法国 AI 独角兽 Mistral AI 今日正式进军语音合成领域,发布了其首款开源文本转语音(TTS)模型——Voxtral TTS。这款基于 Ministral 3B 架构打造的轻量级模型,旨在以...
    语音模型# Mistral# Voxtral TTS
    2周前
    0160
    谷歌发布 Gemini 3.1 Flash Live:迄今最自然、最敏锐的语音 AI,支持全球 200+ 语言

    谷歌发布 Gemini 3.1 Flash Live:迄今最自然、最敏锐的语音 AI,支持全球 200+ 语言

    谷歌在 AI 语音交互领域再次迈出关键一步。今日,谷歌正式推出 Gemini 3.1 Flash Live,称其为“迄今为止最高质量的音频和语音模型”。这款新模型不仅大幅降低了延迟,更在语调理解、情绪...
    早报语音模型# Gemini 3.1 Flash Live# 谷歌
    2周前
    01180
    Cohere 开源自动语音识别(ASR)模型 Cohere Transcribe:20 亿参数跑赢巨头,消费级显卡即可部署

    Cohere 开源自动语音识别(ASR)模型 Cohere Transcribe:20 亿参数跑赢巨头,消费级显卡即可部署

    在企业 AI 赛道深耕多年的 Cohere 今日正式进军语音领域,发布了其首款开源自动语音识别(ASR)模型——Cohere Transcribe(cohere-transcribe-03-2026...
    语音模型# Cohere# Cohere Transcribe# 自动语音识别模型
    2周前
    0600
    谷歌发布 Lyria 3 Pro:谷歌音乐生成迈入“完整曲目”时代,最长支持 3 分钟

    谷歌发布 Lyria 3 Pro:谷歌音乐生成迈入“完整曲目”时代,最长支持 3 分钟

    继上个月推出 Lyria 3 后,谷歌于本周三正式发布了其最新音乐生成模型 Lyria 3 Pro。这款升级版模型不仅将生成时长从 30 秒大幅延长至 3 分钟,更在音乐结构理解、创意控制和多平台集成...
    早报语音模型# Lyria 3 Pro# 谷歌
    2周前
    0330
    OpenResearcher:全开源深度研究智能体,离线合成百万级轨迹,性能超越 GPT-4.1 与 Claude Opus

    OpenResearcher:全开源深度研究智能体,离线合成百万级轨迹,性能超越 GPT-4.1 与 Claude Opus

    在 AI 自主代理(Agent)迈向“深度研究”的征途中,数据一直是最大的拦路虎。训练一个能像人类专家一样进行多步推理、交叉验证的 AI,需要海量的长周期研究轨迹数据。然而,现有的数据合成方案严重依赖...
    大语言模型# OpenResearcher
    2周前
    0190
    Attend Before Attention:伯克利与英伟达联手,让AI像人眼一样“扫视”视频,推理提速19倍

    Attend Before Attention:伯克利与英伟达联手,让AI像人眼一样“扫视”视频,推理提速19倍

    在视频理解领域,长久以来存在一个巨大的效率悖论:人类只需扫视关键物体就能理解场景,而AI模型却必须像素级地“硬啃”每一帧。这种对时空冗余数据的无差别处理,导致当前的多模态大语言模型(MLLM)在面对长...
    多模态模型# Attend Before Attention# AutoGaze
    2周前
    0200
    daVinci-MagiHuman:单流架构重塑音视频生成,1080p 仅需 38 秒的开源新标杆

    daVinci-MagiHuman:单流架构重塑音视频生成,1080p 仅需 38 秒的开源新标杆

    在 AI 生成内容(AIGC)领域,音视频联合生成一直被视为“皇冠上的明珠”。然而,现有的开源方案往往陷入两难:要么采用复杂的多流架构导致推理缓慢、难以优化,要么为了速度牺牲了人物表情与语音的自然度...
    视频模型# daVinci-MagiHuman# 视频生成
    2周前
    01260
    PrismAudio:阿里通义首创“思维链+强化学习”视频音效框架,让AI学会“先思考再发声”

    PrismAudio:阿里通义首创“思维链+强化学习”视频音效框架,让AI学会“先思考再发声”

    在视频生成领域,画面与声音的同步一直是难以攻克的“最后一公里”。传统的视频转音频(Video-to-Audio)模型往往采用“端到端”的黑箱模式:输入视频,直接输出音频。这种“直觉式”生成容易导致声音...
    视频模型# PrismAudio# 视频音效
    2周前
    0210
    英伟达发布 Nemotron-Cascade 2:开源 30B MoE 模型,激活仅 3B 却斩获 IMO/IOI 金牌水平

    英伟达发布 Nemotron-Cascade 2:开源 30B MoE 模型,激活仅 3B 却斩获 IMO/IOI 金牌水平

    在“越大越强”的大模型军备竞赛中,英伟达走出了一条截然不同的路:追求极致的“智能密度”。 英伟达正式开源 Nemotron-Cascade 2,一款总参数量 30B、激活参数仅 3B 的混合专家模型...
    大语言模型# Nemotron-Cascade 2# 英伟达
    2周前
    01150
    加载更多
    SD百科导航
    SD百科导航是专注于AI创作领域的专业导航网站。我们全面涵盖Stable Diffusion、Flux、AI绘画、AI视频、AI音乐以及大语言模型等前沿内容。

    关于我们网址提交友链申请广告合作

    扫码关注微信公众号SD百科导航
    扫码关注微信公众号
    Copyright © 2026 SD百科导航 皖ICP备18025588号-5  皖公网安备34040002000401 
    网址
    网址文章软件模型

    网址

    日榜周榜月榜
    S.H.I.T

    S.H.I.T

    在主流学术界为顶刊版面、高影响因子和“非升即走”的考核指标疯狂内卷之时,一场名为“学术垃圾”的反叛运动正在角落里悄然兴起。一群“想开了”的硕博研究生和青年学者(青椒),不再试图迎合传统的学术评价体系,而是隆重推出了一系列名字惊世骇俗的“旗舰”期刊——《SHIT》、《Notrue》、《Silence》、《Crazy》。
    Flova

    新Flova

    Flova AI 最近宣布集成字节跳动最新的视频生成模型——Seedance 2.0。这不仅仅是一个新模型的上线,更意味着普通创作者现在也能轻松制作出长达 60 至 90 秒、角色稳定、剧情连贯的电影级短剧。
    Tripo

    Tripo

    Tripo AI 是一家领先的 AI 驱动 3D 建模解决方案提供商,允许用户使用文本、单张图像、多张图像、涂鸦或视频等输入,快速创建高质量的 3D 模型和环境。
    BuildCores

    BuildCores

    BuildCores 是一款集 3D 组装预览、智能兼容性检测、全球比价 于一体的在线装机工具。无论你是首次装机的新手,还是追求极致性能的发烧友,都能在手机或电脑上轻松规划、验证并优化你的 PC 配置。
    AI21 Labs

    AI21 Labs

    AI21 Labs发布了名为Jamba的模型,该模型通过融合Transformer和Mamba架构的优点,在精度和速度之间达到了完美的平衡。Jamba专为解决分布式计算和无缝部署等严峻挑战而设计,旨在将尖端研究转化为实际成果。
    DrFonts

    DrFonts

    drFonts是一个专注于 AI 驱动字体生成、搜索和自定义的在线平台,于 2025 年 10 月底正式推出 V1.0 版本,被宣传为“世界上第一个 AI 字体生成器”。这个平台的出现标志着 typography(字体设计)领域进入 AI 时代,它旨在解决传统字体创建的复杂性和时间消耗问题,让设计师、创作者甚至非专业用户都能轻松生成独特字体。
    查看完整榜单