SD百科导航
  • 首页
  • 快讯
  • 早报
  • 模型
  • ComfyUI
  • 新技术
  • 百科
    • 教程
    • 硬件
    • 科普
  • 百科工具
    • 工具
  • 排行榜
  • 网址提交
    • 首页
    • 快讯
    • 早报
    • 模型
    • ComfyUI
    • 新技术
    • 百科
      • 教程
      • 硬件
      • 科普
    • 百科工具
      • 工具
    • 排行榜
    • 网址提交

    模型

    共 1051 篇文章
    百科工具模型ComfyUIAI合集web UI提示词
    大语言模型多模态模型图像模型语音模型3D模型Flux衍生视频模型
    排序
    发布更新浏览点赞
    阿里通义千问推出机器翻译模型Qwen-MT:92种语言互译,打造高效智能翻译新体验

    阿里通义千问推出机器翻译模型Qwen-MT:92种语言互译,打造高效智能翻译新体验

    阿里通义千问团队近日通过Qwen API平台正式发布机器翻译模型Qwen-MT的最新升级版本——qwen-mt-turbo。该模型基于强大的Qwen3架构,结合超大规模多语言翻译数据与强化学习技术,在...
    大语言模型# Qwen-MT# 翻译模型
    6个月前
    04380
    东京大学推出基准测试MangaVQA和多模态漫画理解模型MangaLMM

    东京大学推出基准测试MangaVQA和多模态漫画理解模型MangaLMM

    东京大学的研究人员推出一个名为 MangaVQA 的基准测试和一个名为 MangaLMM 的专门模型,用于多模态漫画理解。漫画(Manga)是一种将图像和文本以复杂方式结合的叙事形式,理解漫画需要同时...
    多模态模型# MangaLMM# MangaVQA# 东京大学
    6个月前
    01410
    Ultra3D:一种高效且高保真的稀疏体素3D生成框架

    Ultra3D:一种高效且高保真的稀疏体素3D生成框架

    在生成式 AI 向三维空间延伸的进程中,高质量、高分辨率的3D内容生成已成为核心挑战。尽管基于稀疏体素的方法在几何细节建模方面表现出色,但其普遍采用的双阶段扩散架构常因注意力机制的二次计算复杂度而面临...
    3D模型# 3D生成框架# Ultra3D
    6个月前
    05250
    交互式世界生成模型 Yume:通过输入图像、文本或视频来创建一个动态、逼真且可交互的世界

    交互式世界生成模型 Yume:通过输入图像、文本或视频来创建一个动态、逼真且可交互的世界

    由上海市人工智能实验室、复旦大学与上海创新研究院联合研发的新型生成模型 Yume 正式亮相。该模型旨在突破传统生成式 AI 的静态局限,构建一个可探索、可控制、高保真且动态演化的虚拟世界。 项目主页...
    视频模型# Yume# 交互式世界生成模型
    6个月前
    01860
    字节跳动发布 Seed LiveInterpret 2.0:首个中英同传延迟与准确率接近人类水平的端到端语音翻译系统

    字节跳动发布 Seed LiveInterpret 2.0:首个中英同传延迟与准确率接近人类水平的端到端语音翻译系统

    在跨语言实时沟通的长期挑战中,机器能否真正替代人类同声传译?字节跳动 Seed 团队给出了迄今为止最接近“是”的答案。 今日,字节跳动正式发布 Seed LiveInterpret 2.0 —— 一款...
    语音模型# Seed LiveInterpret 2.0# 同声传译模型# 字节跳动
    6个月前
    02960
    浙大 × 阿里巴巴推出 OmniAvatar:首个支持音频驱动全身动画的可控虚拟人视频生成模型

    浙大 × 阿里巴巴推出 OmniAvatar:首个支持音频驱动全身动画的可控虚拟人视频生成模型

    在数字人、虚拟主播、AI 视频创作等领域,仅靠语音生成逼真且动作自然的虚拟形象视频,一直是生成式 AI 的关键挑战之一。 现有音频驱动视频生成方法大多聚焦于面部动画,尤其是唇部同步,而对身体动作、姿态...
    视频模型# OmniAvatar# 虚拟人
    6个月前
    02110
    谷歌发布 Gemini 2.5 Flash-Lite 稳定版:更快、更轻、更具成本效益

    谷歌发布 Gemini 2.5 Flash-Lite 稳定版:更快、更轻、更具成本效益

    谷歌宣布,Gemini 2.5 Flash-Lite 正式进入稳定版本并全面开放使用。作为 Gemini 2.5 模型系列中速度最快、成本最低的成员,该模型旨在为大规模生产场景提供高性价比的智能推理能...
    大语言模型# Gemini 2.5 Flash-Lite# 谷歌
    6个月前
    01100
    阿里Qwen团队推出新一代代码大模型 Qwen3-Coder

    阿里Qwen团队推出新一代代码大模型 Qwen3-Coder

    阿里通义Qwen团队发布全新代码大模型系列 Qwen3-Coder,这是目前 Qwen 系列中最具代理(Agent)能力的代码模型。此次发布的最大版本为 Qwen3-Coder-480B-A35B-I...
    大语言模型# Qwen Code CLI# Qwen3-Coder# 代码大模型
    6个月前
    02070
    南洋理工大学 S-Lab 提出新型对象移除框架ObjectClear ,精准消除物体及其阴影、反射

    南洋理工大学 S-Lab 提出新型对象移除框架ObjectClear ,精准消除物体及其阴影、反射

    在图像编辑任务中,移除一个物体看似简单,实则极具挑战。 不仅要将目标对象从画面中“擦除”,还需同步清除其带来的视觉副产物——如阴影、倒影、高光、遮挡痕迹等。若处理不当,即便主体消失,残留的影子或反光仍...
    图像模型# ObjectClear# 南洋理工大学# 对象移除
    6个月前
    03400
    快手 Kwaipilot 团队开源 40B 大模型 KAT-V1-40B :用 AutoThink 实现智能“何时思考”

    快手 Kwaipilot 团队开源 40B 大模型 KAT-V1-40B :用 AutoThink 实现智能“何时思考”

    在当前大模型普遍追求“深度推理”的趋势下,一个更现实的问题逐渐浮现:是否每个问题都需要长篇思维链? 过度使用思维链(Chain-of-Thought, CoT)不仅增加计算开销、拖慢响应速度,还可能导...
    大语言模型# KAT-V1-40B# 快手
    6个月前
    01310
    SongBloom:一种实现结构连贯与高保真度的全曲生成新框架

    SongBloom:一种实现结构连贯与高保真度的全曲生成新框架

    在自动音乐生成领域,生成一首具备完整结构、风格统一、人声与伴奏和谐融合的全长歌曲,依然是极具挑战性的任务。 现有方法——无论是基于语言模型的自回归生成,还是基于扩散模型的音频合成——往往面临两难困境...
    语音模型# SongBloom# 音乐生成
    6个月前
    01000
    字节跳动Seed团队发布新一代机器人操作大模型Seed GR-3

    字节跳动Seed团队发布新一代机器人操作大模型Seed GR-3

    字节跳动Seed团队近日推出一款面向复杂操作任务的大规模机器人模型——Seed GR-3(Generalist Robot Model-3)。该模型具备良好的泛化能力,支持长序列任务执行与多模态指令理...
    多模态模型# Seed GR-3# 字节跳动
    6个月前
    01630
    加载更多
    SD百科导航
    SD百科导航是专注于AI创作领域的专业导航网站。我们全面涵盖Stable Diffusion、Flux、AI绘画、AI视频、AI音乐以及大语言模型等前沿内容。

    关于我们网址提交友链申请广告合作

    扫码关注微信公众号SD百科导航
    扫码关注微信公众号
    Copyright © 2026 SD百科导航 皖ICP备18025588号-5  皖公网安备34040002000401 
    网址
    网址文章软件模型

    网址

    日榜周榜月榜
    人生 K 线

    人生 K 线

    人生 K 线(Life Destiny K-Line)是一个结合传统八字命理与现代大语言模型(LLM)的轻量级可视化工具。它将一个人从 1 岁到 100 岁的运势走势,以类似股票 K 线图的形式呈现,试图用数据可视化的方式“翻译”命理推演结果。
    MiroFish

    MiroFish

    MiroFish 是一款基于多智能体技术的新一代 AI 预测引擎。通过提取现实世界的种子信息(如突发新闻、政策草案、金融信号),自动构建出高保真的平行数字世界。
    Higgsfield AI

    Higgsfield AI

    Higgsfield AI平台支持文生图和图生视频,近期对图生视频功能进行了全面升级,专为追求高质量、风格化内容创作并渴望真正电影级操控的创意人士打造——无论是MV导演、商业片制作人、AI创作者,还是社交媒体叙事者。
    Grok

    Grok

    Grok是一款先进的对话式人工智能。Grok 旨在提供高效、准确且自然的对话交互体验,适用于多种应用场景,包括客户服务、虚拟助手、教育辅导等。
    Fogsight (雾象)

    Fogsight (雾象)

    雾象是一款由大语言模型(LLM)驱动的动画引擎 agent 。用户输入抽象概念或词语,雾象会将其转化为高水平的生动动画。
    AI-Paperless

    AI-Paperless

    AI-Paperless是基于卓越的开源文档管理系统 paperless-ngx 深度二次开发,创新性地融合了 大语言模型(LLM) 与 视觉模型(VLM) 等先进 AI 能力。目标是打造一个功能更强大、交互更智能、管理更高效的智能文档知识库,让您的文档真正实现深度理解与高效利用。
    查看完整榜单