SD百科导航
  • 首页
  • 快讯
  • 早报
  • 模型
  • ComfyUI
  • 新技术
  • 百科
    • 教程
    • 硬件
    • 科普
  • 百科工具
    • 工具
  • 排行榜
  • 网址提交
    • 首页
    • 快讯
    • 早报
    • 模型
    • ComfyUI
    • 新技术
    • 百科
      • 教程
      • 硬件
      • 科普
    • 百科工具
      • 工具
    • 排行榜
    • 网址提交

    模型

    共 1051 篇文章
    百科工具模型ComfyUIAI合集web UI提示词
    大语言模型多模态模型图像模型语音模型3D模型Flux衍生视频模型
    排序
    发布更新浏览点赞
    复旦联合团队发布首个统一多模态奖励模型UNIFIEDREWARD:图像视频都能评,还能优化视觉生成

    复旦联合团队发布首个统一多模态奖励模型UNIFIEDREWARD:图像视频都能评,还能优化视觉生成

    近日,由复旦大学、上海创新创意设计研究院、上海人工智能实验室和上海人工智能科学院组成的研究团队,正式发布了全球首个支持图像与视频理解与生成任务评估的统一奖励模型 —— UNIFIEDREWARD。 项...
    多模态模型# UNIFIEDREWARD# 统一多模态奖励模型
    7个月前
    03340
    Kimi-VL-A3B-Thinking-2506 正式上线:更强推理、更高分辨率、支持视频理解

    Kimi-VL-A3B-Thinking-2506 正式上线:更强推理、更高分辨率、支持视频理解

    两个月前,月之暗面推出了首个开源多模态推理模型 Kimi-VL-A3B-Thinking,如今他们正式推出其升级版本 Kimi-VL-A3B-Thinking-2506。 模型:https://hug...
    多模态模型# Kimi-VL-A3B-Thinking-2506# 多模态推理模型# 月之暗面
    7个月前
    03480
    谷歌开源实时音乐生成模型 Magenta RealTime:8亿参数,支持文本/音频操控

    谷歌开源实时音乐生成模型 Magenta RealTime:8亿参数,支持文本/音频操控

    今天,Google DeepMind 宣布开源一款名为 Magenta RealTime 的实时音乐生成模型。该模型基于 Apache 2.0 许可证发布,具备实时交互能力,能够根据文本提示或音频示例...
    语音模型# Magenta RealTime# 音乐生成模型
    7个月前
    02950
    Soul AI推出新型推出新型图像生成模型 TransDiff :将自回归(AR)Transformer 和扩散模型相结合,用于高质量的图像生成

    Soul AI推出新型推出新型图像生成模型 TransDiff :将自回归(AR)Transformer 和扩散模型相结合,用于高质量的图像生成

    Soul AI推出新型图像生成模型 TransDiff ,该模型将自回归(AR)Transformer 和扩散模型相结合,用于高质量的图像生成。TransDiff 通过将输入编码为高级语义特征,并利用...
    图像模型# TransDiff# 图像生成模型
    7个月前
    02420
    Mistral AI 发布 Mistral Small 3.2:小幅迭代,体验提升

    Mistral AI 发布 Mistral Small 3.2:小幅迭代,体验提升

    Mistral AI 推出了其中型模型系列的新版本——Mistral Small 3.2。这是对上一版 Mistral Small 3.1 的一次轻量级升级,在多个关键使用场景中带来了显著优化。 模型...
    大语言模型# Mistral AI# Mistral Small 3.2
    7个月前
    01230
    字节跳动推出新型框架ImmerseGen:用于从文本提示自动生成沉浸式 3D 场景

    字节跳动推出新型框架ImmerseGen:用于从文本提示自动生成沉浸式 3D 场景

    字节跳动和浙江大学的研究人员推出新型框架ImmerseGen ,用于从文本提示自动生成沉浸式 3D 场景。ImmerseGen 通过使用轻量级的几何代理(如简化地形和带有 alpha 通道的纹理平面...
    3D模型# ImmerseGen# 字节跳动
    7个月前
    02040
    UltraVideo 与 UltraWAN:首个支持原生 UHD 视频生成的开源数据集与模型

    UltraVideo 与 UltraWAN:首个支持原生 UHD 视频生成的开源数据集与模型

    随着高质量视频内容需求的快速增长,如电影级超高清(UHD)制作、沉浸式媒体和短视频创作,对文本到视频(T2V)模型的能力提出了更高要求。 然而,现有公开数据集在分辨率、图像质量及字幕细节方面存在明显不...
    视频模型# UltraVideo# UltraWAN# UltraWanComfy
    7个月前
    03770
    EmoNet:迈向真正“有情感”的AI,LAION开源新一代情感智能模型

    EmoNet:迈向真正“有情感”的AI,LAION开源新一代情感智能模型

    人工智能的发展正进入一个全新的阶段:从理解语言到理解情绪。尽管AI在语言处理、推理能力等方面取得了显著进展,但在情感智能(Affective Intelligence)这一维度上,仍然存在巨大空白。 ...
    多模态模型# EmoNet# LAION AI# 情感智能模型
    7个月前
    02680
    EdgeTAM:Meta 与南洋理工等联合推出可在手机运行的视频分割模型,比 SAM 2 快 22 倍

    EdgeTAM:Meta 与南洋理工等联合推出可在手机运行的视频分割模型,比 SAM 2 快 22 倍

    由 Meta Reality 实验室、南洋理工大学 和 上海人工智能实验室 联合提出的新模型 EdgeTAM 引起了广泛关注。该模型是对 Segment Anything Model 2(SAM 2...
    视频模型# EdgeTAM# SAM 2# 视频分割模型
    7个月前
    02460
    Midjourney 正式发布 V1 视频模型:从文本到视频,AI创作迈入新阶段

    Midjourney 正式发布 V1 视频模型:从文本到视频,AI创作迈入新阶段

    6月18日,Midjourney 宣布正式推出其首款视频生成模型 V1,标志着这家以图像生成闻名的 AI 公司,正式进军视频内容创作领域。 这一更新不仅打通了原有的图文生成生态,还实现了从文本直接生成...
    视频模型# Midjourney
    7个月前
    01120
    Jan-Nano:40亿参数的紧凑型研究专用语言模型正式上线

    Jan-Nano:40亿参数的紧凑型研究专用语言模型正式上线

    Menlo发布一款专为深度研究任务设计的小型语言模型 Jan-Nano 。该模型拥有 40亿参数规模,在保证轻量级部署的同时展现出强大的推理能力。此模型基于 Qwen3-4B 构建,并经过 DAPO ...
    大语言模型# Jan-Nano# 小型语言模型
    7个月前
    02750
    Multiverse:全球首个开源的非自回归并行推理框架,推理速度提升2倍

    Multiverse:全球首个开源的非自回归并行推理框架,推理速度提升2倍

    卡内基梅隆大学与英伟达联合推出了一项具有突破性的生成模型框架——Multiverse。这是全球首个开源的非自回归(Non-Autoregressive)并行推理框架,在保持与主流自回归模型(AR-LL...
    大语言模型# Multiverse# 推理框架
    7个月前
    01630
    加载更多
    SD百科导航
    SD百科导航是专注于AI创作领域的专业导航网站。我们全面涵盖Stable Diffusion、Flux、AI绘画、AI视频、AI音乐以及大语言模型等前沿内容。

    关于我们网址提交友链申请广告合作

    扫码关注微信公众号SD百科导航
    扫码关注微信公众号
    Copyright © 2026 SD百科导航 皖ICP备18025588号-5  皖公网安备34040002000401 
    网址
    网址文章软件模型

    网址

    日榜周榜月榜
    人生 K 线

    人生 K 线

    人生 K 线(Life Destiny K-Line)是一个结合传统八字命理与现代大语言模型(LLM)的轻量级可视化工具。它将一个人从 1 岁到 100 岁的运势走势,以类似股票 K 线图的形式呈现,试图用数据可视化的方式“翻译”命理推演结果。
    Fogsight (雾象)

    Fogsight (雾象)

    雾象是一款由大语言模型(LLM)驱动的动画引擎 agent 。用户输入抽象概念或词语,雾象会将其转化为高水平的生动动画。
    MiroFish

    MiroFish

    MiroFish 是一款基于多智能体技术的新一代 AI 预测引擎。通过提取现实世界的种子信息(如突发新闻、政策草案、金融信号),自动构建出高保真的平行数字世界。
    互联网大厂模拟器

    互联网大厂模拟器

    《互联网大厂模拟器》或许不会改变现实,但它提供了一个出口:在虚拟世界里,我们可以安全地体验“另一种职场人生”,然后笑着关掉页面,继续面对明天的站会。
    Tripo

    Tripo

    Tripo AI 是一家领先的 AI 驱动 3D 建模解决方案提供商,允许用户使用文本、单张图像、多张图像、涂鸦或视频等输入,快速创建高质量的 3D 模型和环境。
    Higgsfield AI

    Higgsfield AI

    Higgsfield AI平台支持文生图和图生视频,近期对图生视频功能进行了全面升级,专为追求高质量、风格化内容创作并渴望真正电影级操控的创意人士打造——无论是MV导演、商业片制作人、AI创作者,还是社交媒体叙事者。
    查看完整榜单