SD百科导航
  • 首页
  • 快讯
  • 早报
  • 模型
  • ComfyUI
  • 工具
  • 新技术
  • 百科
    • 教程
    • 硬件
    • 科普
  • 知识库
  • 导航
  • 百科工具
    • 首页
    • 快讯
    • 早报
    • 模型
    • ComfyUI
    • 工具
    • 新技术
    • 百科
      • 教程
      • 硬件
      • 科普
    • 知识库
    • 导航
    • 百科工具

    模型

    共 1007 篇文章
    百科工具模型ComfyUIAI合集web UI提示词
    大语言模型多模态模型图像模型语音模型3D模型Flux衍生视频模型
    排序
    发布更新浏览点赞
    MOSAIC:通过语义对齐与特征解耦实现高保真的多主体个性化生成

    MOSAIC:通过语义对齐与特征解耦实现高保真的多主体个性化生成

    在个性化图像生成任务中,我们常常希望将多个参考主体(如人物、动物、物体)的特征融合到一张新图像中——例如,“让A的脸型、B的发型、C的表情和D的服饰出现在同一人身上”。这类任务被称为多主体个性化生成...
    图像模型# MOSAIC# 个性化生成
    3个月前
    01400
    基于图像编辑模型的 FE2E:革新单目密集几何预测

    基于图像编辑模型的 FE2E:革新单目密集几何预测

    在单目深度估计、表面法线预测等密集几何预测任务中,如何在有限标注数据下实现高精度的零样本泛化,一直是三维视觉的核心挑战。 近年来,研究者尝试利用文本到图像生成模型(如Stable Diffusion...
    图像模型# FE2E# 图像编辑
    3个月前
    02020
    Face-MoGLE:一种面向高保真与可控人脸生成的新框架

    Face-MoGLE:一种面向高保真与可控人脸生成的新框架

    在生成模型中,可控人脸合成是一项极具挑战的任务。既要保证生成图像的真实感与细节质量,又要实现对发型、五官、表情等语义属性的精确控制,二者往往难以兼顾。 现有方法常将语义条件直接拼接或交叉注意力注入生成...
    图像模型# Face-MoGLE# 人脸生成
    3个月前
    01690
    CDMs:让机器人“看清”三维世界,实现从仿真到现实的无缝迁移

    CDMs:让机器人“看清”三维世界,实现从仿真到现实的无缝迁移

    在机器人技能学习中,视觉感知是决策与操作的基础。然而,当前大多数方法依赖2D彩色图像作为输入——这种模式虽能捕捉纹理和颜色,却难以准确理解物体的距离、大小、形状等关键几何信息。 相比之下,人类在与环境...
    多模态模型# CDMs# 机器人
    3个月前
    0870
    谷歌推出EmbeddingGemma:专为设备端设计的高性能开放嵌入模型

    谷歌推出EmbeddingGemma:专为设备端设计的高性能开放嵌入模型

    在构建轻量级、隐私优先的 AI 应用时,如何在资源受限的设备上实现高质量语义理解,是一大挑战。传统的嵌入模型往往依赖云端计算,带来延迟、隐私和离线可用性问题。 为此,谷歌推出 EmbeddingGem...
    大语言模型# EmbeddingGemma# 嵌入模型# 谷歌
    3个月前
    01540
    Instinct:由 Continue 打造的全球首个开放 Next Edit 模型

    Instinct:由 Continue 打造的全球首个开放 Next Edit 模型

    在代码编辑中,真正消耗时间的往往不是“写代码”,而是重构、调整、维护与迭代。传统自动补全工具只能在光标处插入文本,面对复杂的多行修改仍需手动操作,打断开发节奏。 为此,开发工具团队 Continue ...
    大语言模型# Continue# Instinct# Next Edit 模型
    3个月前
    01240
    月之暗面发布 Kimi K2 新版本(0905):编程能力再升级,支持 256K 上下文与高速 API

    月之暗面发布 Kimi K2 新版本(0905):编程能力再升级,支持 256K 上下文与高速 API

    月之暗面宣布推出其旗舰模型 Kimi K2 的最新版本(0905),重点针对真实编程任务进行优化,在代码生成能力、上下文处理、API 性能和平台兼容性等方面实现多项重要升级。 此次更新聚焦于提升模型在...
    大语言模型# Kimi K2# Kimi-K2-Instruct-0905# 月之暗面
    3个月前
    01460
    PosterGen:用多智能体系统自动生成高质量学术海报

    PosterGen:用多智能体系统自动生成高质量学术海报

    对研究人员而言,撰写论文只是第一步。在会议展示阶段,如何将复杂的研究内容浓缩成一张信息清晰、视觉美观、叙事连贯的学术海报,是一项耗时且需要设计经验的任务。 尽管已有自动化工具尝试解决这一问题,但大多数...
    图像模型# PosterGen# 学术海报
    3个月前
    02780
    字节跳动发布UI-TARS-2:一个面向真实GUI交互的原生代理模型

    字节跳动发布UI-TARS-2:一个面向真实GUI交互的原生代理模型

    在图形用户界面(GUI)日益复杂的背景下,如何让AI代理像人类一样流畅操作系统、完成多步骤任务,是自动化与智能体研究的重要方向。然而,当前自主GUI代理的发展仍面临诸多挑战:训练数据难以规模化获取、多...
    大语言模型# UI-TARS-2
    3个月前
    01250
    大语言模型知识获取研究新工具:特拉维夫大学与麦吉尔大学推出 LMEnt 套件

    大语言模型知识获取研究新工具:特拉维夫大学与麦吉尔大学推出 LMEnt 套件

    语言模型正在越来越多地承担需要世界知识的任务:回答问题、生成事实性文本、辅助决策……但一个根本性问题仍未解决: 模型是如何从训练数据中“学会”知识的? 我们训练模型时喂的是文本,但它输出的却是“信念...
    大语言模型# LMEnt# 大语言模型
    3个月前
    01320
    InfoSeek:智源研究院提出可扩展的深度研究数据合成框架

    InfoSeek:智源研究院提出可扩展的深度研究数据合成框架

    在大模型迈向“自主思考”的过程中,一个关键瓶颈逐渐显现: 现有基准任务太简单,无法真正测试模型的复杂推理能力。 Natural Questions、HotpotQA 等主流数据集虽然推动了多跳推理的发...
    大语言模型# InfoSeek# 深度研究
    3个月前
    02050
    OpenVision 2:更高效、更对齐的生成式视觉编码器

    OpenVision 2:更高效、更对齐的生成式视觉编码器

    在多模态大模型(MLLM)快速发展的今天,一个核心问题日益凸显:预训练视觉编码器的训练方式是否真的适配下游任务? 传统方法依赖图像-文本对比学习(如 CLIP),但这类模型在接入 LLM 进行微调时...
    多模态模型# OpenVision 2# 视觉编码器
    3个月前
    01250
    加载更多
    SD百科导航
    SD百科导航是专注于AI创作领域的专业导航网站。我们全面涵盖Stable Diffusion、Flux、AI绘画、AI视频、AI音乐以及大语言模型等前沿内容。

    友链申请免责声明广告合作关于我们

    扫码关注微信公众号SD百科导航
    扫码关注微信公众号
    Copyright © 2025 SD百科导航 皖ICP备18025588号-5  皖公网安备34040002000401 
    网址
    网址文章软件模型

    网址

    日榜周榜月榜
    朱雀大模型检测

    朱雀大模型检测

    腾讯朱雀 AI 检测是于 2025 年 1 月 17 日推出的一款 AI 生成内容检测工具,主要用于帮助用户识别 AI 生成的文本和图像内容。每位用户每天最多可检测20次文本和20次图片。
    Google AI Studio

    Google AI Studio

    Google AI Studio 是一个功能齐全的工具,特别适合希望快速构建和试验 AI 应用的开发者。其多模态支持、提示库和与 Gemini API 的无缝集成使其成为生成 AI 开发的有力平台。
    DiffRhythm(谛韵)

    DiffRhythm(谛韵)

    DiffRhythm(中文名“谛韵”)是由西北工业大学音频、语音与语言处理研究组(ASLP Lab)和香港中文大学(深圳)深圳大数据研究院联合开发的新型端到端全长度歌曲生成模型。基于潜扩散(Latent Diffusion)技术,DiffRhythm 能够快速生成包含人声和伴奏的完整歌曲,解决了现有音乐生成方法的诸多局限性。
    Excalidraw

    Excalidraw

    Excalidraw 是一款开源的虚拟白板工具,主要用于绘制具有手绘风格的图表。它支持多个用户实时协作,并通过端到端加密保护用户数据安全。作为一款渐进式网络应用(PWA),它可以在离线状态下使用,并自动保存到浏览器中,方便用户随时访问。
    Claude Code 

    Claude Code 

    Claude Code 是一款代理编码工具,运行于您的终端,能够理解您的代码库,并通过自然语言命令帮助您更快地编码,执行日常任务,解释复杂代码,并处理 Git 工作流程。
    Magi

    Magi

    MAGI-1是由Sand AI研究团队开发的一种新型视频生成模型。该模型通过自回归预测视频块序列来生成视频,每个视频块由固定长度的连续帧组成。这是首个具有顶级质量输出的自回归视频模型,而且还是开源的,目前Sand AI还推出了视频生成平台Magi,不过目前仅支持图生视频。
    查看完整榜单