SD百科导航
  • 首页
  • 快讯
  • 早报
  • 模型
  • ComfyUI
  • 新技术
  • 百科
    • 教程
    • 硬件
    • 科普
  • 百科工具
    • 工具
  • 知识库
  • 排行榜
    • 首页
    • 快讯
    • 早报
    • 模型
    • ComfyUI
    • 新技术
    • 百科
      • 教程
      • 硬件
      • 科普
    • 百科工具
      • 工具
    • 知识库
    • 排行榜

    百科

    共 2227 篇文章
    百科工具模型ComfyUIAI合集web UI提示词
    教程新技术硬件科普早报
    排序
    发布更新浏览点赞
    一种在推理阶段组合定制扩散模型的新方法TweedieMix:用于改进多概念融合在基于扩散的图像和视频生成中的应用

    一种在推理阶段组合定制扩散模型的新方法TweedieMix:用于改进多概念融合在基于扩散的图像和视频生成中的应用

    KRAFTON和韩国科学技术研究院AI研究生院的研究人员推出一种在推理阶段组合定制扩散模型的新方法TweedieMix,它用于改进多概念融合在基于扩散的图像和视频生成中的应用。简单来说,Tweedie...
    新技术# TweedieMix# 扩散模型
    1年前
    04720
    新型框架GVGEN:根据文本描述直接生成三维模型

    新型框架GVGEN:根据文本描述直接生成三维模型

    来自上海AI研究所、清华大学、上海交通大学、浙江大学和VAST的研究团队推出新型框架GVGEN,它能够根据文本描述直接生成三维模型。与现有的3D生成方法相比,GVGEN在定性和定量评估中均表现出卓越的...
    新技术# GVGEN# 三维模型
    2年前
    04710
    大型多模态模型VideoGLaMM:专为用户提供的文本输入进行视频中细粒度像素级定位而设计

    大型多模态模型VideoGLaMM:专为用户提供的文本输入进行视频中细粒度像素级定位而设计

    视频与文本之间的细粒度对齐是一个具有挑战性的问题,因为视频中存在复杂的空间和时间动态。现有的基于视频的大型多模态模型(LMMs)虽然可以处理基本对话,但在视频中进行精确的像素级定位方面存在困难。 大型...
    新技术# VideoGLaMM# 大型多模态模型
    1年前
    04700
    字节跳动Seed团队发布WideSearch:首个面向大规模信息收集的智能体评估基准

    字节跳动Seed团队发布WideSearch:首个面向大规模信息收集的智能体评估基准

    在信息过载的时代,获取“更多”并不等于“更有效”。真正制约效率的,往往不是找不到某个具体答案,而是面对海量目标时的系统性整理能力——比如,为一个行业筛选出上百家公司数据,或从成千上万条招聘信息中精准匹...
    新技术# WideSearch# 字节跳动# 智能体评估基准
    4个月前
    04690
    Bolt与 AnimaApp 合作:将 Figma 设计无缝转化为像素级完美的全栈应用程序

    Bolt与 AnimaApp 合作:将 Figma 设计无缝转化为像素级完美的全栈应用程序

    Bolt 推出了一项强大的新功能,通过与 AnimaApp 合作,将 Figma 设计无缝转化为像素级完美的全栈应用程序。这一创新工具让设计师无需编写代码,即可将创意快速转化为真实、可运行的应用程序...
    早报# Bolt# Figma
    9个月前
    04690
    TransAgent 框架:提升视觉-语言基础模型(比如CLIP)在新领域中的泛化能力

    TransAgent 框架:提升视觉-语言基础模型(比如CLIP)在新领域中的泛化能力

    中国科学院深圳先进技术研究院、中国科学院大学、上海人工智能实验室和上海交通大学的研究人员推出一个通用且简洁的 TransAgent 框架,它的目标是提升视觉-语言基础模型(比如CLIP)在新领域中的泛...
    新技术# CLIP模型# TransAgent 框架
    1年前
    04690
    文本到纹理方法RoCoTex:用于生成高质量、一致性强的3D模型纹理

    文本到纹理方法RoCoTex:用于生成高质量、一致性强的3D模型纹理

    NCSOFT 图形 AI 实验室、韩国大学计算机科学与工程系和韩国中央大学图像系的研究人员推出一种稳健的文本到纹理方法RoCoTex,它是一种用于生成高质量、一致性强的3D模型纹理的方法。简单来说,R...
    新技术# 3D模型纹理# RoCoTex
    1年前
    04670
    一步式文本到图像扩散模型SwiftBrush v2:通过优化训练方法和引入新的损失函数,来提高图像质量和文本图像对齐度

    一步式文本到图像扩散模型SwiftBrush v2:通过优化训练方法和引入新的损失函数,来提高图像质量和文本图像对齐度

    越南VinAI 研究和胡志明邮电技术学院的研究人员推出SwiftBrush v2,这是一个先进的文本到图像扩散模型,它通过优化训练方法和引入新的损失函数,比如“clamped CLIP loss”,来...
    新技术# SwiftBrush v2
    1年前
    04670
    新型视频生成框架CustomCrafter:根据文本提示和主题参考图像生成高质量视频

    新型视频生成框架CustomCrafter:根据文本提示和主题参考图像生成高质量视频

    浙江大学、腾讯人工智能实验室和腾讯 PCG ARC 实验室的研究人员推出新型视频生成框架CustomCrafter,它可以根据文本提示和主题参考图像生成高质量视频。这项技术的目标是让用户能够自定义视频...
    新技术# CustomCrafter# 视频生成
    1年前
    04670
    Ideogram推出角色一致性功能Ideogram Character,支持跨场景形象统一

    Ideogram推出角色一致性功能Ideogram Character,支持跨场景形象统一

    在数字创作中,角色是叙事的核心。然而,与真人演员不同,AI生成的角色往往难以“保持人设”——同一张脸,在不同场景中可能变成另一个人。缺乏一致性,故事便失去了连贯的锚点。 现在,这个问题有了新的解法。 ...
    早报# Ideogram# Ideogram Character# 角色一致性
    5个月前
    04660
    RankDPO:提高模型在遵循文本提示和视觉质量方面的表现

    RankDPO:提高模型在遵循文本提示和视觉质量方面的表现

    直接偏好优化(DPO)已成为一种强大的方法,用于将文本到图像(T2I)模型与人类反馈对齐。然而,成功应用DPO需要大量的资源来收集和标注大规模数据集,例如数百万张生成的人类偏好注释的配对图像。此外,随...
    新技术# RankDPO
    1年前
    04660
    FRESCO:将输入的视频转换成具有特定风格的新视频,同时保持视频中的语义内容和动作的连贯性

    FRESCO:将输入的视频转换成具有特定风格的新视频,同时保持视频中的语义内容和动作的连贯性

    来自北京大学和南洋理工大学的研究团队推出FRESCO,这是一个用于视频转换的零样本(Zero-Shot)方法。简单来说,FRESCO能够根据文本提示,将输入的视频转换成具有特定风格的新视频,同时保持视...
    新技术# FRESCO# 视频转换
    2年前
    04660
    加载更多
    SD百科导航
    SD百科导航是专注于AI创作领域的专业导航网站。我们全面涵盖Stable Diffusion、Flux、AI绘画、AI视频、AI音乐以及大语言模型等前沿内容。

    关于我们网址提交友链申请广告合作

    扫码关注微信公众号SD百科导航
    扫码关注微信公众号
    Copyright © 2025 SD百科导航 皖ICP备18025588号-5  皖公网安备34040002000401 
    网址
    网址文章软件模型

    网址

    日榜周榜月榜
    Fogsight (雾象)

    Fogsight (雾象)

    雾象是一款由大语言模型(LLM)驱动的动画引擎 agent 。用户输入抽象概念或词语,雾象会将其转化为高水平的生动动画。
    Higgsfield AI

    Higgsfield AI

    Higgsfield AI平台支持文生图和图生视频,近期对图生视频功能进行了全面升级,专为追求高质量、风格化内容创作并渴望真正电影级操控的创意人士打造——无论是MV导演、商业片制作人、AI创作者,还是社交媒体叙事者。
    ITELLOU

    ITELLOU

    ITELLYOU(也称为NEXT, ITELLYOU)是一个专注于提供微软原版软件资源的非官方网站,主要帮助用户获取未经修改的微软产品镜像,如Windows操作系统、Office办公软件和开发工具等。
    朱雀大模型检测

    朱雀大模型检测

    腾讯朱雀 AI 检测是于 2025 年 1 月 17 日推出的一款 AI 生成内容检测工具,主要用于帮助用户识别 AI 生成的文本和图像内容。每位用户每天最多可检测20次文本和20次图片。
    微舆(BettaFish)

    新微舆(BettaFish)

    “微舆” 是一个从0实现的创新型 多智能体 舆情分析系统,帮助大家破除信息茧房,还原舆情原貌,预测未来走向,辅助决策。用户只需像聊天一样提出分析需求,智能体开始全自动分析 国内外30+主流社媒 与 数百万条大众评论。
    秒哒

    秒哒

    百度秒哒,由百度智能云倾力打造的国内首个“对话式”应用开发平台,正式全量上线。作为一款无代码工具,秒哒致力于让每个人都能通过自然语言描述需求,自动生成完整功能代码,轻松实现创意想法。
    查看完整榜单