SD百科导航
  • 首页
  • 快讯
  • 早报
  • 模型
  • ComfyUI
  • 新技术
  • 百科
    • 教程
    • 硬件
    • 科普
  • 百科工具
    • 工具
  • 知识库
  • 排行榜
    • 首页
    • 快讯
    • 早报
    • 模型
    • ComfyUI
    • 新技术
    • 百科
      • 教程
      • 硬件
      • 科普
    • 百科工具
      • 工具
    • 知识库
    • 排行榜

    百科

    共 2227 篇文章
    百科工具模型ComfyUIAI合集web UI提示词
    教程新技术硬件科普早报
    排序
    发布更新浏览点赞
    RankDPO:提高模型在遵循文本提示和视觉质量方面的表现

    RankDPO:提高模型在遵循文本提示和视觉质量方面的表现

    直接偏好优化(DPO)已成为一种强大的方法,用于将文本到图像(T2I)模型与人类反馈对齐。然而,成功应用DPO需要大量的资源来收集和标注大规模数据集,例如数百万张生成的人类偏好注释的配对图像。此外,随...
    新技术# RankDPO
    1年前
    04660
    FRESCO:将输入的视频转换成具有特定风格的新视频,同时保持视频中的语义内容和动作的连贯性

    FRESCO:将输入的视频转换成具有特定风格的新视频,同时保持视频中的语义内容和动作的连贯性

    来自北京大学和南洋理工大学的研究团队推出FRESCO,这是一个用于视频转换的零样本(Zero-Shot)方法。简单来说,FRESCO能够根据文本提示,将输入的视频转换成具有特定风格的新视频,同时保持视...
    新技术# FRESCO# 视频转换
    2年前
    04660
    什么是推理模型?推理模型的优缺点,为什么科技公司都在推出推理模型?

    什么是推理模型?推理模型的优缺点,为什么科技公司都在推出推理模型?

    随着 AI 技术的快速发展,各大科技公司纷纷推出具备“推理”能力的新一代模型。此前 DeepSeek 的 R1 模型也以推理能力作为其「先进模型」的标杆。那么,推理模型到底有何优势?为什么包括 Ope...
    科普# Anthropic# Claude 3.7 Sonnet# DeepSeek-R1
    10个月前
    04650
    可控图像到视频生成框架SG-I2V:用于在图像到视频的生成过程中实现对象和相机运动的控制

    可控图像到视频生成框架SG-I2V:用于在图像到视频的生成过程中实现对象和相机运动的控制

    图像到视频生成技术已经取得了显著的进步,能够生成高度逼真的视频。然而,调整生成视频中的特定元素,如物体运动或相机移动,通常需要繁琐的试错过程,例如使用不同的随机种子重新生成视频。最近的技术通过微调预训...
    新技术# SG-I2V# 视频生成
    1年前
    04650
    新型视觉基础模型Lotus:使用扩散模型来生成高质量的密集预测结果

    新型视觉基础模型Lotus:使用扩散模型来生成高质量的密集预测结果

    香港科技大学(广州)、阿德莱德大学、诺亚方舟实验室和香港科技大学的研究人员推出新型视觉基础模型Lotus,它使用扩散模型来生成高质量的密集预测结果。简单来说,Lotus就像一个超级聪明的图像处理专家...
    新技术# Lotus# 视觉基础模型
    1年前
    04640
    基于参考的线条艺术视频上色的视频扩散框架LVCD:用于根据参考图像和线稿序列为动画视频着色

    基于参考的线条艺术视频上色的视频扩散框架LVCD:用于根据参考图像和线稿序列为动画视频着色

    香港城市大学和腾讯的研究人员推出基于参考的线条艺术视频上色的视频扩散框架LVCD,用于根据参考图像和线稿序列为动画视频着色。这种方法能够生成长时间一致的、高质量的动画视频。LVCD在保持长时间一致性和...
    新技术# LVCD# 视频上色
    1年前
    04640
    IFAdapter:提升基于文本生成图像的扩散模型在生成多个实例时的精确度和细节控制能力而设计

    IFAdapter:提升基于文本生成图像的扩散模型在生成多个实例时的精确度和细节控制能力而设计

    腾讯PCG和新加坡国立大学的研究人员推出新型方法IFAdapter,它是为了提升基于文本生成图像(Text-to-Image,简称T2I)的扩散模型在生成多个实例时的精确度和细节控制能力而设计的。简单...
    新技术# IFAdapter
    1年前
    04640
    TTT-Video:通过引入 Test-Time Training(TTT)层,成功让DiT 模型能够从文本故事板生成长达一分钟的视频

    TTT-Video:通过引入 Test-Time Training(TTT)层,成功让DiT 模型能够从文本故事板生成长达一分钟的视频

    英伟达联合斯坦福大学、加州大学圣地亚哥分校、加州大学伯克利分校和德克萨斯大学奥斯汀分校的研究人员,通过引入 Test-Time Training(TTT)层,成功让预训练的 DiT 模型能够从文本故事...
    新技术# CogVideoX-5B# DiT 模型# TTT-Video
    8个月前
    04620
    数据生成管道Gen4Gen:创建高质量的个性化图像和文本描述

    数据生成管道Gen4Gen:创建高质量的个性化图像和文本描述

    来自加州大学伯克利分校、牛津大学、哈佛大学、卡耐基梅隆大学、香港大学、加州大学戴维斯分校的研究人员推出数据生成管道Gen4Gen,它用于创建一个名为MyCanvas的数据集,旨在提高文本到图像扩散模型...
    新技术# Gen4Gen# 数据生成管道
    2年前
    04620
    苹果推出一个用于零样本度量单目深度估计的基础模型Depth Pro

    苹果推出一个用于零样本度量单目深度估计的基础模型Depth Pro

    苹果推出一个用于零样本度量单目深度估计的基础模型Depth Pro,它用于提高单目深度估计的准确性和细节表现。单目深度估计是指仅使用一个摄像头拍摄的单张图片来预测场景中每个像素的深度信息。例如,你用手...
    新技术# Depth Pro# 苹果
    1年前
    04610
    Dipal D1:专为二次元爱好者打造的智能虚拟伴侣,“她”能看你能说还会撒娇

    Dipal D1:专为二次元爱好者打造的智能虚拟伴侣,“她”能看你能说还会撒娇

    你是否曾幻想过,有一个能听你说话、陪你聊天、懂你情绪的虚拟伴侣?现在,这个幻想正在变成现实。 Dipal推出的 Dipal D1,不仅是全球首款搭载曲面OLED屏幕的3D AI角色舱,更是一款集多模态...
    硬件# Dipal D1# 智能虚拟伴侣
    6个月前
    04600
    新型实时文本驱动的说话头像生成框架OmniTalker :在零样本场景下同时生成同步的语音和说话头像视频,同时保留语音风格和面部风格

    新型实时文本驱动的说话头像生成框架OmniTalker :在零样本场景下同时生成同步的语音和说话头像视频,同时保留语音风格和面部风格

    阿里通义实验室推出新型实时文本驱动的说话头像生成框架OmniTalker ,能够在零样本(zero-shot)场景下同时生成同步的语音和说话头像视频,同时保留语音风格和面部风格。OmniTalker ...
    新技术# OmniTalker# 通义实验室
    8个月前
    04600
    加载更多
    SD百科导航
    SD百科导航是专注于AI创作领域的专业导航网站。我们全面涵盖Stable Diffusion、Flux、AI绘画、AI视频、AI音乐以及大语言模型等前沿内容。

    关于我们网址提交友链申请广告合作

    扫码关注微信公众号SD百科导航
    扫码关注微信公众号
    Copyright © 2025 SD百科导航 皖ICP备18025588号-5  皖公网安备34040002000401 
    网址
    网址文章软件模型

    网址

    日榜周榜月榜
    Fogsight (雾象)

    Fogsight (雾象)

    雾象是一款由大语言模型(LLM)驱动的动画引擎 agent 。用户输入抽象概念或词语,雾象会将其转化为高水平的生动动画。
    秒哒

    秒哒

    百度秒哒,由百度智能云倾力打造的国内首个“对话式”应用开发平台,正式全量上线。作为一款无代码工具,秒哒致力于让每个人都能通过自然语言描述需求,自动生成完整功能代码,轻松实现创意想法。
    朱雀大模型检测

    朱雀大模型检测

    腾讯朱雀 AI 检测是于 2025 年 1 月 17 日推出的一款 AI 生成内容检测工具,主要用于帮助用户识别 AI 生成的文本和图像内容。每位用户每天最多可检测20次文本和20次图片。
    Tripo

    Tripo

    Tripo AI 是一家领先的 AI 驱动 3D 建模解决方案提供商,允许用户使用文本、单张图像、多张图像、涂鸦或视频等输入,快速创建高质量的 3D 模型和环境。
    OiiOii AI

    OiiOii AI

    OiiOii.ai 是一个基于多智能体架构的动画生成平台,其核心目标是将动画制作从线性协作流程,转变为端到端的自动化生成。用户只需上传一张图片或输入一段文字描述,系统即可自动完成剧本生成、分镜设计、角色建模、镜头调度、配乐合成与最终渲染,输出一段完整动画视频。
    Higgsfield AI

    Higgsfield AI

    Higgsfield AI平台支持文生图和图生视频,近期对图生视频功能进行了全面升级,专为追求高质量、风格化内容创作并渴望真正电影级操控的创意人士打造——无论是MV导演、商业片制作人、AI创作者,还是社交媒体叙事者。
    查看完整榜单