SD百科导航
  • 首页
  • 快讯
  • 早报
  • 模型
  • ComfyUI
  • 工具
  • 新技术
  • 百科
    • 教程
    • 硬件
    • 科普
  • 知识库
  • 导航
  • 百科工具
    • 首页
    • 快讯
    • 早报
    • 模型
    • ComfyUI
    • 工具
    • 新技术
    • 百科
      • 教程
      • 硬件
      • 科普
    • 知识库
    • 导航
    • 百科工具

    百科

    共 2211 篇文章
    百科工具模型ComfyUIAI合集web UI提示词
    教程新技术硬件科普早报
    排序
    发布更新浏览点赞
    无需训练的图像编辑技术DiffUHaul:专门用于在图像中无缝移动物体

    无需训练的图像编辑技术DiffUHaul:专门用于在图像中无缝移动物体

    英伟达研究中心、耶路撒冷希伯来大学、特拉维夫大学和赖希曼大学的研究人员推出一种无需训练的图像编辑技术DiffUHaul,专门用于在图像中无缝移动物体。例如,你有一张图片,里面有一只猫和一块岩石,你想要...
    新技术# DiffUHaul# 图像编辑
    1年前
    06270
    腾讯推出创新框架AniPortrait:根据音频和一张参考肖像图片生成高质量的动画

    腾讯推出创新框架AniPortrait:根据音频和一张参考肖像图片生成高质量的动画

    腾讯推出创新框架AniPortrait,它可以根据音频和一张参考肖像图片生成高质量的动画。这个系统可以捕捉到音频中的微妙表情和唇部动作,并将这些动作应用到一个静态的肖像图片上,从而创建出看起来像是在说...
    新技术# AniPortrait
    2年前
    06260
    图生图新技术pOps:将图像和文本转换为可以相互理解的格式,更好的生成图像

    图生图新技术pOps:将图像和文本转换为可以相互理解的格式,更好的生成图像

    特拉维夫大学和西蒙菲莎大学的研究人员推出图生图新技术pOps(Photo-Inspired Diffusion Operators),它是一种用于生成视觉内容的先进方法。例如,你想要生成一张“在海滩上...
    新技术# pOps# 图生图
    2年前
    06230
    新型文本到音频生成模型Tango 2:提高音频生成的质量和与文本的匹配度

    新型文本到音频生成模型Tango 2:提高音频生成的质量和与文本的匹配度

    新加坡科技设计大学和密歇根大学的研究人员推出新型文本到音频生成模型Tango 2,它通过直接偏好优化(Direct Preference Optimization, DPO)来提高音频生成的质量和与文...
    新技术# Tango 2# 文本到音频生成模型
    2年前
    06220
    创新电影制作框架DreamCinema:利用AI技术简化了电影创作过程,使得个人也能轻松成为电影制作人

    创新电影制作框架DreamCinema:利用AI技术简化了电影创作过程,使得个人也能轻松成为电影制作人

    清华大学推出创新电影制作框架DreamCinema,它利用AI技术简化了电影创作过程,使得个人也能轻松成为电影制作人。在这个数字化媒体蓬勃发展的时代,人们对于创造个性化、高质量的电影级视频有着广泛需求...
    新技术# DreamCinema# 电影
    1年前
    06210
    新型框架CSD:理解和从图像中提取风格描述符,可以实现对图像风格的检索、归因和匹配

    新型框架CSD:理解和从图像中提取风格描述符,可以实现对图像风格的检索、归因和匹配

    来自纽约大学、埃利斯研究所、马里兰大学帕克分校的研究人员推出新型框架CSD,旨在理解和从图像中提取风格描述符,可以实现对图像风格的检索、归因和匹配,特别适用于Stable Diffusion模型。 G...
    新技术# CSD# 图像风格
    2年前
    06210
    基于提示、针对文生图模型的新型剪枝方法APTP:减少文生图模型在计算资源受限的环境中部署时的计算负担,同时保持模型性能

    基于提示、针对文生图模型的新型剪枝方法APTP:减少文生图模型在计算资源受限的环境中部署时的计算负担,同时保持模型性能

    马里兰大学和佛罗里达州立大学推出一种针对文生图模型的新型剪枝方法APTP(Adaptive Prompt-Tailored Pruning,自适应提示定制剪枝),这是一种专门为文生图模型设计的、基于提...
    新技术# APTP# 剪枝方法# 文生图模型
    1年前
    06200
    图像编辑技术Prompt-to-Prompt:通过提示词进行局部或全局编辑

    图像编辑技术Prompt-to-Prompt:通过提示词进行局部或全局编辑

    来自谷歌和特拉维夫大学的团队推出图像编辑技术Prompt-to-Prompt,这是一种直观的从提示到提示的编辑框架,其中编辑操作仅通过文本进行控制。此团队深入分析了文本条件模型,并观察到交叉注意力层在...
    新技术# Prompt-to-Prompt# 图像编辑# 提示词
    2年前
    06200
    基于多模态token的新型基础模型MIO:能够以端到端、自回归的方式理解和生成语音、文本、图像和视频

    基于多模态token的新型基础模型MIO:能够以端到端、自回归的方式理解和生成语音、文本、图像和视频

    北京航空航天大学、01.AI、香港理工大学、AIWaves、阿尔伯塔大学、滑铁卢大学、曼彻斯特大学、中国科学院自动化研究所、北京大学和香港科技大学的研究人员推出一个基于多模态token的新型基础模型M...
    新技术# MIO# 多模态
    1年前
    06190
    DiT架构的文生视频模型xGen-VideoSyn-1:根据文本描述生成逼真的视频场景

    DiT架构的文生视频模型xGen-VideoSyn-1:根据文本描述生成逼真的视频场景

    Salesforce推出新的文生视频模型xGen-VideoSyn-1,这个模型能够根据文本描述生成逼真的视频场景,它的设计灵感来源于OpenAI的Sora模型,并在此基础上进行了改进和创新。例如,你...
    新技术# xGen-VideoSyn# 文生视频模型
    1年前
    06190
    高度一致且可控制运动的图像动画生成方法Cinemo:将一张静态图片转换成一段视频,并且在转换过程中保持图片原有的细节信息

    高度一致且可控制运动的图像动画生成方法Cinemo:将一张静态图片转换成一段视频,并且在转换过程中保持图片原有的细节信息

    莫纳什大学、上海人工智能实验室和南京邮电大学的研究人员推出Cinemo,它是一种用于图像动画化(也称为图像到视频生成,I2V)的新型方法。简单来说,Cinemo能够将一张静态图片转换成一段视频,并且在...
    新技术# Cinemo# 图像动画
    1年前
    06190
    基于端到端训练的风格迁移模型CSGO:根据用户提供的文本描述和风格图像,生成具有特定风格的内容图像

    基于端到端训练的风格迁移模型CSGO:根据用户提供的文本描述和风格图像,生成具有特定风格的内容图像

    InstantX Team、南京理工大学、北京航空航天大学和北京大学的研究人员推出一种基于端到端训练的风格迁移模型CSGO,它是一个用于文本到图像生成的风格迁移模型。简单来说,CSGO能够根据用户提供...
    新技术# CSGO# 风格迁移模型
    1年前
    06180
    加载更多
    SD百科导航
    SD百科导航是专注于AI创作领域的专业导航网站。我们全面涵盖Stable Diffusion、Flux、AI绘画、AI视频、AI音乐以及大语言模型等前沿内容。

    友链申请免责声明广告合作关于我们

    扫码关注微信公众号SD百科导航
    扫码关注微信公众号
    Copyright © 2025 SD百科导航 皖ICP备18025588号-5  皖公网安备34040002000401 
    网址
    网址文章软件模型

    网址

    日榜周榜月榜
    Fogsight (雾象)

    Fogsight (雾象)

    雾象是一款由大语言模型(LLM)驱动的动画引擎 agent 。用户输入抽象概念或词语,雾象会将其转化为高水平的生动动画。
    朱雀大模型检测

    朱雀大模型检测

    腾讯朱雀 AI 检测是于 2025 年 1 月 17 日推出的一款 AI 生成内容检测工具,主要用于帮助用户识别 AI 生成的文本和图像内容。每位用户每天最多可检测20次文本和20次图片。
    通义万象

    通义万象

    通义万象是阿里云旗下的图像及视频生成平台,凭借其强大的多模态生成能力,正在引领生成式 AI 的发展。除了传统的文生图能力,通义万象现已支持文生视频、图生视频等多种功能,并在插画设计、涂鸦作画、局部重绘、短片创作、配乐生成等场景化应用中表现出色。
    TTSMaker

    TTSMaker

    TTSMaker是一款在线文本转语音工具,也称为AI语音生成器,它可以将文本转换为音频,并且可以播放或下载音频文件。
    OpenAI音频模型

    OpenAI音频模型

    OpenAI正式推出了全新的音频模型,涵盖了文本转语音(Text-to-Speech, TTS)和语音转文本(Speech-to-Text, STT)两大核心功能,为语音交互领域带来了重大突破。
    Magi

    Magi

    MAGI-1是由Sand AI研究团队开发的一种新型视频生成模型。该模型通过自回归预测视频块序列来生成视频,每个视频块由固定长度的连续帧组成。这是首个具有顶级质量输出的自回归视频模型,而且还是开源的,目前Sand AI还推出了视频生成平台Magi,不过目前仅支持图生视频。
    查看完整榜单