SD百科导航
  • 首页
  • 快讯
  • 早报
  • 模型
  • ComfyUI
  • 新技术
  • 百科
    • 教程
    • 硬件
    • 科普
  • 百科工具
    • 工具
  • 排行榜
  • 网址提交
    • 首页
    • 快讯
    • 早报
    • 模型
    • ComfyUI
    • 新技术
    • 百科
      • 教程
      • 硬件
      • 科普
    • 百科工具
      • 工具
    • 排行榜
    • 网址提交

    百科

    共 2618 篇文章
    百科工具模型ComfyUIAI合集web UI提示词
    教程新技术硬件科普早报
    排序
    发布更新浏览点赞
    阿里推出新型音频驱动的虚拟角色视频生成方法EMO2:同时生成富有表现力的面部表情和手势动作

    阿里推出新型音频驱动的虚拟角色视频生成方法EMO2:同时生成富有表现力的面部表情和手势动作

    阿里在去年2月推出新型音频驱动的虚拟角色视频生成方法EMO,近期又发布了 EMO2,它能够同时生成富有表现力的面部表情和手势动作。该方法特别关注于语音伴随手势(co-speech gestures)的...
    新技术# EMO2
    1年前
    06400
    新型多模态大语言模型INF-LLaVA:专门设计用于处理高分辨率图像,以提高模型对视觉和语言信息的理解能力

    新型多模态大语言模型INF-LLaVA:专门设计用于处理高分辨率图像,以提高模型对视觉和语言信息的理解能力

    厦门大学的研究人员推出新型多模态大语言模型INF-LLaVA,它专门设计用于处理高分辨率图像,以提高模型对视觉和语言信息的理解能力。在人工智能领域,处理高分辨率图像一直是一个挑战,因为这些图像包含的细...
    新技术# INF-LLaVA# 多模态大语言模型
    2年前
    06400
    多模态大语言模型Oryx:专门设计用于理解和处理视觉数据,如图像、视频和3D场景

    多模态大语言模型Oryx:专门设计用于理解和处理视觉数据,如图像、视频和3D场景

    清华大学、腾讯和南洋理工大学 S-Lab的研究人员推出多模态大语言模型Oryx,它专门设计用于理解和处理视觉数据,如图像、视频和3D场景。Oryx模型的特点是能够根据需要处理任意空间大小和时间长度的视...
    新技术# Oryx# 多模态大语言模型
    2年前
    06390
    基于多模态token的新型基础模型MIO:能够以端到端、自回归的方式理解和生成语音、文本、图像和视频

    基于多模态token的新型基础模型MIO:能够以端到端、自回归的方式理解和生成语音、文本、图像和视频

    北京航空航天大学、01.AI、香港理工大学、AIWaves、阿尔伯塔大学、滑铁卢大学、曼彻斯特大学、中国科学院自动化研究所、北京大学和香港科技大学的研究人员推出一个基于多模态token的新型基础模型M...
    新技术# MIO# 多模态
    2年前
    06380
    新型高品质文本音频生成器EzAudio:将文本描述转换成相应的音频内容

    新型高品质文本音频生成器EzAudio:将文本描述转换成相应的音频内容

    约翰·霍普金斯大学和腾讯人工智能实验室的研究人员推出一种新型的文本到音频(Text-to-Audio,简称T2A)生成技术EzAudio,这项技术的目标是将文本描述转换成相应的音频内容,比如将“一只狗...
    新技术# EzAudio# 文本音频生成器
    2年前
    06370
    长视频生成新方法PA-VDM:现有的模型可以自然地扩展为自回归视频扩散模型,而无需改变架构

    长视频生成新方法PA-VDM:现有的模型可以自然地扩展为自回归视频扩散模型,而无需改变架构

    石溪大学和Adob​​e 研究中心的研究人员推出长视频生成新方法PA-VDM,它能够生成高质量的长视频。在解释这个主题时,我们可以把它想象成一个能够将静态图片或简短视频变成长篇电影的魔法盒子。 项目主...
    新技术# PA-VDM# 长视频生成
    2年前
    06340
    新型文本到音频生成模型Tango 2:提高音频生成的质量和与文本的匹配度

    新型文本到音频生成模型Tango 2:提高音频生成的质量和与文本的匹配度

    新加坡科技设计大学和密歇根大学的研究人员推出新型文本到音频生成模型Tango 2,它通过直接偏好优化(Direct Preference Optimization, DPO)来提高音频生成的质量和与文...
    新技术# Tango 2# 文本到音频生成模型
    2年前
    06330
    文本反转Textual Inversion:通过少量的图像和自然语言描述来创建新的“伪词”来指导图像生成

    文本反转Textual Inversion:通过少量的图像和自然语言描述来创建新的“伪词”来指导图像生成

    使用文本到图像生成模型(Text-to-Image Models)来个性化地创造图像,这些模型能够根据自然语言描述生成图像,但通常难以精确地表达特定的独特概念。 项目主页 GitHub 来自特拉维夫大...
    新技术# Textual Inversion# 文本反转# 英伟达
    2年前
    06330
    无需额外训练的新型过渡视频生成方法TVG:在不同场景或画面之间流畅过渡的视频效果

    无需额外训练的新型过渡视频生成方法TVG:在不同场景或画面之间流畅过渡的视频效果

    索贝媒体智能实验室、四川大学网络科学与工程学院、数据保护与智能管理教育部重点实验室(四川大学)和中国电子科技大学的研究人员推出一种无需额外训练的新型过渡视频生成方法TVG,它是一种无需训练就能生成平滑...
    新技术# TVG# 视频生成
    2年前
    06300
    基于提示、针对文生图模型的新型剪枝方法APTP:减少文生图模型在计算资源受限的环境中部署时的计算负担,同时保持模型性能

    基于提示、针对文生图模型的新型剪枝方法APTP:减少文生图模型在计算资源受限的环境中部署时的计算负担,同时保持模型性能

    马里兰大学和佛罗里达州立大学推出一种针对文生图模型的新型剪枝方法APTP(Adaptive Prompt-Tailored Pruning,自适应提示定制剪枝),这是一种专门为文生图模型设计的、基于提...
    新技术# APTP# 剪枝方法# 文生图模型
    2年前
    06300
    虚拟试穿扩散模型CatVTON:允许用户在不实际穿上衣物的情况下,通过照片来预览衣物穿在身上的效果

    虚拟试穿扩散模型CatVTON:允许用户在不实际穿上衣物的情况下,通过照片来预览衣物穿在身上的效果

    中山大学、Pixocial Technology、鹏程实验室和中科院深圳先进技术研究院的研究人员推出一种简单高效的虚拟试穿扩散模型CatVTON,它通过将任意类别的商店衣物或已穿戴衣物与目标人物图像在...
    新技术# CatVTON# 虚拟试穿
    2年前
    06290
    新型图像编辑框架DesignEdit:实现精确的空间感知图像编辑

    新型图像编辑框架DesignEdit:实现精确的空间感知图像编辑

    微软亚洲研究院和北京大学的研究人员推出新型图像编辑框架DesignEdit,它能够实现精确的空间感知图像编辑。开发团队借鉴了设计领域的图层概念,通过灵活应用多种操作来操控图像中的对象。我们的核心思想是...
    新技术# DesignEdit# 图像编辑
    2年前
    06280
    加载更多
    SD百科导航
    SD百科导航是专注于AI创作领域的专业导航网站。我们全面涵盖Stable Diffusion、Flux、AI绘画、AI视频、AI音乐以及大语言模型等前沿内容。

    关于我们网址提交友链申请广告合作

    扫码关注微信公众号SD百科导航
    扫码关注微信公众号
    Copyright © 2026 SD百科导航 皖ICP备18025588号-5  皖公网安备34040002000401 
    网址
    网址文章软件模型

    网址

    日榜周榜月榜
    S.H.I.T

    S.H.I.T

    在主流学术界为顶刊版面、高影响因子和“非升即走”的考核指标疯狂内卷之时,一场名为“学术垃圾”的反叛运动正在角落里悄然兴起。一群“想开了”的硕博研究生和青年学者(青椒),不再试图迎合传统的学术评价体系,而是隆重推出了一系列名字惊世骇俗的“旗舰”期刊——《SHIT》、《Notrue》、《Silence》、《Crazy》。
    Tripo

    Tripo

    Tripo AI 是一家领先的 AI 驱动 3D 建模解决方案提供商,允许用户使用文本、单张图像、多张图像、涂鸦或视频等输入,快速创建高质量的 3D 模型和环境。
    ITELLOU

    ITELLOU

    ITELLYOU(也称为NEXT, ITELLYOU)是一个专注于提供微软原版软件资源的非官方网站,主要帮助用户获取未经修改的微软产品镜像,如Windows操作系统、Office办公软件和开发工具等。
    waoo

    waoo

    waoowaoo AI 影视 Studio 是一款基于 AI 技术的短剧/漫画视频制作工具,支持从小说文本自动生成分镜、角色、场景,并制作成完整视频。
    Joker of Academics(小丑学术期刊 )

    Joker of Academics(小丑学术期刊 )

    Joker 🤡 of Academics(小丑学术期刊 ) 是一本完全经过同行评审的开放获取期刊,致力于严肃研究非严肃的学术成果。我们发表敢于风趣的严谨研究、不知何故居然行得通的荒诞主义方法论,以及应用于可能并不需要它的领域的批判理论。
    Flova

    Flova

    Flova AI 最近宣布集成字节跳动最新的视频生成模型——Seedance 2.0。这不仅仅是一个新模型的上线,更意味着普通创作者现在也能轻松制作出长达 60 至 90 秒、角色稳定、剧情连贯的电影级短剧。
    查看完整榜单