百科 | 第7页 | SD百科导航

百科工具模型 ComfyUI AI合集 web UI 提示词

教程新技术硬件科普早报

排序

发布更新浏览点赞

零样本多模态高保真3D人体纹理生成模型TexDreamer：快速地从文本或图像中生成高保真3D人体纹理

来自上海大学、腾讯优图实验室、上海交通大学和复旦大学的研究团队推出首个零样本多模态高保真3D人体纹理生成模型TexDreamer，采用高效的纹理适应微调策略，将大型T2I（文生图）模型与语义UV结构相...

新技术 # 3D人体纹理生成模型 # TexDreamer

2年前

09790

ffmpeg安装教程

FFmpeg是一个开源的跨平台多媒体处理工具集，具有强大的音视频处理能力。它可以用于转换、编辑、流媒体处理以及多媒体格式的解码和编码等任务。对于AI方面，FFmpeg主要是生成视频，用于视频的编码。 ...

教程 # ffmpeg # 多媒体

2年前

09790

自动化图形设计工具PosterLLaVa：利用多模态大语言模型来自动化图形设计中的布局生成任务

腾讯推出PosterLLaVa系统，它是一个统一的多模态布局生成器，利用多模态大语言模型（MLLM）来自动化图形设计中的布局生成任务。布局生成是图形设计中非常关键的一环，它需要以一种视觉上令人愉悦且遵...

新技术 # PosterLLaVa # 多模态布局生成器 # 自动化图形设计

2年前

09770

创新框架MotionBooth：生成具有定制主体和可控主体及摄像机运动的动画视频

北京大学、南洋理工大学、上海人工智能实验室、浙江大学和上海交通大学的研究人员推出创新框架MotionBooth，它专门用于生成具有定制主体和可控主体及摄像机运动的动画视频。简单来说，MotionBoo...

新技术 # MotionBooth

2年前

09760

英伟达推出新型大语言模型嵌入模型NV-Embed：专门设计用于提高文本嵌入任务的性能

英伟达推出新型大语言模型嵌入模型NV-Embed，NV-Embed专门设计用于提高文本嵌入任务的性能，它在多种文本嵌入任务上的表现开始超越了基于BERT或T5的嵌入模型，包括基于密集向量的检索。NV...

新技术 # NV-Embed # 嵌入模型

2年前

09760

基于指令的高质量图像编辑数据集HQ-Edit

加州大学圣克鲁斯分校的研究人员推出高质量数据集HQ-Edit，它专门用于基于指令的图像编辑任务。例如，你有一张图片，想要根据某些具体的指令来修改它，比如改变背景、调整物体的颜色或者添加一些新元素。HQ...

新技术 # HQ-Edit # 图像编辑数据集

2年前

09740

视频插帧新技术ZeroSmooth：提升预训练视频扩散模型生成高帧率视频的能力，而无需额外的训练数据和参数更新

中国科学院大学人工智能学院、中国科学院自动化研究所模式识别新实验室和腾讯AI实验室的研究人员推出ZeroSmooth，它能够提升预训练视频扩散模型生成高帧率视频的能力，而无需额外的训练数据和参数更新...

新技术 # ZeroSmooth # 视频插帧

2年前

09730

新型视频生成框架MovieDreamer：专门用于制作长篇视频内容，比如电影

浙江大学和阿里巴巴的研究人员推出新型视频生成框架MovieDreamer，专门用于制作长篇视频内容，比如电影。与传统的短时视频生成技术不同，MovieDreamer能够处理复杂的叙事结构和情节发展，同...

新技术 # MovieDreamer # 视频生成框架

2年前

09700

开源人像生成器InstantID：只需一张人脸照片，快速生成不同风格的人物照片

开源人像生成器InstantID今天在推特引发了热议，InstantID只需要一张人脸照片，就能快速生成多种风格的人物照片，无需复杂的训练或微调过程。InstantID还能与流行的图像扩散模型（如 S...

新技术 # controlnet # InstantID # LCM

2年前

09680

文生图模型GLIGEN：用于将Stable Diffusion模型扩展为可定制模型

威斯康星大学麦迪逊分校、哥伦比亚大学和微软的研究人员推出的GLIGEN模型，用于将Stable Diffusion模型扩展为可定制的模型。这个模型的核心目标是让计算机能够根据文本描述生成图像，并且能够...

新技术 # GLIGEN # Stable Diffusion # 文生图模型

2年前

09660

20B 与 120B 模型上线！Ollama 一键运行 OpenAI 最新开源模型gpt-oss

Ollama 宣布与 OpenAI 合作，将后者最新发布的开放权重模型 gpt-oss-20b 和 gpt-oss-120b 正式引入其平台。这是 OpenAI 自 GPT-2 以来首批开放权重语言...

教程 # gpt-oss # Ollama # OpenAI

8个月前

09650

新型可控图像动画方法MOFA-Video：能够根据给定的图像和额外的可控信号（例如人体标记、手动轨迹或提供的其他视频）或它们的组合生成视频

来自东京大学和腾讯AI实验室推出新型可控图像动画方法MOFA-Video，能够根据给定的图像和额外的可控信号（例如人体标记、手动轨迹或提供的其他视频）或它们的组合，从给定的图像中生成视频。这与以往的方...

新技术 # MOFA-Video # 可控图像动画生成

2年前

09560

加载更多

百科