新技术

百科工具模型 ComfyUI AI合集 web UI 提示词

教程新技术硬件科普早报

排序

发布更新浏览点赞

基于文本的视频编辑模型Emu Video Edit (EVE)

Meta推出基于文本的视频编辑模型Emu Video Edit (EVE)，它能够在没有监督视频编辑数据的情况下，实现先进的视频编辑功能。论文 EVE模型通过结合图像编辑适配器和视频生成适配器，并使...

新技术 # EVE # 视频编辑模型

2年前

05720

文本编码器Glyph-ByT5：为提高视觉文本渲染的准确性而设计

来自微软亚洲研究院、清华大学、北京大学和澳大利亚国立大学的研究团队推出文本编码器Glyph-ByT5，它是为了提高视觉文本渲染的准确性而设计的。Glyph-ByT5通过微调一个字符感知的ByT5编码器...

新技术 # Glyph-ByT5 # 文本编码器

2年前

06100

StreamMultiDiffusion：实时交互式图像生成和编辑的工具

来自韩国首尔国立大学的团队发布新应用StreamMultiDiffusion，这是一种用于实时交互式图像生成和编辑的工具，这是将之前已发布的技术 MultiDiffusion + StreamDiff...

新技术 # StreamMultiDiffusion # 实时生图

2年前

09480

Follow-Your-Click：通过用户简单的点击和简短的动作提示来实现图像的局部动画化

来自香港科大、腾讯浑源和清华大学的团队推出新颖框架Follow-Your-Click，它能够通过用户简单的点击和简短的动作提示来实现图像的局部动画化。项目主页 GitHub 想象一下，你有一张静态图...

新技术 # Follow-Your-Click # 局部动画化

2年前

06720

视觉风格提示（Visual Style Prompting）：不需要对模型进行微调的情况下，通过参考图像来生成具有特定风格的图像

来自韩国延世大学和NAVER AI 实验室的研究团队推出“视觉风格提示（Visual Style Prompting）”，它能够在不需要对预训练模型进行微调的情况下，通过参考图像来生成具有特定风格的图...

新技术 # Visual Style Prompting # 视觉风格提示

2年前

06740

谷歌推出创新框架VLOGGER：只需要提供一张静态照片和一段语音，就能生成口型匹配的视频

谷歌推出创新框架VLOGGER，它能够根据一段音频和一张人物的单张照片生成这个人说话和动作的逼真视频。想象一下，你只需提供一张你的照片和你的语音记录，VLOGGER就能制作出一个视频，在视频中你可以看...

新技术 # VLOGGER # 谷歌

2年前

05730

DragAnything：视频生成中任意对象的运动控制

来自快手、浙江大学和新加坡国立大学的研究团队推出DragAnything，它是一种用于视频生成和控制的方法，它利用实体表示法来实现对视频生成中任意对象的运动控制。项目主页 GitHub 论文例如...

新技术 # DragAnything # 视频生成 # 运动控制

2年前

06650

FaceChain-SuDe：提高个性化图像生成的属性相关性

来自北京大学、阿里巴巴、清华大学和鹏程实验室的研究团队推出FaceChain-SuDe，这是一种用于个性化文本到图像生成的方法，旨在提高个性化图像生成（subject-driven generatio...

新技术 # FaceChain-SuDe # 个性化图像生成

2年前

05830

新型3D生成模型V3D：利用视频扩散模型的能力来创建高质量的三维对象和场景

来自清华和生数科技的研究推出新型3D生成模型V3D，它利用视频扩散模型的能力来创建高质量的三维对象和场景。V3D的核心思想是将连续的多视角图像视为视频，从而利用预训练的视频扩散模型来生成围绕物体的36...

新技术 # 3D生成模型 # V3D

2年前

05650

谷歌发布“多步一致性模型”（Multistep Consistency Models）

谷歌发布新型生成模型“多步一致性模型”（Multistep Consistency Models），它在图像、视频和音频生成领域具有潜在的应用价值。这个模型是介于传统的“一致性模型”（Consiste...

新技术 # 多步一致性模型 # 谷歌

2年前

05660

VideoElevator：利用文生图模型来增强文生视频的质量和细节

来自哈尔滨大学和清华大学的研究团队推出VideoElevator，利用文生图模型来增强文生视频的质量和细节，这个过程是无需训练的，可以直接插入现有的模型中使用，还能利用文生图模型来实现风格迁移，非常方...

新技术 # VideoElevator # 文生图模型 # 文生视频

2年前

06460

大语言模型适配器ELLA：提升了文生图模型处理复杂描述的能力

腾讯推出大语言模型适配器（LLM Adapter）ELLA，无需 U-Net 或大语言模型训练，就可通过 ELLA ，为文生图模型增强文本对齐，解决大多数模型受限于 CLIP 本身对密集提示词的理解能...

新技术 # DPG-Bench # ELLA # TSC

2年前

01,0370

加载更多