新技术

百科工具模型 ComfyUI AI合集 web UI 提示词

教程新技术硬件科普早报

排序

发布更新浏览点赞

新型3D生成框架GaussianAnything：根据单视图图像或文本条件生成高质量且可编辑的3D模型

新加坡南洋理工大学、上海人工智能实验室和北京大学的研究人员推出新型3D生成框架GaussianAnything，它能够根据单视图图像或文本条件生成高质量且可编辑的3D模型。这个框架通过一个级联的3D扩...

新技术 # 3D生成框架 # GaussianAnything

1年前

02890

FlipSketch：将静态绘图转换为文本引导的草图动画

草图动画作为一种强大的视觉叙事工具，从简单的手工翻页涂鸦发展到了专业的工作室制作，为创作者提供了无限的想象空间。然而，传统的动画制作过程复杂，不仅需要一支熟练的艺术家团队来绘制关键帧和中间帧，还要求艺...

新技术 # FlipSketch # 草图动画

1年前

03660

统一的控制视频生成方法AnimateAnything：实现对视频内容的精确和一致性的操控，包括相机轨迹、文本提示和用户运动注释等多种条件

视频生成是一个复杂而多样的任务，涉及多个条件的控制，如摄像机轨迹、文本提示和用户运动注释。现有的方法通常只能在特定条件下生成视频，缺乏灵活性和一致性。为了解决这些问题，浙江大学 CAD&CG ...

新技术 # AnimateAnything # 视频生成

1年前

03480

RF-Solver和RF-Edit：提高校正流模型在图像和视频编辑中的反演精度

基于校正流的DiT模型，如FLUX和OpenSora，在图像和视频生成领域展示了卓越的性能。然而，这些模型在反演过程中存在不准确的问题，这限制了它们在图像和视频编辑等下游任务中的有效性。为了解决这一问...

新技术 # RF-Edit # RF-Solver

1年前

04620

基于区域描述的精确布局组合文生图方法RAG：将复杂的场景分解为单独的区域，并为每个区域提供相应的文本描述，然后生成一张精确布局的图片

南京大学、InstantX、Liblib AI、香港科技大学与中国移动的研究团队共同提出了一种名为RAG（Region-Aware Generation）的新方法，它是一种基于区域描述的精确布局组合文...

新技术 # RAG # 区域提示

1年前

03950

MVideo：用于生成具有精确、流畅动作的长时视频

无限光年、上海交通大学和复旦大学的研究人员推出新型框架MVideo，它专门设计用于生成具有精确、流畅动作的长时视频。MVideo通过结合文本提示和掩码序列（mask sequences）作为额外的运动...

新技术 # MVideo # 文生视频

1年前

05310

专注于二次元角色的动画方法MikuDance：将二次元角色根据 Open Pose 姿势生成对应动画

武汉大学、阶跃星辰和字节跳动的研究人员推出MikuDance，它是一个基于扩散的动画制作流程，用于为风格化的角色艺术作品添加混合运动动力学，使其动起来。MikuDance的核心在于它能够处理复杂的角色...

新技术 # MikuDance # 二次元

1年前

06520

大规模视频动作数据集EgoVid-5M：专为第一人称视角（egocentric）视频生成而设计

阿里巴巴集团智能计算研究院、中国科学院自动化研究所、清华大学和中国科学院大学的研究人员推出大规模视频动作数据集EgoVid-5M，专为第一人称视角（egocentric）视频生成而设计。该数据集包含了...

新技术 # EgoVid-5M # 视频动作数据集

1年前

03600

BLIP3-KALE：包含2.18亿个图像-文本对的数据集

华盛顿大学、Salesforce Research、斯坦福大学和加州大学伯克利分校推出一个包含2.18亿个图像-文本对的数据集BLIP3-KALE，它弥合了描述性合成字幕和网络规模的事实性替代文本之间...

新技术 # BLIP3-KALE # 数据集

1年前

04200

ParaAttention：通过上下文并行注意力机制，使用多个GPU加速FLUX和Mochi模型的推理

ParaAttention是一种创新的上下文并行注意力机制，旨在通过多个GPU加速FLUX和Mochi模型的推理。通过支持torch.compile和多种并行策略，ParaAttention提供了高效...

新技术 # ParaAttention # 推理加速

1年前

03720

Autodesk推出新型3D生成模型WaLa：基于多种输入条件（如文本描述、图像、点云等）生成参数化的3D CAD模型

Autodesk推出新型3D生成模型“Wavelet Latent Diffusion (WaLa)”，它能够基于多种输入条件（如文本描述、图像、点云等）生成参数化的3D CAD模型。WaLa模型的核...

新技术 # 3D生成模型 # Autodesk # WaLa

1年前

03970

CAD-MLLM：实现一个统一的计算机辅助设计（CAD）模型生成系统

上海科技大学、忆生科技、深度求索（DeepSeek-AI）和香港大学的研究人员推出一个名为“CAD-MLLM”的系统，它旨在实现一个统一的计算机辅助设计（CAD）模型生成系统。该系统能够根据用户的多种...

新技术 # CAD # CAD-MLLM

1年前

07370

加载更多