新技术

百科工具模型 ComfyUI AI合集 web UI 提示词

教程新技术硬件科普早报

排序

发布更新浏览点赞

新型3D重建模型GS-LRM：能够从少数几张2D图像中快速预测出高质量的3D高斯原始体

Adobe和康奈尔大学的研究人员推出新型3D重建模型GS-LRM（Gaussian Splatting Large Reconstruction Model），这个模型能够从少数几张2D图像中快速...

新技术 # 3D重建模型 # GS-LRM

2年前

06200

运动潜在一致性模型MotionLCM：能够实时控制人体动作的生成

来自清华大学和上海人工智能实验室的研究人员推出运动潜在一致性模型MotionLCM，它能够实时控制人体动作的生成。这个框架通过一种称为“潜在一致性模型”（Motion Latent Consisten...

新技术 # MotionLCM # 运动潜在一致性模型

2年前

06200

动态排版Dynamic Typography：将文字通过动画效果生动呈现的技术

来自香港科技大学和特拉维夫大学的研究人员推出Dynamic Typography（动态排版），它是一种将文字通过动画效果生动呈现的技术。简单来说，就是让文字动起来，通过变形和运动来表达文字的含义，从而...

新技术 # Dynamic Typography # 动态排版

2年前

06190

新型图像生成模型VAR：基于Transformer的自回归模型

来自北京大学和字节跳动的研究人员推出新型图像生成模型VAR（Visual Autoregressive Modeling，“视觉自回归建模”），VAR模型是一种基于Transformer的自回归（au...

新技术 # VAR模型

2年前

06190

视觉变换器VisionLLaMA：基于LLaMA架构设计，用于处理图像任务

来自美团、浙江大学、Moonshot AI的研究人员推出名为VisionLLaMA的新型视觉变换器（Vision Transformer），它是基于LLaMA（Large Language Model...

新技术 # VisionLLaMA # 视觉变换器

2年前

06190

基于Transformer架构的新型视频生成模型Snap Video

来自Snap、特伦托大学、加州大学默塞德分校、布鲁诺·凯斯勒基金会的研究人员推出新型视频生成模型Snap Video，此模型基于Transformer架构，目标是将文本描述转换成高质量的视频内容。项...

新技术 # Snap Video # Transformer # 视频生成模型

2年前

06190

长视频生成新方法PA-VDM：现有的模型可以自然地扩展为自回归视频扩散模型，而无需改变架构

石溪大学和Adobe 研究中心的研究人员推出长视频生成新方法PA-VDM，它能够生成高质量的长视频。在解释这个主题时，我们可以把它想象成一个能够将静态图片或简短视频变成长篇电影的魔法盒子。项目主...

新技术 # PA-VDM # 长视频生成

1年前

06170

DiPIR：将虚拟对象以逼真的方式插入到真实世界场景的图片或视频中

英伟达、多伦多大学和矢量研究所的研究人员推出DiPIR技术，它能够将虚拟对象以逼真的方式插入到真实世界场景的图片或视频中。这项技术的核心在于理解和模拟场景的光照、几何形状和材质，以及图像形成过程，从而...

新技术 # DiPIR

2年前

06170

DistriFusion：加速高分辨率扩散模型的并行推理算法

来自麻省理工学院、普林斯顿大学、Lepton AI 和英伟达的研究人员推出DistriFusion，这是一种用于加速高分辨率扩散模型（diffusion models）的并行推理算法。项目主页 G...

新技术 # DistriFusion # 高分辨率扩散模型

2年前

06170

新型图像编辑框架SEELE：图像主体重新定位

来自复旦大学的研究人员推出了一种新型图像编辑框架SEELE（SEgment-gEnerate-and-bLEnd），它专注于在图像中重新定位指定的对象（即“主体”），同时保持图像的整体质量。项目主页...

新技术 # SEELE # 图像编辑

2年前

06170

深圳大学推出Attention Distillation：用于将参考图像的视觉特征（如风格、纹理、外观）转移到生成的图像中

深圳大学的研究团队介绍了一种名为 Attention Distillation (AD) 的方法，用于将参考图像的视觉特征（如风格、纹理、外观）转移到生成的图像中。该方法通过计算预训练扩散模型中的自注...

新技术 # Attention Distillation # 参考图像 # 深圳大学

1年前

06150

阿里推出新型音频驱动的虚拟角色视频生成方法EMO2：同时生成富有表现力的面部表情和手势动作

阿里在去年2月推出新型音频驱动的虚拟角色视频生成方法EMO，近期又发布了 EMO2，它能够同时生成富有表现力的面部表情和手势动作。该方法特别关注于语音伴随手势（co-speech gestures）的...

新技术 # EMO2

1年前

06150

加载更多

新型3D重建模型GS-LRM：能够从少数几张2D图像中快速预测出高质量的3D高斯原始体

运动潜在一致性模型MotionLCM：能够实时控制人体动作的生成

动态排版Dynamic Typography：将文字通过动画效果生动呈现的技术

新型图像生成模型VAR：基于Transformer的自回归模型

视觉变换器VisionLLaMA：基于LLaMA架构设计，用于处理图像任务

基于Transformer架构的新型视频生成模型Snap Video

长视频生成新方法PA-VDM：现有的模型可以自然地扩展为自回归视频扩散模型，而无需改变架构

DiPIR：将虚拟对象以逼真的方式插入到真实世界场景的图片或视频中

DistriFusion：加速高分辨率扩散模型的并行推理算法

新型图像编辑框架SEELE：图像主体重新定位

深圳大学推出Attention Distillation：用于将参考图像的视觉特征（如风格、纹理、外观）转移到生成的图像中

阿里推出新型音频驱动的虚拟角色视频生成方法EMO2：同时生成富有表现力的面部表情和手势动作

S.H.I.T

新悟空

新Loomy

新360 安全龙虾

Joker of Academics（小丑学术期刊）

ArkClaw

新技术

网址

S.H.I.T

新悟空

新Loomy

新360 安全龙虾

Joker of Academics（小丑学术期刊 ）

ArkClaw

Joker of Academics（小丑学术期刊）