新技术

百科工具模型 ComfyUI AI合集 web UI 提示词

教程新技术硬件科普早报

排序

发布更新浏览点赞

Bounded Attention：解决文生图模型在生成包含多个主题（subjects）的图像时遇到的挑战

来自特拉维夫大学和Snap的研究人员推出Bounded Attention，它旨在解决文生图模型在生成包含多个主题（subjects）的图像时遇到的挑战。这些模型通常难以准确地捕捉到复杂输入提示中的意...

2年前

05820

3D内容生成框架DreamGaussian：提高基于图像和文本生成3D模型的效率和质量

来自南洋理工大学、百度和北京大学的研究人员推出3D内容生成框架DreamGaussian，专门设计用于提高基于优化方法创建三维（3D）模型的效率和质量。该框架旨在解决当前从图像或文本快速生成高质量3D...

新技术 # 3D内容生成框架 # DreamGaussian

2年前

05820

TextCraftor：通过微调文本编码器来提高文本到图像生成模型的性能，使得生成的图像更加精确地反映文本描述的内容

来自Snap和美国东北大学的研究人员推出文本编码器TextCraftor，它通过微调文本编码器来提高文本到图像生成模型的性能，使得生成的图像更加精确地反映文本描述的内容。这种方法减少了对大量数据集的依...

新技术 # TextCraftor # 文本编码器

2年前

05810

3D重建技术MVD2：针对多视角扩散图像进行高效的三维形状重建

来自清华大学和微软亚洲研究院的研究人员推出新型3D重建技术MVD2，它专门针对多视角扩散（Multiview Diffusion，简称MVD）图像进行高效的三维形状重建。论文地址 MVD是一种新兴的...

新技术 # 3D重建技术 # MVD2

2年前

05810

LightIt：实现图像生成过程中的显式光照控制

来自慕尼黑大学和Adobe Research的研究人员推出LightIt，它能够对由扩散模型生成的图像进行明确的照明控制。研究人员提出了将生成过程与阴影和法线图相结合的新思路。在光照建模方面，采用了单...

新技术 # LightIt # 光照控制

2年前

05800

MVideo：用于生成具有精确、流畅动作的长时视频

无限光年、上海交通大学和复旦大学的研究人员推出新型框架MVideo，它专门设计用于生成具有精确、流畅动作的长时视频。MVideo通过结合文本提示和掩码序列（mask sequences）作为额外的运动...

新技术 # MVideo # 文生视频

1年前

05790

大型多模态模型VideoGLaMM：专为用户提供的文本输入进行视频中细粒度像素级定位而设计

视频与文本之间的细粒度对齐是一个具有挑战性的问题，因为视频中存在复杂的空间和时间动态。现有的基于视频的大型多模态模型（LMMs）虽然可以处理基本对话，但在视频中进行精确的像素级定位方面存在困难。大型...

新技术 # VideoGLaMM # 大型多模态模型

1年前

05790

新型神经网络渲染技术Joint-TensoRF：使用2D图像作为监督，实现相机姿态和场景几何的精细调整

来自中国台湾阳明交通大学的研究人员推出新型神经网络渲染技术Joint-TensoRF，提高神经渲染中相机姿态和场景几何表示的联合优化性能，特别是在处理复杂场景时的鲁棒性，这对于许多3D视觉和图形应用领...

新技术 # Joint-TensoRF # 神经网络渲染

2年前

05790

Diffusion-4K：利用潜在扩散模型（如SD3、Flux）进行超高清（4K）图像生成

北京航空航天大学和美团的研究人员推出 Diffusion-4K，即利用潜在扩散模型（Latent Diffusion Models）进行超高清（4K）图像合成。该研究的核心目标是直接生成高质量的4K图...

新技术 # Diffusion-4K # FLUX # SD3

12个月前

05780

CameraCtrl：为文生视频模型提供精确的摄像机控制能力

来自香港中文大学、上海人工智能实验室和斯坦福大学的研究人员推出CameraCtrl，它能够为文本到视频（Text-to-Video, T2V）生成模型提供精确的摄像机控制能力。在视频创作中，摄像机的移...

新技术 # CameraCtrl # 文生视频模型

2年前

05780

动态视频模型DynamiCrafter：为静态图片添加动画效果

来自香港中文大学、腾讯人工智能实验室、北京大学的研究人员推出动态视频模型DynamiCrafter，它是一个利用视频扩散模型（Video Diffusion Models）来为静态图片添加动画效果的工...

新技术 # DynamiCrafter # 视频模型

2年前

05780

3D重建模型MeshLRM：基于LRM的方法，能够从极少量的输入图像（仅需四张）快速重建出高质量的3D网格模型

来自加州大学圣地亚哥分校和Adobe的研究人员推出大型3D重建模型MeshLRM，这是一种新颖的基于LRM的方法，它能在不到一秒的时间内，能够从极少量的输入图像（仅需四张）快速重建出高质量的3D网...

新技术 # 3D重建模型 # MeshLRM

2年前

05760

加载更多

Bounded Attention：解决文生图模型在生成包含多个主题（subjects）的图像时遇到的挑战

3D内容生成框架DreamGaussian：提高基于图像和文本生成3D模型的效率和质量

TextCraftor：通过微调文本编码器来提高文本到图像生成模型的性能，使得生成的图像更加精确地反映文本描述的内容

3D重建技术MVD2：针对多视角扩散图像进行高效的三维形状重建

LightIt：实现图像生成过程中的显式光照控制

MVideo：用于生成具有精确、流畅动作的长时视频

大型多模态模型VideoGLaMM：专为用户提供的文本输入进行视频中细粒度像素级定位而设计

新型神经网络渲染技术Joint-TensoRF：使用2D图像作为监督，实现相机姿态和场景几何的精细调整

Diffusion-4K：利用潜在扩散模型（如SD3、Flux）进行超高清（4K）图像生成

CameraCtrl：为文生视频模型提供精确的摄像机控制能力

动态视频模型DynamiCrafter：为静态图片添加动画效果

3D重建模型MeshLRM：基于LRM的方法，能够从极少量的输入图像（仅需四张）快速重建出高质量的3D网格模型

S.H.I.T

新悟空

ArkClaw

Joker of Academics（小丑学术期刊）

新360 安全龙虾

QClaw

新技术

网址

S.H.I.T

新悟空

ArkClaw

Joker of Academics（小丑学术期刊 ）

新360 安全龙虾

QClaw

Joker of Academics（小丑学术期刊）