百科 | 第39页 | SD百科导航

百科工具模型 ComfyUI AI合集 web UI 提示词

教程新技术硬件科普早报

排序

发布更新浏览点赞

个性化图像生成RealCustom：理解你的描述，并生成符合你要求的个性化图像

来自中科大、字节跳动的研究人员推出新型文本到图像定制方法RealCustom。这种方法的目标是为给定的主题生成受文本驱动的图像，这在内容创作领域具有革命性的意义。项目主页论文地址想象一下，你想要...

新技术 # RealCustom # 个性化图像生成

2年前

05860

新型神经网络渲染技术Joint-TensoRF：使用2D图像作为监督，实现相机姿态和场景几何的精细调整

来自中国台湾阳明交通大学的研究人员推出新型神经网络渲染技术Joint-TensoRF，提高神经渲染中相机姿态和场景几何表示的联合优化性能，特别是在处理复杂场景时的鲁棒性，这对于许多3D视觉和图形应用领...

新技术 # Joint-TensoRF # 神经网络渲染

2年前

05860

Media2Face：集成多种媒体输入（音频、图像和文本）生成同步的面部动画和头部姿势

来自上海科技大学、影眸科技、香港大学和叠境数字科技的研究人员提出一个基于扩散的生成模型Media2Face，它能够根据语音信号和多模态条件（如文本、图像）生成同步的面部动画和头部姿势。项目主页 Me...

新技术 # Media2Face

2年前

05860

Liblib AI推出基于 ControlNet 框架RepText：实现中文文本的准确生成

在当今的文本到图像生成领域，尽管模型在生成视觉上吸引人的图像方面取得了显著进步，但在处理精确且灵活的排版元素时，尤其是对于非拉丁字母，仍然存在明显的局限性。这种局限性主要源于文本编码器在处理多语言输入...

新技术 # controlnet # Liblib AI # RepText

11个月前

05850

3D内容生成框架DreamGaussian：提高基于图像和文本生成3D模型的效率和质量

来自南洋理工大学、百度和北京大学的研究人员推出3D内容生成框架DreamGaussian，专门设计用于提高基于优化方法创建三维（3D）模型的效率和质量。该框架旨在解决当前从图像或文本快速生成高质量3D...

新技术 # 3D内容生成框架 # DreamGaussian

2年前

05840

Bounded Attention：解决文生图模型在生成包含多个主题（subjects）的图像时遇到的挑战

来自特拉维夫大学和Snap的研究人员推出Bounded Attention，它旨在解决文生图模型在生成包含多个主题（subjects）的图像时遇到的挑战。这些模型通常难以准确地捕捉到复杂输入提示中的意...

新技术 # Bounded Attention # 多主题 # 文生图模型

2年前

05830

LightIt：实现图像生成过程中的显式光照控制

来自慕尼黑大学和Adobe Research的研究人员推出LightIt，它能够对由扩散模型生成的图像进行明确的照明控制。研究人员提出了将生成过程与阴影和法线图相结合的新思路。在光照建模方面，采用了单...

新技术 # LightIt # 光照控制

2年前

05830

3D重建技术MVD2：针对多视角扩散图像进行高效的三维形状重建

来自清华大学和微软亚洲研究院的研究人员推出新型3D重建技术MVD2，它专门针对多视角扩散（Multiview Diffusion，简称MVD）图像进行高效的三维形状重建。论文地址 MVD是一种新兴的...

新技术 # 3D重建技术 # MVD2

2年前

05820

动态视频模型DynamiCrafter：为静态图片添加动画效果

来自香港中文大学、腾讯人工智能实验室、北京大学的研究人员推出动态视频模型DynamiCrafter，它是一个利用视频扩散模型（Video Diffusion Models）来为静态图片添加动画效果的工...

新技术 # DynamiCrafter # 视频模型

2年前

05820

Ollama v0.7.0发布：添加新多模态模型引擎，多模态模型支持全面升级

Ollama 最新发布的 v0.7.0 版本带来了对多模态模型的支持，标志着其在本地推理和模型集成能力上的重要突破。此次更新不仅扩展了视觉多模态模型的支持范围，还通过全新的多模态引擎提升了性能、准确性...

早报 # Ollama # 多模态模型 # 多模态模型引擎

11个月前

05810

腾讯推出多模态基础模型SEED-X：结合视觉和语言理解的能力，可以处理和生成各种类型的数据，包括图像和文本

腾讯AI实验室和ARC实验室共同开发的多模态基础模型SEED-X，这是一个先进的人工智能系统，它结合了视觉和语言理解的能力，可以处理和生成各种类型的数据，包括图像和文本。简单来说，SEED-X就像一个...

新技术 # SEED-X # 多模态基础模型

2年前

05810

CameraCtrl：为文生视频模型提供精确的摄像机控制能力

来自香港中文大学、上海人工智能实验室和斯坦福大学的研究人员推出CameraCtrl，它能够为文本到视频（Text-to-Video, T2V）生成模型提供精确的摄像机控制能力。在视频创作中，摄像机的移...

新技术 # CameraCtrl # 文生视频模型

2年前

05810

加载更多

百科

个性化图像生成RealCustom：理解你的描述，并生成符合你要求的个性化图像

新型神经网络渲染技术Joint-TensoRF：使用2D图像作为监督，实现相机姿态和场景几何的精细调整

Media2Face：集成多种媒体输入（音频、图像和文本）生成同步的面部动画和头部姿势

Liblib AI推出基于 ControlNet 框架RepText：实现中文文本的准确生成

3D内容生成框架DreamGaussian：提高基于图像和文本生成3D模型的效率和质量

Bounded Attention：解决文生图模型在生成包含多个主题（subjects）的图像时遇到的挑战

LightIt：实现图像生成过程中的显式光照控制

3D重建技术MVD2：针对多视角扩散图像进行高效的三维形状重建

动态视频模型DynamiCrafter：为静态图片添加动画效果

Ollama v0.7.0发布：添加新多模态模型引擎，多模态模型支持全面升级

腾讯推出多模态基础模型SEED-X：结合视觉和语言理解的能力，可以处理和生成各种类型的数据，包括图像和文本

CameraCtrl：为文生视频模型提供精确的摄像机控制能力

S.H.I.T

新Claude Managed Agents

诗一

即梦 CLI

同事.skill

ITELLOU

百科

网址

S.H.I.T

新Claude Managed Agents

诗一

即梦 CLI

同事.skill

ITELLOU