影眸科技推出新型大型3D生成模型CLAY：帮助人们将脑海中的创意轻松转化为精细的三维数字结构

1,098 0

上海科技大学、影眸科技和华中科技大学的研究人员推出新型大型3D生成模型 CLAY，它的主要任务是帮助人们将脑海中的创意轻松转化为精细的三维数字结构。就像孩子们用黏土塑造出各种形状的物体一样，CLAY能够通过文本或图像输入，生成具有复杂细节的3D模型。

项目主页：https://sites.google.com/view/clay-3dlm
GitHub：https://github.com/CLAY-3D/OpenCLAY
官网：https://hyperhuman.deemos.com/rodin
DEMO：https://huggingface.co/spaces/DEEMOSTECH/Rodin

例如，你想要创造一个未来派的城市景观，你可以用CLAY输入描述性文本，比如“一个充满摩天大楼和飞行汽车的未来城市”，CLAY会根据这个描述生成一个详细的3D场景，包括高耸的建筑、繁忙的街道和先进的交通工具。这不仅节省了手工建模的时间，还能提供无限的创意空间。

主要功能：

3D几何和材质生成：CLAY能够根据用户的指令生成3D形状和表面材质。
多模态控制：支持文本、图像以及3D相关的多种控制方式，如多视角图像、体素、边界框、点云等。

主要特点：

大规模生成模型：CLAY拥有15亿参数，是一个庞大的模型，能够处理和生成高分辨率的3D数据。
高质量输出：能够生成具有物理基础渲染（PBR）纹理的高分辨率材质，使3D模型看起来更加真实。
易用性：即使是初学者也能轻松使用CLAY将他们的3D创意变为现实。

工作原理：

CLAY的核心是一个多分辨率变分自编码器（VAE）和一个最小化的潜在扩散变换器（DiT），它们共同工作来提取3D几何的形状和材质特征。模型通过以下步骤来生成3D资产：

输入处理：接受文本、图像或3D相关的控制输入。
特征提取：通过VAE将输入转换为潜在空间的特征表示。
细节生成：DiT在潜在空间中逐步去除噪声，生成清晰的3D结构。
材质渲染：利用多视角材质扩散模型生成具有漫反射、粗糙度和金属感的PBR纹理。

具体应用场景：

娱乐产业：在电影、游戏和动画制作中，CLAY可以快速生成复杂的3D场景和角色模型。
设计和建筑：帮助设计师和建筑师将他们的设计概念转化为详细的3D模型，用于进一步的分析和展示。
教育和研究：作为教学工具，帮助学生理解3D建模原理，并激发他们的创造力。

文章版权归作者所有，未经允许请勿转载。

视觉变换器VisionLLaMA：基于LLaMA架构设计，用于处理图像任务

新技术 # VisionLLaMA # 视觉变换器

2年前

06220

OPPO 发布 OAgents：一个模块化、可复现的基础智能体框架

新技术 # OAgents # OPPO # 智能体框架

8个月前

01740

英伟达推出新型大语言模型嵌入模型NV-Embed：专门设计用于提高文本嵌入任务的性能

新技术 # NV-Embed # 嵌入模型

2年前

09750

基于“幅度感知”的新型缓存机制MagCache：用于加速图像和视频扩散模型的生成过程

新技术 # MagCache # 幅度感知 # 模型加速

10个月前

04620

暂无评论

暂无评论...

影眸科技推出新型大型3D生成模型CLAY：帮助人们将脑海中的创意轻松转化为精细的三维数字结构

主要功能：

主要特点：

工作原理：

具体应用场景：

虚拟试衣系统IMAGDressing-v1：帮助用户在线上购物时，更真实地预览服装在不同人身上的效果

新型图像风格转换方法StyleShot：能够将任何图片转换成我们想要的几乎任何风格

相关文章

视觉变换器VisionLLaMA：基于LLaMA架构设计，用于处理图像任务

OPPO 发布 OAgents：一个模块化、可复现的基础智能体框架

英伟达推出新型大语言模型嵌入模型NV-Embed：专门设计用于提高文本嵌入任务的性能

基于“幅度感知”的新型缓存机制MagCache：用于加速图像和视频扩散模型的生成过程

暂无评论

文章

ComfyUI 原生支持 Wan2.2 Fun：首尾帧控制与多模态视频生成全面集成

PaCo-RL：西安交大首创“一致性裁判”强化学习框架，让AI生成四张图也能保持角色与风格完美统

LMArena 最新排名出炉！阿里千问杀入全球前五，Qwen3.5-Max-Preview 力压豆包、Kimi 成国产最强

ComfyUI-NAG 插件正式上线：为扩散模型带来高效负向引导能力

限时免费体验一周！小米凌晨官宣三款大模型：MiMo-V2 系列正式亮相，1M 上下文比肩 Opus 4.6

紧急安全警报：LiteLLM 遭供应链攻击，v1.82.7/1.82.8 窃取凭证并植入后门

S.H.I.T

Alaya Code

OpenMAIC

抓虾吧

ITELLOU

Jellyfish AI短剧工厂

影眸科技推出新型大型3D生成模型CLAY：帮助人们将脑海中的创意轻松转化为精细的三维数字结构

主要功能：

主要特点：

工作原理：

具体应用场景：

虚拟试衣系统IMAGDressing-v1：帮助用户在线上购物时，更真实地预览服装在不同人身上的效果

新型图像风格转换方法StyleShot：能够将任何图片转换成我们想要的几乎任何风格

相关文章

文章

标签云

网址

S.H.I.T

Alaya Code

OpenMAIC

抓虾吧

ITELLOU

Jellyfish AI短剧工厂