模型 | 第55页 | SD百科导航

百科工具模型 ComfyUI AI合集 web UI 提示词

大语言模型多模态模型图像模型语音模型 3D模型 Flux衍生视频模型

排序

发布更新浏览点赞

阿里巴巴通义实验室推出新型单次拍摄可动画化的高斯头部模型 LAM：能够从单张图像中生成可动画化且可渲染的高斯头像

阿里巴巴通义实验室推出新型单次拍摄可动画化的高斯头部模型 LAM（Large Avatar Model），能够从单张图像中生成可动画化且可渲染的高斯头像。与以往需要大量视频序列训练或依赖辅助神经网络进...

9个月前

04020

统一视觉自回归模型 VARGPT-v1.1：统一视觉理解和图像生成任务

北京大学和香港中文大学的研究人员推出先进统一视觉自回归模型 VARGPT-v1.1 ，该模型在多模态理解和文本到图像生成任务中表现出色。它通过迭代指令微调和强化学习等创新训练策略，显著提升了模型的性能...

多模态模型 # VARGPT-v1.1 # 统一视觉自回归模型

9个月前

03380

新型框架HumanDreamer-X：用于从单张图像重建逼真的可动画化三维人类虚拟形象（avatar）

GigaAI、中国科学院自动化研究所和北京大学的研究人员推出新型框架HumanDreamer-X，用于从单张图像重建逼真的可动画化三维人类虚拟形象（avatar）。该框架通过结合三维重建和视频修复技术...

3D模型 # HumanDreamer-X # 虚拟形象

9个月前

04140

开源框架OpenDeepSearch，挑战Perplexity和ChatGPT搜索

Sentient Foundation的研究团队近日发布了开源深度搜索（Open Deep Search，简称ODS），这是一款开源框架，能够匹敌如Perplexity和ChatGPT Search等...

大语言模型 # ODS # Open Deep Search # 开源深度搜索

9个月前

03680

Meta发布Llama 4系列多模态模型：首次采用MoE架构，最高1000万上下文长度

2025年4月6日星期日，Meta正式推出了其最新的AI模型系列——Llama 4。这款新模型不仅支持网络版Meta AI助手，还为WhatsApp、Messenger和Instagram等平台提供了...

大语言模型 # Llama 4 # Meta # MoE架构

9个月前

04210

高保真三维形状合成方法TripoSG：利用大规模的修正流模型从单张图像生成高质量的三维网格模型

VAST、香港大学、德克萨斯大学奥斯汀分校和上海人工智能实验室的研究人员推出高保真三维形状合成方法TripoSG，它利用大规模的修正流模型（Rectified Flow Models）从单张图像生成高...

3D模型 # 3D模型 # TripoSG

9个月前

02690

HSMR：用于从单张图像中重建具有生物力学准确骨架的三维人体模型

德克萨斯大学奥斯汀分校和浙江大学的研究人员推出HSMR，用于从单张图像中重建具有生物力学准确骨架的三维人体模型。该方法通过训练一个基于 Transformer 的网络，估计生物力学模型 SKEL 的参...

图像模型 # HSMR # 三维人体模型 # 骨架

9个月前

03880

新型框架 EliGen：用于实现图像生成中的实体级控制

浙江大学控制科学与工程学院、阿里巴巴集团ModelScope团队和华东师范大学的研究人员推出新型框架 EliGen，用于实现图像生成中的实体级控制。EliGen 通过引入区域注意力（Regional ...

图像模型 # EliGen # 图像生成

9个月前

02010

昆仑万维开源图生视频模型SkyReels-A2，基于阿里Wan2.1微调而成

昆仑万维在上个月推出面向 AI 短剧创作的视频生成模型 SkyReels-V1后，又在近期开源SkyReels-A2，可以将任意视觉元素（如人物、物体、背景等）根据文本提示组装成合成视频，同时严格保持...

视频模型 # SkyReels-A2 # Wan2.1 # 昆仑万维

9个月前

03640

新型多模态生成模型UniDisc：基于离散扩散过程的统一生成模型，能够同时理解和生成文本和图像

卡内基梅隆大学的研究人员推出新型多模态生成模型 UniDisc（Unified Multimodal Discrete Diffusion），UniDisc 是一个基于离散扩散过程的统一生成模型，能够...

图像模型 # UniDisc # 多模态生成模型

9个月前

03850

IntrinsiX：能够直接从文本描述生成高质量的物理基础渲染（PBR）图像

传统的文生图模型（如 Stable Diffusion）能够根据文本描述生成高质量的 RGB 图像，但这些图像通常包含固定的光照效果（如反射、阴影、高光），这限制了它们在需要 PBR 地图（如游戏、V...

图像模型 # IntrinsiX # PBR

9个月前

02360

自回归模型Lumina-mGPT 2.0：支持文生图、多轮图像编辑、可控生成等

上海人工智能实验室和香港中文大学的研究人员之前推出了新型多模态自回归模型Lumina-mGPT，研究团队在今天推出了一种独立的、仅解码器的自回归模型Lumina-mGPT 2.0，从头开始训练，统一了...

图像模型 # Lumina-mGPT 2.0 # 自回归模型

9个月前

03760

加载更多

模型

阿里巴巴通义实验室推出新型单次拍摄可动画化的高斯头部模型 LAM：能够从单张图像中生成可动画化且可渲染的高斯头像

统一视觉自回归模型 VARGPT-v1.1：统一视觉理解和图像生成任务

新型框架HumanDreamer-X：用于从单张图像重建逼真的可动画化三维人类虚拟形象（avatar）

开源框架OpenDeepSearch，挑战Perplexity和ChatGPT搜索

Meta发布Llama 4系列多模态模型：首次采用MoE架构，最高1000万上下文长度

高保真三维形状合成方法TripoSG：利用大规模的修正流模型从单张图像生成高质量的三维网格模型

HSMR：用于从单张图像中重建具有生物力学准确骨架的三维人体模型

新型框架 EliGen：用于实现图像生成中的实体级控制

昆仑万维开源图生视频模型SkyReels-A2，基于阿里Wan2.1微调而成

新型多模态生成模型UniDisc：基于离散扩散过程的统一生成模型，能够同时理解和生成文本和图像

IntrinsiX：能够直接从文本描述生成高质量的物理基础渲染（PBR）图像

自回归模型Lumina-mGPT 2.0：支持文生图、多轮图像编辑、可控生成等

人生 K 线

ITELLOU

Comfy Cloud

CachyOS

X（推特）限流检测工具

On-Device AI

模型

网址

人生 K 线

ITELLOU

Comfy Cloud

CachyOS

X（推特）限流检测工具

On-Device AI