百科 | 第42页 | SD百科导航

百科工具模型 ComfyUI AI合集 web UI 提示词

教程新技术硬件科普早报

排序

发布更新浏览点赞

新型图像生成技术MaskBit：根据一些简单的描述或者标签，自动创造出相对应的图像

字节跳动、慕尼黑工业大学、MCML和卡内基梅隆大学的研究人员推出新型图像生成技术MaskBit，这个技术能够自动创造出新的图像，而且不需要像传统方法那样依赖于大量的预训练数据或者复杂的数学模型。Mas...

新技术 # MaskBit # 图像生成

2年前

05680

基于定制化扩散模型权重的子空间weights2weights（w2w）：能够支持从单一图像中提取视觉身份，编辑模型中编码的身份，以及采样新模型来编码多样化的人物实例

加州大学伯克利分校、Snap和斯坦福大学的研究人员推出weights2weights（w2w），这是一个基于定制化扩散模型权重的子空间，能够支持从单一图像中提取视觉身份，编辑模型中编码的身份，以及采样...

新技术 # w2w # weights2weights # 子空间

2年前

05680

谷歌发布“多步一致性模型”（Multistep Consistency Models）

谷歌发布新型生成模型“多步一致性模型”（Multistep Consistency Models），它在图像、视频和音频生成领域具有潜在的应用价值。这个模型是介于传统的“一致性模型”（Consiste...

新技术 # 多步一致性模型 # 谷歌

2年前

05680

北大团队推出多模态混合专家模型MoE-LLaVA

来自北大的研究人员推出多模态的混合专家模型MoE-LLaVA，旨在通过一种新颖的训练策略，有效地提高模型在处理视觉和语言任务时的性能，同时保持计算成本的稳定。 GitHub Demo 论文此模型只有...

新技术 # MoE-LLaVA # 北大 # 多模态混合专家模型

2年前

05680

针对文生图模型的一次性个性化定制技术TextBoost：使用单个参考图像，通过微调文本编码器，来生成与文本提示相匹配的定制化图像

韩国科学技术院推出一种针对文本到图像模型的一次性个性化定制技术TextBoost，这种方法使用单个参考图像，通过微调文本编码器，来生成与文本提示相匹配的定制化图像。例如，你想要通过一段描述来生成一张图...

新技术 # TextBoost # 个性化定制 # 文生图模型

2年前

05670

Meta推出个性化图像生成模型Imagine yourself

Meta推出个性化图像生成模型Imagine yourself，这个模型的特别之处在于，它不需要针对每个用户进行个性化调整或“调优”，就能够为所有用户提供服务。这就像是有一个智能的画家，无论谁来请求画...

新技术 # Imagine yourself # Meta # 个性化图像生成模型

2年前

05670

新型视频重建模型Vidu4D：能够从单个生成的视频创建高保真的4D重建

清华大学、生数科技和同济大学的研究人员推出新型视频重建模型Vidu4D，它能够从单个生成的视频创建高保真的4D重建（即连续的3D表示）。这项技术的核心是处理非刚性物体的动态变化和视频帧的失真问题，这对...

新技术 # Vidu4D # 视频重建模型

2年前

05670

PhysGen3D：从一张图片创造真实物理世界的交互式3D场景

清华大学、伊利诺伊大学厄巴纳香槟分校和哥伦比亚大学的研究人员携手推出了一项创新成果—PhysGen3D，将单一图像转化为非模态、以相机为中心的交互式 3D 场景。项目主页：https://by-lu...

新技术 # 3D场景 # PhysGen3D

1年前

05660

新型图像编辑方法CODE：能够在保持图像真实感的同时，对图像进行高质量的编辑和合成

洛桑联邦理工学院的研究人员推出新型图像编辑方法CODE（Confident Ordinary Differential Editing，自信常微分编辑），它能够在保持图像真实感的同时，对图像进行高质量...

新技术 # CODE # 图像编辑

2年前

05660

新型3D生成模型V3D：利用视频扩散模型的能力来创建高质量的三维对象和场景

来自清华和生数科技的研究推出新型3D生成模型V3D，它利用视频扩散模型的能力来创建高质量的三维对象和场景。V3D的核心思想是将连续的多视角图像视为视频，从而利用预训练的视频扩散模型来生成围绕物体的36...

新技术 # 3D生成模型 # V3D

2年前

05660

FilmComposer：利用大语言模型驱动的方法为无声电影片段生成音乐

上海大学和上海电影特效工程技术研究中心的研究人员推出 FilmComposer，利用大语言模型（LLM）驱动的方法为无声电影片段生成音乐。FilmComposer 旨在模拟专业音乐家的实际工作流程，结...

新技术 # FilmComposer # 大语言模型 # 音乐

1年前

05650

清华大学与瑞莱智慧联合团队推出RealSafe-R1：基于 DeepSeek R1 的安全优化大语言模型

随着大语言模型（LLMs）在各个领域的广泛应用，其安全性问题日益受到关注。尽管这些模型在性能上表现出色，但在面对恶意查询和越狱攻击时，仍存在一定的风险。为了应对这一挑战，清华大学与瑞莱智慧联合团队推出...

新技术 # DeepSeek-R1 # RealSafe-R1 # 大语言模型

1年前

05650

加载更多

百科

新型图像生成技术MaskBit：根据一些简单的描述或者标签，自动创造出相对应的图像

基于定制化扩散模型权重的子空间weights2weights（w2w）：能够支持从单一图像中提取视觉身份，编辑模型中编码的身份，以及采样新模型来编码多样化的人物实例

谷歌发布“多步一致性模型”（Multistep Consistency Models）

北大团队推出多模态混合专家模型MoE-LLaVA

针对文生图模型的一次性个性化定制技术TextBoost：使用单个参考图像，通过微调文本编码器，来生成与文本提示相匹配的定制化图像

Meta推出个性化图像生成模型Imagine yourself

新型视频重建模型Vidu4D：能够从单个生成的视频创建高保真的4D重建

PhysGen3D：从一张图片创造真实物理世界的交互式3D场景

新型图像编辑方法CODE：能够在保持图像真实感的同时，对图像进行高质量的编辑和合成

新型3D生成模型V3D：利用视频扩散模型的能力来创建高质量的三维对象和场景

FilmComposer：利用大语言模型驱动的方法为无声电影片段生成音乐

清华大学与瑞莱智慧联合团队推出RealSafe-R1：基于 DeepSeek R1 的安全优化大语言模型

S.H.I.T

Tripo

同事.skill

Joker of Academics（小丑学术期刊）

新Claude Managed Agents

MaxClaw

百科

网址

S.H.I.T

Tripo

同事.skill

Joker of Academics（小丑学术期刊 ）

新Claude Managed Agents

MaxClaw

Joker of Academics（小丑学术期刊）