百科 | 第34页 | SD百科导航

百科工具模型 ComfyUI AI合集 web UI 提示词

教程新技术硬件科普早报

排序

发布更新浏览点赞

字节跳动推出新颖视频合成方法Boximator：可控制画面范围及运动方向

字节跳动发布了一种新颖视频合成方法Boximator，主要用于生成具有丰富和精细运动控制的高质量视频。Boximator引入了两种约束类型：硬边框（hard box）和软边框（soft box），允许...

2年前

06180

diffusion-e2e-ft：通过微调图像条件扩散模型来简化和提高单目深度估计的效率

亚琛工业大学和埃因霍温理工大学的研究人员推出diffusion-e2e-ft，通过微调图像条件扩散模型来简化和提高单目深度估计的效率。单目深度估计是指仅使用一张图片来预测场景中每个像素的深度信息。这项...

新技术 # diffusion-e2e-ft # 单目深度估计

2年前

06170

文本编码器Glyph-ByT5：为提高视觉文本渲染的准确性而设计

来自微软亚洲研究院、清华大学、北京大学和澳大利亚国立大学的研究团队推出文本编码器Glyph-ByT5，它是为了提高视觉文本渲染的准确性而设计的。Glyph-ByT5通过微调一个字符感知的ByT5编码器...

新技术 # Glyph-ByT5 # 文本编码器

2年前

06170

海螺语音海外版MiniMax Audio发布全新模型Speech-02 ：超现实 TTS，多语言无缝切换

海螺语音海外版 MiniMax Audio 发布了全新的 Speech-02 模型，这一创新的文本转语音（TTS）技术能够将任何文件或 URL 瞬间转化为逼真的音频。无论是创建有声书、播客，还是为电影...

百科 # MiniMax Audio # Speech-02 # TTS

1年前

06160

子对象级图像标记化：用于计算机视觉模型的图像处理

来自香港科技大学与小冰AI的研究人员推出名为“子对象级图像标记化”（subobject-level image tokenization）的新方法，这是一种用于计算机视觉模型的图像处理技术。这种方法受...

新技术 # 子对象级图像标记化

2年前

06160

个性化图像生成新方法InstantFamily：在零样本的情况下，根据多个身份标识（Multi-ID）生成个性化的图像

韩国SK电信推出个性化图像生成新方法InstantFamily，它能够在零样本（zero-shot）的情况下，根据多个身份标识（Multi-ID）生成个性化的图像。这项技术特别适用于创建包含多个人物的...

新技术 # InstantFamily # 个性化图像生成

2年前

06140

GenXD：能够从任意数量的条件图像生成高质量的3D和4D场景

近年来，2D视觉生成取得了显著成功，但在3D和4D生成方面，由于缺乏大规模数据和有效的模型设计，实际应用仍然具有挑战性。新加坡国立大学和微软的研究人员推出了一个名为GenXD的模型，它能够从任意数量的...

新技术 # 3D # GenXD

1年前

06130

文生图定制模型Pair Customization：从单一图像对中学习风格差异，并随后将习得的风格应用于生成过程中

来自卡内基梅隆大学和东北大学的研究人员推出新定制方法Pair Customization，该方法从单一图像对中学习风格差异，并随后将习得的风格应用于生成过程中。这是一款使用一对图像（一个原始图像和一个...

新技术 # Pair Customization # 文生图定制模型

2年前

06130

AI音乐模型Stable Audio：结合文本提示和时间控制长音频生成

Stability AI发布AI音乐模型Stable Audio，它专注于从文本提示生成高质量、可变长度的立体声音乐和音效。这个模型特别适用于需要快速生成长形式音频内容的场景，如音乐制作、游戏音效设计...

新技术 # AI音乐 # Stability AI # Stable Audio

2年前

06130

新颖图像和视频处理框架MaGGIe：用于实现人类图像的精确分割，从图像和视频中提取人物前景

来自马里兰大学和Adobe的研究人员推出新的图像和视频处理技术MaGGIe（Masked Guided Gradual Human Instance Matting），它用于实现人类图像的精确分割...

新技术 # MaGGIe # 图像分割 # 抠图

2年前

06120

混合数据专家MoDE：通过聚类方法来提升对比语言-图像预训练（CLIP）的性能

来自Meta、哥伦比亚大学、纽约大学和华盛顿大学的研究人员推出机器学习系统MoDE（Mixture of Data Experts，混合数据专家），它通过聚类方法来提升对比语言-图像预训练（CLIP...

新技术 # CLIP # MoDE # 混合数据专家

2年前

06120

YouTube 集中发布多领域新工具：覆盖音乐、创作者变现、播客与直播，AI 成核心驱动力

在纽约举行的“Made on YouTube”年度活动上，YouTube 宣布了一系列面向创作者、艺术家和播客的新功能。这些更新覆盖 AI 内容生成、直播体验升级、粉丝互动增强、品牌合作灵活性提升以及...

早报 # YouTube # YouTube Music

7个月前

06110

加载更多

百科

字节跳动推出新颖视频合成方法Boximator：可控制画面范围及运动方向

diffusion-e2e-ft：通过微调图像条件扩散模型来简化和提高单目深度估计的效率

文本编码器Glyph-ByT5：为提高视觉文本渲染的准确性而设计

海螺语音海外版MiniMax Audio发布全新模型Speech-02 ：超现实 TTS，多语言无缝切换

子对象级图像标记化：用于计算机视觉模型的图像处理

个性化图像生成新方法InstantFamily：在零样本的情况下，根据多个身份标识（Multi-ID）生成个性化的图像

GenXD：能够从任意数量的条件图像生成高质量的3D和4D场景

文生图定制模型Pair Customization：从单一图像对中学习风格差异，并随后将习得的风格应用于生成过程中

AI音乐模型Stable Audio：结合文本提示和时间控制长音频生成

新颖图像和视频处理框架MaGGIe：用于实现人类图像的精确分割，从图像和视频中提取人物前景

混合数据专家MoDE：通过聚类方法来提升对比语言-图像预训练（CLIP）的性能

YouTube 集中发布多领域新工具：覆盖音乐、创作者变现、播客与直播，AI 成核心驱动力

S.H.I.T

新Claude Managed Agents

诗一

BuildCores

AstrBot

ITELLOU

百科

网址

S.H.I.T

新Claude Managed Agents

诗一

BuildCores

AstrBot

ITELLOU