字节跳动推出新颖视频合成方法Boximator:可控制画面范围及运动方向字节跳动发布了一种新颖视频合成方法Boximator,主要用于生成具有丰富和精细运动控制的高质量视频。Boximator引入了两种约束类型:硬边框(hard box)和软边框(soft box),允许...新技术# Boximator# 字节跳动# 视频合成2年前06180
diffusion-e2e-ft:通过微调图像条件扩散模型来简化和提高单目深度估计的效率亚琛工业大学和埃因霍温理工大学的研究人员推出diffusion-e2e-ft,通过微调图像条件扩散模型来简化和提高单目深度估计的效率。单目深度估计是指仅使用一张图片来预测场景中每个像素的深度信息。这项...新技术# diffusion-e2e-ft# 单目深度估计2年前06170
文本编码器Glyph-ByT5:为提高视觉文本渲染的准确性而设计来自微软亚洲研究院、清华大学、北京大学和澳大利亚国立大学的研究团队推出文本编码器Glyph-ByT5,它是为了提高视觉文本渲染的准确性而设计的。Glyph-ByT5通过微调一个字符感知的ByT5编码器...新技术# Glyph-ByT5# 文本编码器2年前06170
海螺语音海外版MiniMax Audio发布全新模型Speech-02 :超现实 TTS,多语言无缝切换海螺语音海外版 MiniMax Audio 发布了全新的 Speech-02 模型,这一创新的文本转语音(TTS)技术能够将任何文件或 URL 瞬间转化为逼真的音频。无论是创建有声书、播客,还是为电影...百科# MiniMax Audio# Speech-02# TTS1年前06160
子对象级图像标记化:用于计算机视觉模型的图像处理来自香港科技大学与小冰AI的研究人员推出名为“子对象级图像标记化”(subobject-level image tokenization)的新方法,这是一种用于计算机视觉模型的图像处理技术。这种方法受...新技术# 子对象级图像标记化2年前06160
个性化图像生成新方法InstantFamily:在零样本的情况下,根据多个身份标识(Multi-ID)生成个性化的图像韩国SK电信推出个性化图像生成新方法InstantFamily,它能够在零样本(zero-shot)的情况下,根据多个身份标识(Multi-ID)生成个性化的图像。这项技术特别适用于创建包含多个人物的...新技术# InstantFamily# 个性化图像生成2年前06140
GenXD:能够从任意数量的条件图像生成高质量的3D和4D场景近年来,2D视觉生成取得了显著成功,但在3D和4D生成方面,由于缺乏大规模数据和有效的模型设计,实际应用仍然具有挑战性。新加坡国立大学和微软的研究人员推出了一个名为GenXD的模型,它能够从任意数量的...新技术# 3D# GenXD1年前06130
文生图定制模型Pair Customization:从单一图像对中学习风格差异,并随后将习得的风格应用于生成过程中来自卡内基梅隆大学和东北大学的研究人员推出新定制方法Pair Customization,该方法从单一图像对中学习风格差异,并随后将习得的风格应用于生成过程中。这是一款使用一对图像(一个原始图像和一个...新技术# Pair Customization# 文生图定制模型2年前06130
AI音乐模型Stable Audio:结合文本提示和时间控制长音频生成Stability AI发布AI音乐模型Stable Audio,它专注于从文本提示生成高质量、可变长度的立体声音乐和音效。这个模型特别适用于需要快速生成长形式音频内容的场景,如音乐制作、游戏音效设计...新技术# AI音乐# Stability AI# Stable Audio2年前06130
新颖图像和视频处理框架MaGGIe:用于实现人类图像的精确分割,从图像和视频中提取人物前景来自马里兰大学和Adobe的研究人员推出新的图像和视频处理技术MaGGIe(Masked Guided Gradual Human Instance Matting),它用于实现人类图像的精确分割...新技术# MaGGIe# 图像分割# 抠图2年前06120
混合数据专家MoDE:通过聚类方法来提升对比语言-图像预训练(CLIP)的性能来自Meta、哥伦比亚大学、纽约大学和华盛顿大学的研究人员推出机器学习系统MoDE(Mixture of Data Experts,混合数据专家),它通过聚类方法来提升对比语言-图像预训练(CLIP...新技术# CLIP# MoDE# 混合数据专家2年前06120
YouTube 集中发布多领域新工具:覆盖音乐、创作者变现、播客与直播,AI 成核心驱动力在纽约举行的“Made on YouTube”年度活动上,YouTube 宣布了一系列面向创作者、艺术家和播客的新功能。这些更新覆盖 AI 内容生成、直播体验升级、粉丝互动增强、品牌合作灵活性提升以及...早报# YouTube# YouTube Music7个月前06110