新技术

百科工具模型 ComfyUI AI合集 web UI 提示词

教程新技术硬件科普早报

排序

发布更新浏览点赞

一维（1D）标记化技术TiTok：用极少的标记（tokens）来表示和生成高分辨率图像

字节跳动和慕尼黑工业大学的研究人员推出新型图像表示方法TiTok，它通过一种新颖的一维（1D）标记化技术，用极少的标记（tokens）来表示和生成高分辨率图像。这种方法与传统的二维（2D）图像标记化方...

新技术 # TiTok # 一维标记化

2年前

09320

创新系统SEE-2-SOUND：为静态图片或动态视频生成与之匹配的立体声效果，增强观众的沉浸感和体验

多伦多大学、Temerty 人工智能研究与医学教育中心和Sunnybrook 研究所的研究人员推出创新系统SEE-2-SOUND，它能够将视觉内容（如图片或视频）转换成具有空间感的音频输出。简单来说...

新技术 # SEE-2-SOUND # 立体声

2年前

05900

新型多模态DiT模型AV-DiT：生成既有视觉画面又有声音的高质量视频

来自多伦多大学、德克萨斯大学达拉斯分校和Adobe研究中心的研究人员推出新型多模态扩散变换器AV-DiT（Audio-Visual Diffusion Transformer），它专门设计用于联合生成...

新技术 # AV-DiT # DiT模型

2年前

06760

新型视频生成模型HPDM：通过分层处理和上下文融合技术，生成高分辨率视频

Snap、阿卜杜拉国王科技大学和特伦托大学的研究人员推出新型视频生成模型Hierarchical Patch Diffusion Models（HPDM，分层补丁扩散模型），这个模型专门设计用于高分辨...

新技术 # HPDM # 分层补丁扩散模型 # 视频生成

2年前

07590

FontStudio系统：为多语言字体生成文字特效，创造具有艺术感的字体效果

微软亚洲研究院和利物浦大学推出FontStudio系统，它是一个基于现代扩散模型的文本到图像生成系统，专门用来创造具有艺术感的字体效果。例如，你想在电脑上设计一个独特的字体，比如让字母'A'看起来像一...

新技术 # FontStudio # 字体

2年前

08770

无需预先训练框架MotionClone：通过复制参考视频中的动作来指挥文本导向的视频生成

中国科学技术大学、上海交通大学、香港中文大学和上海人工智能实验室的研究人员推出无需预先训练框架MotionClone，它能够实现一种无需训练的运动克隆，用于可控的视频生成。简单来说，这项技术可以让一个...

新技术 # MotionClone # 视频生成

2年前

04710

基于大语言模型的新型文本编码器LI-DiT：灵活地将尖端的大语言模型融入文本转图像生成模型

商汤研究院、香港中文大学移动计算实验室和上海人工智能实验室的研究人员推出新型文本编码器LI-DiT（LLM-Infused Diffusion Transformer），旨在充分发挥大语言模型的潜力...

新技术 # LI-DiT # 文本编码器

2年前

01,1310

字节跳动推出新型视频生成技术CamTrol：为现有的视频扩散模型增添摄像机运动操控功能

中国科学技术大学和字节跳动的研究人员推出新型视频生成技术CamTrol，这是一种无需训练的、强大的解决方案，可以为现有的视频扩散模型增添摄像机运动操控功能。简单来说，就是可以在不经过额外训练的情况下...

新技术 # CamTrol # 字节跳动 # 视频生成

2年前

08770

新型文生图模型CountGen：根据文本提示准确地生成指定数量的对象

巴伊兰大学、英伟达和特拉维夫大学的研究人员推出新型文生图模型CountGen，它能够根据文本提示准确地生成指定数量的对象。在以往的技术中，尽管文本到图像的扩散模型取得了巨大成功，但它们在控制生成图像中...

新技术 # CountGen # 文生图模型

2年前

05220

后训练压缩策略DiTFastAttn：压缩和加速DiT模型，缓解DiT的计算瓶颈问题

来自清华大学、无问芯穹（Infinigence AI）、卡内基梅隆大学和上海交通大学的研究人员推出新技术DiTFastAttn，它专门用于压缩和加速一种称为Diffusion Transformers...

新技术 # DiTFastAttn # DiT模型

2年前

01,0160

基于定制化扩散模型权重的子空间weights2weights（w2w）：能够支持从单一图像中提取视觉身份，编辑模型中编码的身份，以及采样新模型来编码多样化的人物实例

加州大学伯克利分校、Snap和斯坦福大学的研究人员推出weights2weights（w2w），这是一个基于定制化扩散模型权重的子空间，能够支持从单一图像中提取视觉身份，编辑模型中编码的身份，以及采样...

新技术 # w2w # weights2weights # 子空间

2年前

05670

新型图像生成模型DiMR：通过多分辨率处理和时间依赖的层归一化技术，有效地提高了图像的质量和真实感，减少了失真

字节跳动、约翰霍普金斯大学和威斯康星大学麦迪逊分校的研究人员推出新的图像生成模型DiMR（Distortion-reduced Multi-Resolution Diffusion Model），此模...

新技术 # DiMR # 图像生成

2年前

09100

加载更多