新技术

百科工具模型 ComfyUI AI合集 web UI 提示词

教程新技术硬件科普早报

排序

发布更新浏览点赞

AI视频生成模型Animated Stickers：让静态表情包动起来

来自Meta的研究人员推出了AI视频生成模型Animated Stickers，它可以让普通表情包图片“动”起来。这项技术的核心是利用先进的文本到图像（Text-to-Image）模型，通过添加时间层...

2年前

07040

条件感知神经网络CAN：用于在图像生成模型中添加控制

来自麻省理工学院、清华大学和英伟达的研究人员推出一种条件感知神经网络（CAN），用于在图像生成模型中添加控制，它通过动态调整神经网络的权重来实现对生成图像的控制。论文 GitHub 与之前的条件控制...

新技术 # CAN # 条件感知神经网络

2年前

07030

视频编码器VideoPrism：能够处理多种视频理解任务，如分类、定位、检索、字幕生成和问答

来自谷歌的研究人员推出视频编码器VideoPrism，它是一个通用的视频理解模型，能够处理多种视频理解任务，如分类、定位、检索、字幕生成和问答（QA）。VideoPrism通过在一个单一的冻结模型上进...

新技术 # VideoPrism # 视频编码器 # 谷歌

9个月前

07030

高效且精确的注意力机制量化方法SageAttention：加速大语言处理、图像生成和视频生成模型

清华大学的研究人员推出一种高效且精确的注意力机制量化方法SageAttention，此方法的OPS（每秒操作数）性能分别比FlashAttention2和xformers提高了约2.1倍和2.7倍。S...

新技术 # SageAttention # 注意力机制

1年前

07020

图像编辑技术Editable Image Elements：允许用户对输入的图像进行空间编辑，同时保持图像内容的逼真度

来自加州大学圣地亚哥分校和Adobe 研究中心的研究人员推出新的图像编辑技术Editable Image Elements for Controllable Synthesis，它允许用户对输入的...

新技术 # Editable Image Elements # 图像编辑

2年前

07020

谷歌推出新框架ImageInWords（IIW）：创建准确且细节丰富的图像描述，以提高视觉-语言模型的训练效果

Google Research、Google DeepMind和华盛顿大学的研究团队推出新框架ImageInWords（IIW），此框架旨在创建准确且细节丰富的图像描述，以提高视觉-语言模型（VLMs...

新技术 # IIW # ImageInWords # 数据集

2年前

07010

连续3D词（Continuous 3D Words）：通过文本提示来精细控制图像生成过程中的多个属性

来自牛津大学、Adobe Research的研究人员提出了一种“连续3D词（Continuous 3D Words）”的新方法，使得用户能够通过文本提示来精细控制图像生成过程中的多个属性，比如照明方向...

新技术 # AI绘画 # Continuous 3D Words # 连续3D词

2年前

07000

模型量化技术BitsFusion：减少SD模型参数大小，同时还能让这个模型生成的图片质量更好

Snap和罗格斯大学的研究人员推出新型图像生成模型的权重量化技术BitsFusion。简单来说，就是研究者们开发了一种方法，可以把一个用来生成图片的复杂模型（叫做扩散模型）的参数量大大减少，同时还能让...

新技术 # BitsFusion # 模型参数 # 模型量化

2年前

06990

基于Transformer架构的新型图像生成模型DART：根据文本描述生成高质量的图像

苹果和香港中文大学的研究人员推出新型图像生成模型DART，这个模型的目标是让计算机能够根据文本描述生成高质量的图像。DART是一个基于Transformer架构的模型，它在非马尔可夫框架内统一了自回归...

新技术 # DART # Transformer架构 # 图像生成模型

1年前

06980

腾讯优图推出RealTalk：用于生成逼真、实时的音频驱动人脸视频的框架

腾讯优图实验室和南京大学的研究人员推出新技术RealTalk，它是一个用于生成逼真、实时的音频驱动人脸视频的框架。简单来说，RealTalk可以根据一个人的语音生成一个看起来非常真实的3D人脸动画，而...

新技术 # RealTalk # 南京大学 # 腾讯优图

2年前

06970

ViewDiff：从文本或图像生成多视图图像

来自Meta和慕尼黑工业大学的研究人员推出ViewDiff，它能够根据文本描述或已有的图像输入，生成与3D对象一致的高质量图像。项目主页 GitHub 想象一下，你只需要告诉计算机你想要的3D对象是...

新技术 # 3D模型 # ViewDiff # 多视角

2年前

06970

新框架VSP-LLM：通过观察视频中人的嘴型来理解和翻译说话内容

这篇论文介绍了一个名为VSP-LLM（Visual Speech Processing incorporated with LLMs）的新框架，它结合了视觉语音处理和大语言模型（LLMs），以提高视觉...

新技术 # VSP-LLM # 大语言模型 # 视觉语音翻译

2年前

06970

加载更多

AI视频生成模型Animated Stickers：让静态表情包动起来

条件感知神经网络CAN：用于在图像生成模型中添加控制

视频编码器VideoPrism：能够处理多种视频理解任务，如分类、定位、检索、字幕生成和问答

高效且精确的注意力机制量化方法SageAttention：加速大语言处理、图像生成和视频生成模型

图像编辑技术Editable Image Elements：允许用户对输入的图像进行空间编辑，同时保持图像内容的逼真度

谷歌推出新框架ImageInWords（IIW）：创建准确且细节丰富的图像描述，以提高视觉-语言模型的训练效果

连续3D词（Continuous 3D Words）：通过文本提示来精细控制图像生成过程中的多个属性

模型量化技术BitsFusion：减少SD模型参数大小，同时还能让这个模型生成的图片质量更好

基于Transformer架构的新型图像生成模型DART：根据文本描述生成高质量的图像

腾讯优图推出RealTalk：用于生成逼真、实时的音频驱动人脸视频的框架

ViewDiff：从文本或图像生成多视图图像

新框架VSP-LLM：通过观察视频中人的嘴型来理解和翻译说话内容

S.H.I.T

ITELLOU

Joker of Academics（小丑学术期刊）

新360 安全龙虾

JVSClaw

BabelDOC

新技术

网址

S.H.I.T

ITELLOU

Joker of Academics（小丑学术期刊 ）

新360 安全龙虾

JVSClaw

BabelDOC

Joker of Academics（小丑学术期刊）