百科 | 第28页 | SD百科导航

百科工具模型 ComfyUI AI合集 web UI 提示词

教程新技术硬件科普早报

排序

发布更新浏览点赞

阿里巴巴Wanx 团队推出新型多模态生成模型ACE：可以根据文本指令来执行复杂的图像编辑和生成任务

阿里巴巴Wanx 团队推出新型多模态生成模型ACE，这个模型的核心功能是处理和生成图像，但它与传统的图像处理工具不同，因为它可以根据文本指令来执行复杂的图像编辑和生成任务。例如，你是一名摄影师，你拍摄...

新技术 # ACE # 阿里巴巴

1年前

06700

自回归技术StreamingT2V：能够创建具有丰富运动动力学的长视频，不会出现停滞现象

来自Picsart AI研究部门、得克萨斯大学奥斯汀分校、佐治亚理工学院和伊利诺伊大学厄巴纳-香槟分校的研究团队推出先进的自回归技术StreamingT2V，能够创建具有丰富运动动力学的长视频，不会出...

新技术 # StreamingT2V # 自回归技术

2年前

06690

谷歌推出基于问答的自动评估指标Gecko，用于评估文生图模型的性能

谷歌推出基于问答的自动评估指标Gecko2K，用于评估文生图模型的性能。文生图模型生成的图像并不总是能够完全符合文本中的所有细节。因此，评估这些模型生成的图像与文本描述的匹配程度是一个重要的研究问题...

新技术 # Gecko # Gecko2K # 自动评估

2年前

06680

新型视觉模型EfficientViT：专门用于高分辨率的密集预测任务

来自MIT、浙江大学、清华大学、MIT-IBM Watson AI实验室的研究人员推出新型视觉模型EfficientViT，它专门用于高分辨率的密集预测任务。这类任务在计算机视觉领域非常重要，应用范围...

新技术 # EfficientViT # 视觉模型

2年前

06670

DragAnything：视频生成中任意对象的运动控制

来自快手、浙江大学和新加坡国立大学的研究团队推出DragAnything，它是一种用于视频生成和控制的方法，它利用实体表示法来实现对视频生成中任意对象的运动控制。项目主页 GitHub 论文例如...

新技术 # DragAnything # 视频生成 # 运动控制

2年前

06670

如何在 Windows 11 上启用或禁用 Copilot 的“Alt + 空格键”语音快捷键

Windows 11 的 Copilot 应用最近引入了一个便捷的“Alt + 空格键”快捷键功能，允许用户通过“按下说话”或“按住说话”与聊天机器人互动。这一功能从版本 1.25024.100.0 ...

教程 # Copilot # Windows 11 # 语音

1年前

06640

开源图像标注模型JoyTag：没有任何过滤和审查

JoyTag是一个机器学习研究者推出的开源图像标注模型，该模型是在Danbooru 2021 + 手动标记的图像数据集上训练的，对训练的内容和标签没有任何过滤和审查，适用于从手绘到摄影的各种图像，在处...

新技术 # JoyTag # 图像标注模型 # 开源

2年前

06630

TTT-Video：通过引入 Test-Time Training（TTT）层，成功让DiT 模型能够从文本故事板生成长达一分钟的视频

英伟达联合斯坦福大学、加州大学圣地亚哥分校、加州大学伯克利分校和德克萨斯大学奥斯汀分校的研究人员，通过引入 Test-Time Training（TTT）层，成功让预训练的 DiT 模型能够从文本故事...

新技术 # CogVideoX-5B # DiT 模型 # TTT-Video

1年前

06610

英伟达推出图像生成模型家族Edify Image：能够生成高保真度的图像内容，并且具有像素级完美准确性

英伟达推出图像生成模型家族Edify Image，它们能够生成高保真度的图像内容，并且具有像素级完美准确性。Edify Image利用了一系列级联的像素空间扩散模型，这些模型通过一个新颖的拉普拉斯扩散...

新技术 # Edify Image # 图像生成 # 英伟达

1年前

06610

新型图像生成技术StrokeNUWA：利用大语言模型生成矢量图形

StrokeNUWA是一种新型图像生成技术，用于仅通过大语言模型（LLM）生成矢量图形，无需依赖专门的视觉模块。论文该方法的关键创新在于利用矢量图形固有的视觉语义，将矢量图形编码为"笔画"标记，这...

新技术 # LLM # StrokeNUWA # 大语言模型

2年前

06610

DiT架构的文生视频模型xGen-VideoSyn-1：根据文本描述生成逼真的视频场景

Salesforce推出新的文生视频模型xGen-VideoSyn-1，这个模型能够根据文本描述生成逼真的视频场景，它的设计灵感来源于OpenAI的Sora模型，并在此基础上进行了改进和创新。例如，你...

新技术 # xGen-VideoSyn # 文生视频模型

2年前

06600

基于优化框架的跨模态视频-音频生成方法Seeing and Hearing：能够同时生成视频和音频内容

香港科技大学和腾讯 PCG ARC 实验室推出基于优化框架的跨模态视频-音频生成方法Seeing and Hearing，它能够同时生成视频和音频内容。方法的主要创新点在于，通过预训练的多模态模型(如...

新技术 # Seeing and Hearing # 优化框架 # 跨模态视频-音频生成方法

2年前

06600

加载更多

百科

阿里巴巴Wanx 团队推出新型多模态生成模型ACE：可以根据文本指令来执行复杂的图像编辑和生成任务

自回归技术StreamingT2V：能够创建具有丰富运动动力学的长视频，不会出现停滞现象

谷歌推出基于问答的自动评估指标Gecko，用于评估文生图模型的性能

新型视觉模型EfficientViT：专门用于高分辨率的密集预测任务

DragAnything：视频生成中任意对象的运动控制

如何在 Windows 11 上启用或禁用 Copilot 的“Alt + 空格键”语音快捷键

开源图像标注模型JoyTag：没有任何过滤和审查

TTT-Video：通过引入 Test-Time Training（TTT）层，成功让DiT 模型能够从文本故事板生成长达一分钟的视频

英伟达推出图像生成模型家族Edify Image：能够生成高保真度的图像内容，并且具有像素级完美准确性

新型图像生成技术StrokeNUWA：利用大语言模型生成矢量图形

DiT架构的文生视频模型xGen-VideoSyn-1：根据文本描述生成逼真的视频场景

基于优化框架的跨模态视频-音频生成方法Seeing and Hearing：能够同时生成视频和音频内容

S.H.I.T

Tripo

ITELLOU

waoo

Joker of Academics（小丑学术期刊）

Flova

百科

网址

S.H.I.T

Tripo

ITELLOU

waoo

Joker of Academics（小丑学术期刊 ）

Flova

Joker of Academics（小丑学术期刊）