新技术

百科工具模型 ComfyUI AI合集 web UI 提示词

教程新技术硬件科普早报

排序

发布更新浏览点赞

多模态框架FakeShield：通过多模态大语言模型评估图像的真实性，用于检测AI及PS图片

生成式AI的快速发展为内容创作带来了巨大便利，但同时也使得图像篡改变得更加容易且难以检测。当前的图像伪造检测和定位（IFDL）方法虽然通常有效，但仍面临两大挑战：黑箱性质：检测原理未知，难以理解和解...

新技术 # FakeShield # 多模态框架

1年前

06510

开源图像标注模型JoyTag：没有任何过滤和审查

JoyTag是一个机器学习研究者推出的开源图像标注模型，该模型是在Danbooru 2021 + 手动标记的图像数据集上训练的，对训练的内容和标签没有任何过滤和审查，适用于从手绘到摄影的各种图像，在处...

新技术 # JoyTag # 图像标注模型 # 开源

2年前

06510

新型框架CSD：理解和从图像中提取风格描述符，可以实现对图像风格的检索、归因和匹配

来自纽约大学、埃利斯研究所、马里兰大学帕克分校的研究人员推出新型框架CSD，旨在理解和从图像中提取风格描述符，可以实现对图像风格的检索、归因和匹配，特别适用于Stable Diffusion模型。 G...

新技术 # CSD # 图像风格

2年前

06490

VideoElevator：利用文生图模型来增强文生视频的质量和细节

来自哈尔滨大学和清华大学的研究团队推出VideoElevator，利用文生图模型来增强文生视频的质量和细节，这个过程是无需训练的，可以直接插入现有的模型中使用，还能利用文生图模型来实现风格迁移，非常方...

新技术 # VideoElevator # 文生图模型 # 文生视频

2年前

06460

基于端到端训练的风格迁移模型CSGO：根据用户提供的文本描述和风格图像，生成具有特定风格的内容图像

InstantX Team、南京理工大学、北京航空航天大学和北京大学的研究人员推出一种基于端到端训练的风格迁移模型CSGO，它是一个用于文本到图像生成的风格迁移模型。简单来说，CSGO能够根据用户提供...

新技术 # CSGO # 风格迁移模型

2年前

06450

DiT架构的文生视频模型xGen-VideoSyn-1：根据文本描述生成逼真的视频场景

Salesforce推出新的文生视频模型xGen-VideoSyn-1，这个模型能够根据文本描述生成逼真的视频场景，它的设计灵感来源于OpenAI的Sora模型，并在此基础上进行了改进和创新。例如，你...

新技术 # xGen-VideoSyn # 文生视频模型

2年前

06440

IPAdapter-Instruct：在处理基于图像的条件化时，能够更精确地理解用户的意图

Unity推出IPAdapter-Instruct，它是一种用于图像生成的新技术，特别是在处理基于图像的条件化时，能够更精确地理解用户的意图。简单来说，这个模型可以让用户通过添加指令性提示（Instr...

新技术 # IPAdapter-Instruct

2年前

06440

参照音频-视觉分割RefAVS：依据融合了多模态提示（包括音频和视觉描述）的自然语言表达，对视觉场景中的目标物进行分割

中国人民大学、北京邮电大学和上海人工智能实验室的研究人员推出RefAVS（参照音频-视觉分割），依据融合了多模态提示（包括音频和视觉描述）的自然语言表达，对视觉场景中的目标物进行分割。研究团队还创建了...

新技术 # RefAVS # 参照音频-视觉分割

2年前

06430

腾讯推出创新框架AniPortrait：根据音频和一张参考肖像图片生成高质量的动画

腾讯推出创新框架AniPortrait，它可以根据音频和一张参考肖像图片生成高质量的动画。这个系统可以捕捉到音频中的微妙表情和唇部动作，并将这些动作应用到一个静态的肖像图片上，从而创建出看起来像是在说...

新技术 # AniPortrait

2年前

06420

字节跳动推出基于音频驱动人物肖像新框架Loopy：专门用于生成与音频同步的逼真人像视频

字节跳动和浙江大学的研究人员推出新型人工智能模型Loopy，它专门用于生成与音频同步的逼真人像视频。Loopy的核心特点是完全基于音频信号来驱动人像动作，而不需要额外的空间信号来辅助控制动作，这使得生...

新技术 # Loopy # 人物 # 字节跳动

2年前

06410

图像编辑技术Prompt-to-Prompt：通过提示词进行局部或全局编辑

来自谷歌和特拉维夫大学的团队推出图像编辑技术Prompt-to-Prompt，这是一种直观的从提示到提示的编辑框架，其中编辑操作仅通过文本进行控制。此团队深入分析了文本条件模型，并观察到交叉注意力层在...

新技术 # Prompt-to-Prompt # 图像编辑 # 提示词

2年前

06390

SSAM 2增强版SAMURAI：专门设计用于视觉物体跟踪

Segment Anything Model 2 (SAM 2) 是一个在物体分割任务中表现出色的模型，但在视觉物体跟踪方面仍面临一些挑战。特别是在处理拥挤场景中快速移动或自我遮挡的物体时，SAM 2...

新技术 # SAMURAI # SSAM 2

1年前

06370

加载更多