新技术

百科工具模型 ComfyUI AI合集 web UI 提示词

教程新技术硬件科普早报

排序

发布更新浏览点赞

新型图像生成模型EMMA：能够接受多模态提示，并生成高质量的图像

南洋理工大学和腾讯的研究人员推出新型图像生成模型EMMA，它基于最先进的文本到图像（T2I）扩散模型ELLA，能够接受多模态提示（multi-modal prompts），并生成高质量的图像。简单来说...

2年前

08810

视频编辑框架VideoSwap：让用户自定义视频中的主要对象（例如人物、动物或物体），同时保持背景不变

来自新加坡国立大学和Meta推出视频编辑框架VideoSwap，它能够让用户自定义视频中的主要对象（例如人物、动物或物体），同时保持背景不变。你还可以通过交互式操作（如添加、删除等）进一步细化交换结果...

新技术 # VideoSwap # 视频编辑框架

2年前

08800

新型图像超分辨率技术S3Diff：让模糊的低分辨率图片变清晰

中山大学深圳校区网络科学与技术学院、南洋理工大学S实验室和华为诺亚方舟实验室的研究人员推出新型图像超分辨率技术S3Diff ，简单来说，这是一种能让模糊的低分辨率图片变清晰的方法。研究团队引入了一种新...

新技术 # S3Diff # 图像超分辨率

1年前

08790

Multi-LoRA Composition：不经过训练直接融合多个 Lora 不损失效果

来自伊利诺伊大学香槟分校和微软公司的研究人员公开了多LoRA组合来生成图像的项目。简单来说，LoRA是一种可以让文本生成图像模型更准确地呈现特定元素（如独特的字符、风格或服装）的技术。论文探讨了如何更...

新技术 # Lora # Multi-LoRA Composition

2年前

08780

FontStudio系统：为多语言字体生成文字特效，创造具有艺术感的字体效果

微软亚洲研究院和利物浦大学推出FontStudio系统，它是一个基于现代扩散模型的文本到图像生成系统，专门用来创造具有艺术感的字体效果。例如，你想在电脑上设计一个独特的字体，比如让字母'A'看起来像一...

新技术 # FontStudio # 字体

2年前

08770

字节跳动推出新型视频生成技术CamTrol：为现有的视频扩散模型增添摄像机运动操控功能

中国科学技术大学和字节跳动的研究人员推出新型视频生成技术CamTrol，这是一种无需训练的、强大的解决方案，可以为现有的视频扩散模型增添摄像机运动操控功能。简单来说，就是可以在不经过额外训练的情况下...

新技术 # CamTrol # 字节跳动 # 视频生成

2年前

08770

新型图像压缩技术CMC（模态压缩）：利用大型多模态模型来实现图像到文本再到图像的转换，从而在保持图像质量的同时，大幅度减小图像的大小

上海交通大学和南洋理工大学的研究人员推出一种新型的图像压缩技术“跨模态压缩”（Cross Modality Compression，简称CMC）。这项技术的核心思想是利用大型多模态模型（Large M...

新技术 # CMC # CMC-Bench # 图像压缩

2年前

08770

神经网络扩散（Neural Network Diffusion）：利用扩散模型来生成高性能的神经网络参数

来自新加坡国立大学、Meta AI和加州大学伯克利分校的研究人员提出了一种名为“神经网络扩散（Neural Network Diffusion）”的新型方法，它利用扩散模型（diffusion mod...

新技术 # Neural Network Diffusion # 神经网络扩散

2年前

08770

通用反馈学习架构ID-Aligner：用于提升文本到图像生成任务中的身份保持性能

来自中山大学和字节跳动的研究人员推出通用反馈学习架构ID-Aligner，它用于提升文本到图像生成（Text-to-Image Generation）任务中的身份保持（Identity-Preserv...

新技术 # ID-Aligner # 人物特征 # 文生图

2年前

08740

视觉布局CGB-DM：基于Transformer的扩散模型的内容与图形平衡布局生成方法

清华大学的研究人员推出基于Transformer的扩散模型的内容与图形平衡布局生成方法CGB-DM，简单来说，CGB-DM是一个智能设计系统，它可以根据文本描述生成既美观又和谐的视觉布局。这就像是给一...

新技术 # CGB-DM # 视觉布局

2年前

08720

视频流翻译方法Live2Diff：专为直播视频转换设计的时间单向注意力视频扩散模型

上海人工智能实验室、马克斯普朗克信息研究所和南洋理工大学的研究人员推出视频流翻译方法Live2Diff（LIVE2DIFF），它利用了单向注意力机制在视频扩散模型中，专门为直播视频流设计。这种方法的核...

新技术 # Live2Diff # 直播

2年前

08720

虚拟脱衣TryOffAnyone：从穿着服装的人身上生成高保真平铺服装图像

多伦多大学和帕特雷大学的研究人员推出TryOffAnyone，这是一个从穿着服装的人身上生成高保真平铺服装图像的技术。这项技术对于时尚行业来说非常重要，因为它可以增强在线购物体验，提供个性化推荐、服装...

新技术 # TryOffAnyone # 虚拟脱衣

1年前

08700

加载更多

新型图像生成模型EMMA：能够接受多模态提示，并生成高质量的图像

视频编辑框架VideoSwap：让用户自定义视频中的主要对象（例如人物、动物或物体），同时保持背景不变

新型图像超分辨率技术S3Diff：让模糊的低分辨率图片变清晰

Multi-LoRA Composition：不经过训练直接融合多个 Lora 不损失效果

FontStudio系统：为多语言字体生成文字特效，创造具有艺术感的字体效果

字节跳动推出新型视频生成技术CamTrol：为现有的视频扩散模型增添摄像机运动操控功能

新型图像压缩技术CMC（模态压缩）：利用大型多模态模型来实现图像到文本再到图像的转换，从而在保持图像质量的同时，大幅度减小图像的大小

神经网络扩散（Neural Network Diffusion）：利用扩散模型来生成高性能的神经网络参数

通用反馈学习架构ID-Aligner：用于提升文本到图像生成任务中的身份保持性能

视觉布局CGB-DM：基于Transformer的扩散模型的内容与图形平衡布局生成方法

视频流翻译方法Live2Diff：专为直播视频转换设计的时间单向注意力视频扩散模型

虚拟脱衣TryOffAnyone：从穿着服装的人身上生成高保真平铺服装图像

S.H.I.T

ArkClaw

新360 安全龙虾

JVSClaw

WorkBuddy

Joker of Academics（小丑学术期刊）

新技术

网址

S.H.I.T

ArkClaw

新360 安全龙虾

JVSClaw

WorkBuddy

Joker of Academics（小丑学术期刊 ）

Joker of Academics（小丑学术期刊）