百科 | 第37页 | SD百科导航

百科工具模型 ComfyUI AI合集 web UI 提示词

教程新技术硬件科普早报

排序

发布更新浏览点赞

新型蒸馏技术iCD：提升文本引导的图像编辑任务中的图像生成和编辑能力

俄罗斯Yandex Research和高等经济大学的研究人员推出新型蒸馏技术Invertible Consistency Distillation（iCD），它用于提升文本引导的图像编辑任务中的图像生...

新技术 # iCD # 蒸馏技术

2年前

05980

图像修补任务Reflecting Reality：专门用于创建逼真的镜面反射

印度理工学院班加罗尔分校视觉与人工智能实验室、三星印度研发中心和牛津大学视觉几何组的研究人员推出Reflecting Reality，它专门用于创建逼真的镜面反射。简单来说，可以处理给定的图片，自动在...

新技术 # Reflecting Reality # 镜面反射

2年前

05970

苹果推出新型图像生成模型Kaleido Diffusion：通过整合自回归的潜在先验来增强采样的图像多样性

苹果和弗吉尼亚理工大学的研究人员推出新型图像生成模型Kaleido Diffusion，此模型旨在通过自回归潜在模型（autoregressive latent modeling）提高扩散模型（dif...

新技术 # Kaleido Diffusion # 图像生成模型 # 苹果

2年前

05970

DeepSeek R1 模型完成小版本升级！官方依旧选择开源，DeepSeek-R1-0528已上线Hugging Face

昨晚，DeepSeek 官方在交流群中宣布：DeepSeek R1 已完成小版本升级（代号：R1-0528），用户现已可通过官方网页、App 和小程序体验（记得开启“深度思考”模式），API 接口与使...

早报 # DeepSeek-R1 # DeepSeek-R1-0528

11个月前

05950

MiniMax 发布其首个文本到图像生成模型 Image-01

MiniMax 近日正式发布了其首个文本到图像生成模型 Image-01，标志着其在多模态视觉领域的重大突破。Image-01 不仅扩展了 MiniMax 的 AI 功能，还为全球用户带来了极具创意和...

早报 # Image-01 # MiniMax # 图像生成模型

1年前

05950

MVideo：用于生成具有精确、流畅动作的长时视频

无限光年、上海交通大学和复旦大学的研究人员推出新型框架MVideo，它专门设计用于生成具有精确、流畅动作的长时视频。MVideo通过结合文本提示和掩码序列（mask sequences）作为额外的运动...

新技术 # MVideo # 文生视频

1年前

05950

统一Transformer模型Show-o：同时处理多模态理解（如图像和文本）和生成任务

新加坡国立大学和字节跳动的研究人员推出一种统一的Transformer模型Show-o，，它统一了多模态的理解和生成。不同于完全自回归模型，Show-o结合了自回归和（离散）扩散建模，以自适应地处理各...

新技术 # Show-o # Transformer模型

2年前

05940

大型多模态模型VideoGLaMM：专为用户提供的文本输入进行视频中细粒度像素级定位而设计

视频与文本之间的细粒度对齐是一个具有挑战性的问题，因为视频中存在复杂的空间和时间动态。现有的基于视频的大型多模态模型（LMMs）虽然可以处理基本对话，但在视频中进行精确的像素级定位方面存在困难。大型...

新技术 # VideoGLaMM # 大型多模态模型

1年前

05930

字节推出TextToon：在实时环境中将真人的头像转换成卡通化的形象

罗切斯特大学和字节跳动的研究人员推出TextToon，它能够在实时环境中将真人的头像转换成卡通化的形象。就像魔法一样，这项技术可以把你从视频中的头像变成你想要的任何卡通风格，比如美国漫画风格、皮克斯动...

新技术 # TextToon # 字节跳动

2年前

05930

创新系统SEE-2-SOUND：为静态图片或动态视频生成与之匹配的立体声效果，增强观众的沉浸感和体验

多伦多大学、Temerty 人工智能研究与医学教育中心和Sunnybrook 研究所的研究人员推出创新系统SEE-2-SOUND，它能够将视觉内容（如图片或视频）转换成具有空间感的音频输出。简单来说...

新技术 # SEE-2-SOUND # 立体声

2年前

05930

DiLightNet：用于文生图模型图像生成过程中对照明效果精细控制

来自浙江大学、微软亚洲研究院、威廉玛丽学院和清华大学的研究人员提出一种新方法DiLightNet，它用于在基于文本提示的扩散模型图像生成过程中实现精细的照明控制。论文地址扩散模型是一种能够根据文本...

新技术 # DiLightNet # 照明效果

2年前

05930

LM Arena 被指控操纵 AI 基准测试，缺乏公正性和透明性

一项由 Cohere、斯坦福大学、麻省理工学院和 Ai2 研究人员联合发布的新研究，指责热门 AI 基准测试平台 LM Arena（Chatbot Arena 的背后组织）帮助少数顶级 AI 实验室通...

早报 # LM Arena

11个月前

05920

加载更多

百科

新型蒸馏技术iCD：提升文本引导的图像编辑任务中的图像生成和编辑能力

图像修补任务Reflecting Reality：专门用于创建逼真的镜面反射

苹果推出新型图像生成模型Kaleido Diffusion：通过整合自回归的潜在先验来增强采样的图像多样性

DeepSeek R1 模型完成小版本升级！官方依旧选择开源，DeepSeek-R1-0528已上线Hugging Face

MiniMax 发布其首个文本到图像生成模型 Image-01

MVideo：用于生成具有精确、流畅动作的长时视频

统一Transformer模型Show-o：同时处理多模态理解（如图像和文本）和生成任务

大型多模态模型VideoGLaMM：专为用户提供的文本输入进行视频中细粒度像素级定位而设计

字节推出TextToon：在实时环境中将真人的头像转换成卡通化的形象

创新系统SEE-2-SOUND：为静态图片或动态视频生成与之匹配的立体声效果，增强观众的沉浸感和体验

DiLightNet：用于文生图模型图像生成过程中对照明效果精细控制

LM Arena 被指控操纵 AI 基准测试，缺乏公正性和透明性

S.H.I.T

诗一

新Claude Managed Agents

即梦 CLI

ITELLOU

waoo

百科

网址

S.H.I.T

诗一

新Claude Managed Agents

即梦 CLI

ITELLOU

waoo