新型图像生成模型MoMA:具有灵活的零样本能力,专注于主体驱动的个性化图像生成来自字节跳动和罗格斯大学的研究人员推出新型图像生成模型MoMA(Multimodal LLM Adapter),这是一个开放词汇、无需训练的个性化图像模型,具有灵活的零样本能力,专注于主体驱动的个性化...图像模型# MoMA# 个性化图像生成# 文生图模型1年前09500
Stability AI推出全新3D模型SF3D:可在不到一秒的时间内从单张图片快速生成高质量的3D网格模型Stability AI之前与Tripo AI合作推出了图生3D模型TripoSR,Stability AI又基于TripoSR推出了Stable Fast 3D (SF3D) ,它可以在不到一秒的时...3D模型# 3D模型# SF3D# Stability AI1年前09410
SD3-Turbo模型:在四步无指导采样的情况下,生成与最先进的文本到图像生成器相匹配的图像质量Stability AI还没发布Stable Diffusion 3,就已经发布了SD3-Turbo的技术论文,着重介绍了LADD技术,它是一种用于加速图像合成的新型蒸馏技术。 论文地址 SD3-Tu...图像模型# SD3-Turbo# Stability AI# Stable Diffusion 31年前09380
强大且高效的图像和视频生成控制方法ControlNeXt:同时支持图像和视频,并能整合多种形式的控制信息香港中文大学和思谋科技的研究人员推出强大且高效的图像和视频生成控制方法ControlNeXt,它同时支持图像和视频,并能整合多种形式的控制信息。在这个项目中,我们提出了一种新方法,与 ControlN...图像模型# ControlNeXt1年前09350
图生3D模型TripoSR:将2D图片转换成3D模型图生3D模型Stability AI与Tripo AI携手合作,共同推出TripoSR,这是一个灵感源自LRM(单幅图像到3D的大型重建模型)最新研究成果的快速3D对象重建模型。 模型地址:https://hug...3D模型# 3D模型# TripoSR1年前09340
深度求索推出新颖自回归框架 Janus: 具有图像生成功能的 13 亿多模态模型多模态AI模型是能够理解和生成视觉内容的强大工具。然而,现有方法通常使用单一视觉编码器来处理这两项任务,这导致了由于理解和生成在本质上不同的需求而表现不佳。理解需要高层次的语义抽象,而生成则关注局部细...多模态模型# Janus# 多模态模型1年前09270
阿里通义团队推出图像生成新型框架In-Context LoRA:利用现有的DiT架构模型(Flux模型)的上下文生成能力,通过提示词生成连贯图像随着深度学习技术的发展,图像生成领域取得了显著进展。DiT架构作为一种新兴方法,通过简单地将注意力机制应用于图像连接,实现了任务无关的图像生成。然而,即便投入大量计算资源,生成图像的质量仍有待提升。 ...Flux衍生# FLUX模型# IC-LoRA# In-Context LoRA1年前09050
开源版GPT-4o!字节跳动开源新一代多模态模型 BAGEL:多模态理解、图像生成、图像编辑,还能“思考”字节跳动发布了一款名为 BAGEL 的开源多模态基础模型,该模型拥有 70 亿活跃参数(总规模为 140 亿),在大规模交错多模态数据上进行训练。BAGEL 不仅在标准多模态理解排行榜中超越了当前主流...图像模型# BAGEL# GPT-4o# 多模态模型10个月前08930
Stable Video DiffusionStability AI于北京时间2023年11月22日推出AI视频生成模型 Stable Video Diffusion,Stable Video Diffusion 由两个模型组成的 ——SVD ...视频模型# AI视频生成# Stable Video Diffusion# SVD1年前08930
Jasper推出新型蒸馏方法Flash Diffusion:高效、快速、多用途且与LoRA兼容,旨在加速预训练扩散模型图像生成Jasper推出了一种高效、快速、多用途且与LoRA兼容,旨在加速预训练扩散模型生成的蒸馏方法Flash Diffusion,该方法在COCO 2014和COCO 2017数据集上,针对少量步骤的图像...图像模型# Flash Diffusion# Jasper# 蒸馏模型1年前08810
基于FLUX.1-dev的LoRA 模型FilmPortrait:用来增强生成图像胶片质感的理解与还原度之前给大家介绍了由DynamicWang训练的人物微调FLUX模型AWPortrait-FL,今天DynamicWang又释出了FilmPortrait,这是一个在 FLUX.1-dev 上微调的 L...Flux衍生# FilmPortrait# FLUX.1-dev# LoRA 模型1年前08780
新型文生图框架Ranni:利于大语言模型,更准确地理解和执行复杂的文本提示阿里巴巴和蚂蚁集团推出新型文生图框架Ranni,Ranni的核心特点是它能够更准确地理解和执行复杂的文本提示,尤其是那些包含数量描述、对象属性绑定和多主题描述的提示。这使得Ranni在生成图像时能够更...图像模型# Ranni# 文生图模型1年前08740