IC-Light推出基于Flux模型的新版本IC-Light V2:为图像进行重新打光 IC-Light是Controlnet、Fooocus、Stable Diffusion WebUI Forge的开发者lllyasviel推出的一款控制图像照明效果的模型,之前是基于SD1.5,目前... Flux衍生# FLUX模型# IC-Light V2 2周前04910
Stability AI推出全新3D模型SF3D:可在不到一秒的时间内从单张图片快速生成高质量的3D网格模型 Stability AI之前与Tripo AI合作推出了图生3D模型TripoSR,Stability AI又基于TripoSR推出了Stable Fast 3D (SF3D) ,它可以在不到一秒的时... 3D模型# 3D模型# SF3D# Stability AI 2周前04830
Fal.ai平台推出了新一代GAN 图像放大工具AuraSR的第二版AuraSR-v2 Fal.ai平台推出了新一代GAN 图像放大工具AuraSR的第二版,上个月它们推出了AuraSR 第一版后,得到了开源社区积极回应,让他们立刻着手开发新版。AuraSR 以 Adobe 的 Giga... 图像模型# AuraSR# AuraSR-v2# Fal.ai 2周前04790
3D内容生成模型Magic-Boost:将粗糙的3D模型转换成高质量的3D模型 来自南洋理工大学和字节跳动的研究人员推出新型3D内容生成模型Magic-Boost,它能够将粗糙的3D模型转换成高质量的3D资产。Magic-Boost是一种多视角条件扩散模型。它能够通过短暂的SDS... 3D模型# 3D模型# Magic-Boost 2周前04720
PixelWave Flux.1-Dev:基于FLUX.1-dev的微调FLUX模型,适合艺术和摄影风格 PixelWave Flux.1-Dev是一个基于FLUX.1-dev的微调FLUX模型,非常适合艺术和摄影风格,黑色和深色图像输出更可靠,手部问题更少。目前已经推出了第三版,开发者推出了多个版本(S... Flux衍生# FLUX.1-dev# PixelWave Flux.1-Dev 2周前04690
设计灵感来源于PaLI-3!谷歌推出开源视觉语言模型PaliGemma PaliGemma 是谷歌推出的新一代视觉语言模型家族,其设计灵感来源于PaLI-3,能够接收图像与文本输入并生成文本输出。PaliGemma建立在包括SigLIP视觉模型和Gemma语言模型在内的开... 多模态模型# PaliGemma# 谷歌 2周前04690
AWPortrait-FL:基于FLUX.1-dev 的人物微调FLUX模型 AWPortrait-FL是由DynamicWang在FLUX.1-dev 基础上微调的FLUX模型,其不仅使用了 AWPortrait-XL 的训练数据,还加入了近 2000 张审美价值极高的时尚摄... Flux衍生# AWPortrait-FL# DynamicWang# FLUX模型 2周前04610
IDAdapter:根据单张面部照片和文本提示,生成多种风格、角度和表情的个性化图像,而无需在推理阶段进行任何微调 来自北京大学、InsightFace和格灵深瞳推出IDAdapter,它能够根据单张面部照片和文本提示,生成多种风格、角度和表情的个性化图像,而无需在推理阶段进行任何微调。 论文 IDAdapter通... 图像模型# IDAdapter# 个性化图像 2周前04560
新型目标检测模型Mamba-YOLO-World:能够理解并识别各种不同物体的智能系统,即使这些物体在训练时没有被明确标记 复旦大学计算机学院、腾讯优图实验室、上海交通大学等的研究人体推出新型目标检测模型Mamba-YOLO-World,它专门设计用于开放词汇检测(Open-Vocabulary Detection,简称O... 多模态模型# Mamba-YOLO-World# 目标检测模型 2周前04530
字节跳动推出AnimateDiff-Lightning模型:根据文本描述生成视频,还可以视频转视频 字节跳动推出了AnimateDiff-Lightning模型,能够更快地根据文本描述生成视频,比起原来的AnimateDiff模型,速度提升十倍以上。 模型地址:https://huggingface... 视频模型# AnimateDiff-Lightning# 字节跳动 2周前04520
新型框架Diffusion-KTO:用于调整文生图模型,使其生成的图像更符合人类的偏好 加州大学洛杉矶分校、松下人工智能研究中心和 Salesforce 人工智能研究中心的研究人员推出新型框架Diffusion-KTO,它专门用于调整文生图模型,使其生成的图像更符合人类的偏好。这个过程不... 图像模型# Diffusion-KTO# 文生图模型 2周前04480
OpenAI 推出更快的语音转录模型Whisper large-v3-turbo,不牺牲质量、速度提升8 倍 在10月1日的DevDay活动中,OpenAI宣布了一项重大更新:推出了Whisper large-v3-turbo语音转录模型。这款新模型在保持质量几乎不变的前提下,处理速度比之前的large-v3... 语音模型# OpenAI# Whisper large-v3-turbo# 语音转录模型 2周前04450