新型实时端到端目标检测系统YOLOv10:快速地识别图像中的多个对象,并且告诉用户这些对象的具体位置清华大学的研究人员推出新型实时端到端目标检测系统YOLOv10,目标检测是计算机视觉领域的一个重要任务,它的目的是识别出图像中的对象,并确定它们的位置。例如,你在玩一个视频游戏,需要快速识别并射击屏幕...新技术# YOLOv10# 清华大学# 目标检测2年前09990
Stability AI获得新的投资,并任命Prem Akkaraju为新CEOStability AI已经正式公布了来自一组新投资者的重大资金投入。该公司已任命Prem Akkaraju为首席执行官,并由Sean Parker出任执行主席。这一举措旨在加速Stability A...早报# Prem Akkaraju# Stability AI1年前09880
新型视频生成技术“CVD(协作视频扩散)”:生成从多个不同摄像机轨迹视角下观察同一场景的一致性视频斯坦福大学和香港中文大学的研究人员推出新型视频生成技术“协作视频扩散”(Collaborative Video Diffusion,简称CVD),这项技术的核心目标是能够生成从多个不同摄像机轨迹视角下...新技术# CVD# 协作视频扩散# 视频生成2年前09880
新型视图合成技术InstantSplat:在极短的时间内(大约40秒)从稀疏的、没有相机姿态信息的图像中重建和渲染出新视角的3D场景来自德克萨斯大学奥斯汀分校、英伟达、厦门大学、佐治亚理工学院、斯坦福大学和南加州大学推出新型视图合成技术InstantSplat,它能够在极短的时间内(大约40秒)从稀疏的、没有相机姿态信息的图像中重...新技术# 3D场景# InstantSplat2年前09870
CFG改进版CFG++:帮助生成与文本描述相匹配的图像韩国科学技术院推出新型的图像生成和编辑技术CFG++,这是针对“分类器自由引导”(Classifier-free Guidance,简称CFG)的改进版。CFG是一种在现代文本引导的图像生成模型中使用...百科# CFG++# 韩国科学技术院1年前09760
Stable Diffusion 采样器工作原理、特点及如何选择?当我们使用Stable Diffusion(稳定扩散)技术生成图片时,其首先会创建一张带有噪声的图像。然后,通过我们设定的一连串步骤,它逐渐去除图像中的噪声。这个过程就像是从一块毛坯的白色大理石开始...科普# DDIM# Euler# sampler2年前09760
CUDA与cuDNN安装教程目前很多AI应用都是建立在英伟达CUDA基础上的,Stable Diffusion也不例外,虽然CPU或英特尔、AMD的显卡也能运行Stable Diffusion相关应用,但运行与生图效率暂时还无法...教程# CUDA# cuDNN# GPU2年前09730
英伟达推出新型文生图模型BlobGEN:基于blob(斑点)的文本到图像扩散模型英伟达推出新型文生图模型BlobGEN,这个模型的核心思想是将场景分解为视觉原语——被称为密集的blob(斑点)表示——这些表示包含了场景的细粒度细节,同时具备模块化、易于理解和构建的特点。例如,一个...新技术# BlobGEN# 文生图模型# 英伟达2年前09660
ffmpeg安装教程FFmpeg是一个开源的跨平台多媒体处理工具集,具有强大的音视频处理能力。它可以用于转换、编辑、流媒体处理以及多媒体格式的解码和编码等任务。对于AI方面,FFmpeg主要是生成视频,用于视频的编码。 ...教程# ffmpeg# 多媒体2年前09660
新型图像生成模型Hourglass Diffusion Transformer(HDiT)Stability AI、慕尼黑大学和Birchlabs的开发人员提出了一种名为Hourglass Diffusion Transformer(HDiT)的新型图像生成模型,该模型在保持高分辨率图像合...新技术# HDiT# Stability AI# 图像生成模型2年前09640
Qwen-Image 使用指南:如何用提示词与参数生成高质量图像在闭源图像模型主导的今天,阿里巴巴推出的 Qwen-Image 成为一股清流——它不仅性能强大,更以 Apache 2.0 开源协议发布,允许企业、开发者和创作者自由使用、修改和部署。 这一特性使其迅...教程# Qwen-Image# 提示词4个月前09590
索尼推出音频-视觉生成模型Visual Echoes:根据一张图片生成与之相对应的音频,或者反过来,根据一段音频生成匹配的图片索尼推出新型音频-视觉生成模型Visual Echoes,这个模型能够根据一张图片生成与之相对应的音频,或者反过来,根据一段音频生成匹配的图片。这种技术在多模态生成领域具有很大的潜力,因为它能够将视觉...新技术# Visual Echoes# 音频-视觉生成模型2年前09510