英伟达GeForce RTX 4060 Ti 16GB英伟达在去年7月正式发售万众瞩目RTX 4060 Ti 16GB,这张显卡最大的优点就是16GB显存,这对于AI用户来说这张显卡可以说是入门首选,一起来看看这张显卡的规格吧! RTX 4060 Ti ...硬件# RTX 4060 Ti 16GB# 英伟达2年前07130
英伟达推出图像生成模型家族Edify Image:能够生成高保真度的图像内容,并且具有像素级完美准确性英伟达推出图像生成模型家族Edify Image,它们能够生成高保真度的图像内容,并且具有像素级完美准确性。Edify Image利用了一系列级联的像素空间扩散模型,这些模型通过一个新颖的拉普拉斯扩散...新技术# Edify Image# 图像生成# 英伟达1年前06450
文本反转Textual Inversion:通过少量的图像和自然语言描述来创建新的“伪词”来指导图像生成使用文本到图像生成模型(Text-to-Image Models)来个性化地创造图像,这些模型能够根据自然语言描述生成图像,但通常难以精确地表达特定的独特概念。 项目主页 GitHub 来自特拉维夫大...新技术# Textual Inversion# 文本反转# 英伟达2年前06320
英伟达开源ConsiStory:免训练保持角色和物品一致性的文生图方法来自特拉维夫大学和英伟达的研究人员提出了一种创新方法ConsiStory,它允许用户通过自然语言描述生成一系列图像,这些图像不仅能够保持一致的主题,而且能够遵循文本提示。ConsiStory的核心目标...新技术# ConsiStory# 英伟达1年前06260
英伟达推出多模态大语言模型Describe Anything 3B:为图像和视频局部描述量身定制的多模态 AI 模型英伟达、加州大学伯克利分校和加州大学旧金山分校的研究人员推出了 Describe Anything 3B (DAM-3B),这是一个专门用于生成细粒度图像和视频字幕的多模态大语言模型(LLM)。DAM...多模态模型# Describe Anything 3B# 多模态大语言模型# 英伟达11个月前06140
ComfyUI、Fooocus、FramePack 英伟达 RTX 50 系显卡(Windows)性能加速指南如果你正在使用 英伟达 RTX 50 系列(Blackwell 架构) 显卡,并希望在 Windows 上运行 ComfyUI、Fooocus 或 FramePack,那么本指南将帮助你显著提升生成效...新闻# ComfyUI# Fooocus# FramePack9个月前05830
英伟达发布 Audio Flamingo 3:全球首个支持 10 分钟音频理解的开源模型在视觉和文本领域大模型持续突破之后,音频理解也开始迎来新的里程碑。英伟达近日发布了 Audio Flamingo 3(AF3),这是目前最先进的开源大型音频语言模型(Large Audio Langu...语音模型# Audio Flamingo 3# 英伟达# 音频理解模型9个月前05400
英伟达推出自动语音识别模型Parakeet-TDT-0.6B-v2:专为高质量英语语音转录设计英伟达推出的 Parakeet-TDT-0.6B-v2 是一款拥有 6 亿参数的自动语音识别(ASR)模型,专为高质量英语语音转录设计。该模型支持标点符号、大写和精准的时间戳预测,能够处理长达 24 ...语音模型# Parakeet-TDT-0.6B-v2# 自动语音识别模型自动语音识别模型# 英伟达11个月前04900
英伟达开源多语言语音识别和翻译模型:Canary 1B Flash 和 Canary 180M Flash在促进全球交流的进程中,多语言语音识别和翻译技术扮演着至关重要的角色。然而,开发能够实时准确地转录和翻译多种语言的模型面临着诸如处理语言细微差别、确保高准确性与低延迟以及实现跨设备高效部署等挑战。为应...语音模型# Canary 180M Flash# Canary 1B Flash# 多语言语音识别1年前04740
美国国家科学基金会与英伟达联手,斥资 1.5 亿美元推动全开源 AI 模型,加速美国科学创新美国国家科学基金会(NSF)与英伟达(NVIDIA)近日宣布达成一项重要合作,共同投资 1.52 亿美元,支持由 Allen 人工智能研究所(Ai2) 牵头的“开放多模态 AI 基础设施加速科学”(O...早报# Ai2# 美国国家科学基金会# 艾伦AI研究所8个月前04210
英伟达推出世界生成与自适应多模态控制Cosmos-Transfer1英伟达推出了一个名为 Cosmos World Foundation Model Platform 的平台,旨在为 Physical AI(物理人工智能)提供定制化的世界模型(World Founda...视频模型# Cosmos-Transfer1# 英伟达1年前04090
英伟达开源ViPE工具:从普通视频中精准提取3D信息,还附赠9600万帧标注数据集在空间AI领域,“3D几何感知”是许多技术落地的基础——无论是AR场景构建、自动驾驶环境感知,还是视频内容的3D重构,都需要精准的相机姿态、内参和深度信息。但长期以来,从野外随机拍摄的视频(如自拍、行...3D模型# ViPE# 英伟达7个月前03970