Meta推出多模态模型Apollo:擅长处理长视频,能够在长达一小时的视频中保持高效的理解能力尽管视频感知能力已经迅速集成到大型多模态模型(LMMs)中,但其驱动视频理解的基本机制仍未被充分理解。这导致了许多设计决策缺乏适当的理由或分析,尤其是在训练和评估这些模型时,高昂的计算成本和有限的开放...多模态模型# Apollo# Meta# 多模态模型10个月前03000
Meta推出新型视频生成模型Movie Gen:不仅能制作高清视频,还能为视频配上声音Meta宣布推出一款新AI视频生成器Movie Gen,这款工具不仅能制作高清视频,还能为视频配上声音。据Meta介绍,Movie Gen可通过简单的文字输入,自动生成全新的视频内容。此外,它还能编辑...新技术# Meta# Movie Gen# 视频生成模型1年前05460
Meta发布 Llama 3.2 模型:从 轻量级纯文本模型(1B 和 3B)到 中小型多模态模型(11B 和 90B)Meta于9月25日正式推出了Llama 3.2模型,这款新模型以其开放性和可定制性为特点,旨在满足开发者在边缘人工智能和视觉处理领域的多样化需求。Llama 3.2 结合了多模态视觉能力和轻量化设计...多模态模型# Llama 3.2# Meta10个月前04070
Meta推出个性化图像生成模型Imagine yourself:根据参考照片,生成遵循特定文字描述的新图像,而且不需要对每个新用户进行单独调整Meta旗下GenAI团队推出个性化图像生成模型Imagine yourself,与传统的基于调整的个性化技术不同,Imagine yourself作为一个无需调整的模型运行,使得所有用户都能利用共享...新技术# Imagine yourself# Meta1年前04350
Meta推出个性化图像生成模型Imagine yourselfMeta推出个性化图像生成模型Imagine yourself,这个模型的特别之处在于,它不需要针对每个用户进行个性化调整或“调优”,就能够为所有用户提供服务。这就像是有一个智能的画家,无论谁来请求画...新技术# Imagine yourself# Meta# 个性化图像生成模型1年前05380
Meta推出图像和视频分割模型SAM 2:图像和视频中的可提示视觉分割Meta在去年推出了图像分割模型Segment Anything,今年它们又推出了升级版Segment Anything Model 2 (SAM 2),这是一种用于图像和视频中可提示视觉分割的基础模...图像模型# Meta# SAM 2# 分割模型10个月前05480
Meta推出多模态基础模型家族Chameleon:专为理解和生成图像与文本而设计Meta推出多模态基础模型家族Chameleon,它们是专为理解和生成图像与文本而设计,多模态意味着这些模型能够同时处理多种类型的数据,比如图片和文字。例如,你给Chameleon一个描述或者一张图片...新技术# Chameleon# Meta# 多模态基础模型2年前07920
Meta发布世界模型早期版本V-JEPA:无需人工标注或指导,自主学习视频中的视觉信息Meta今日推出V-JEPA(Video Joint-Embedding Predictive Architecture)模型,一种通过观看视频来教机器理解和模拟物理世界的方法,以迈向利用对世界的学习...新技术# Meta# V-JEPA# 世界模型2年前07860