新型多模态原生模型Aria:专门设计来处理和理解多种类型的信息(文本、代码、图像和视频) Rhymes AI推出新型多模态原生模型Aria,这是一个开源的混合专家(MoE)模型,ARIA专门设计来处理和理解多种类型的信息,比如文本、代码、图像和视频,而且它能够像人类一样,不需要特别区分这些... 多模态模型# Aria# Rhymes AI# 多模态模型 2周前03070
用于长篇故事视觉化的迭代框架Story-Adapter:根据长篇故事的文字描述生成一系列既连贯又具有丰富细节的图像 加州大学圣克鲁斯分校、杭州电子科技大学和新加坡理工学院的研究人员推出一个用于长篇故事视觉化的迭代框架Story-Adapter,Story-Adapter能够根据长篇故事的文字描述生成一系列既连贯又具... 图像模型# Story-Adapter# 长篇故事视觉化 2周前05260
IterComp:为了解决文本到图像生成中的复杂和组合问题而设计的新框架 清华大学、北京大学、LibAI Lab、中国科学技术大学、牛津大学和普林斯顿大学的研究人员推出AI绘画新框架IterComp,它是为了解决文本到图像生成中的复杂和组合问题而设计的。简单来说,就是当你给... 图像模型# IterComp# 文本到图像 2周前03550
新型视频生成模型Pyramidal Flow:提高视频生成的效率,同时保持生成视频的高质量 北京大学、快手科技和北京邮电大学的研究人员推出新型视频生成模型Pyramidal Flow,这个模型的目的是提高视频生成的效率,同时保持生成视频的高质量。可以想象一下,你想制作一个视频,里面有一只小猫... 视频模型# Pyramidal Flow# 视频生成模型 2周前02930
新型视频生成模型T2V-Turbo-v2:基于VideoCrafter2模型提炼,提升视频生成的质量和效率 加州大学圣巴巴拉分校、加州大学洛杉矶分校、亚马逊 AGI和滑铁卢大学的研究人员推出新型视频生成模型T2V-Turbo-v2,它旨在提升基于扩散的文本到视频(T2V)生成的质量和效率。简单来说,这项技术... 视频模型# T2V-Turbo-v2# 视频生成模型 2周前03340
Rev推出开源自动语音识别模型Reverb和话者分离模型 Rev 最近宣布开源其尖端的 Reverb 自动语音识别 (ASR) 和话者分离模型。经过 200,000 小时高质量人工转录的英语语音训练,Reverb 在长篇语音识别领域中表现出色,超越了所有现有... 语音模型# Reverb# 话者分离模型# 语音识别模型 2周前03530
图像恢复算法PMRF:改善从损坏的图像中恢复出高质量、逼真图像 以色列理工学院的研究人员推出图像恢复算法PMRF(Posterior-Mean Rectified Flow,后验均值校正流),这个算法的目标是改善从损坏的图像中恢复出高质量、逼真图像的方法。具体来说... 图像模型# PMRF# 图像恢复算法 2周前04160
Momo XL:基于SDXL的动漫风格模型 Momo XL 是一个基于 Stable Diffusion XL (SDXL) 的动漫风格模型,经过微调后,能够生成具有详细和生动美学的优质动漫风格图像。这款模型专为艺术家和动漫爱好者设计,提供了多... 图像模型# Momo XL# SDXL# 动漫风格 2周前02780
高级插图模型Illustrious:专门针对插画和动画任务进行了优化,主要用于生成动漫风格的图像 OnomaAI 研究小组推出一个高级插图模型Illustrious,它主要用于生成动漫风格的图像。Illustrious XL是一个基于SDXL的模型,专门针对插画和动画任务进行了优化。它是基于 Ko... 图像模型# Illustrious# Illustrious XL# 插图模型 2周前05880
大型多模态模型LLaVA-Video:专门设计来处理视频指令并进行视频内容理解 字节跳动、南洋理工大学S-Lab和北京邮电大学的研究人员推出大型多模态模型LLaVA-Video,专门设计来处理视频指令并进行视频内容理解。这个模型特别擅长于解析和生成与视频内容相关的语言描述,比如详... 多模态模型# LLaVA-Video# 多模态模型 2周前03460
新型开源大型多模态模型LLaVA-Critic:用于评估各种多模态任务的性能 字节跳动和马里兰大学帕克分校的研究人员推出新型开源大型多模态模型LLaVA-Critic,它被设计成一个全能的评估者,用于评估各种多模态任务的性能。多模态任务通常涉及理解和生成与图像、视频和文本相关的... 多模态模型# LLaVA-Critic# 多模态模型 2周前02570
新型CLIP专家混合模型CLIP-MoE:可以无缝替换CLIP,以即插即用的方式,而无需在下游框架中进一步适应 香港中文大学、上海人工智能实验室和舒尔茨大学的研究人员推出新型CLIP模型CLIP-MoE,它是为了增强现有的多模态智能模型CLIP而设计的。CLIP-MoE可以无缝替换CLIP,以即插即用的方式,而... 多模态模型# CLIP-MoE# 多模态智能模型 2周前03850