大型多模态模型LLaVA-Video:专门设计来处理视频指令并进行视频内容理解 字节跳动、南洋理工大学S-Lab和北京邮电大学的研究人员推出大型多模态模型LLaVA-Video,专门设计来处理视频指令并进行视频内容理解。这个模型特别擅长于解析和生成与视频内容相关的语言描述,比如详... 多模态模型# LLaVA-Video# 多模态模型 4周前03530