多模态模型

百科工具模型 ComfyUI AI合集 web UI 提示词

大语言模型多模态模型图像模型语音模型 3D模型 Flux衍生视频模型世界模型

排序

发布更新浏览点赞

基于 Qwen2-VL-7B 开发的实时视频理解大模型LiveCC：快速分析视频内容，并同步生成自然流畅的语音或文字解说

新加坡国立大学和字节跳动的研究人员推出基于 Qwen2-VL-7B 开发的实时视频理解大模型LiveCC，能够像专业解说员一样快速分析视频内容，并同步生成自然流畅的语音或文字解说。特别适合需要即时反馈...

9个月前

03200

Meta AI推出一款通过单一对比学习目标训练的通用视觉编码器Perception Encoder

随着AI系统逐渐向多模态方向发展，视觉感知模型的角色也变得更加复杂。传统的视觉编码器通常针对特定任务进行优化，例如图像分类、目标检测或语言生成，但这种碎片化的方法不仅增加了模型的复杂性，还限制了其在开...

多模态模型 # Meta AI # Perception Encoder # 感知编码器

9个月前

03360

TNG科技微调 olmOCR推出olmOCR-7B-faithful：更忠实的 OCR 模型，适用于业务场景中的全面信息提取

光学字符识别（OCR）技术在文档数字化和信息提取领域扮演着重要角色。然而，传统的基于流水线的 OCR 系统虽然功能强大，却常常因无法处理复杂布局而受到限制。最近，艾伦人工智能研究所推出的 olmOCR...

多模态模型 # olmOCR # olmOCR-7B-faithful

9个月前

02140

字节跳动推出多模态模型Vidi：专门用于视频理解和编辑

字节跳动推出多模态模型Vidi，专门用于视频理解和编辑。Vidi 的主要目标是支持高质量、大规模视频内容的创作，通过处理原始输入材料（如未编辑的视频片段）和编辑组件（如视觉效果），帮助用户更高效地完成...

多模态模型 # Vidi # 多模态模型 # 字节跳动

9个月前

02130

英伟达推出多模态大语言模型Describe Anything 3B：为图像和视频局部描述量身定制的多模态 AI 模型

英伟达、加州大学伯克利分校和加州大学旧金山分校的研究人员推出了 Describe Anything 3B (DAM-3B)，这是一个专门用于生成细粒度图像和视频字幕的多模态大语言模型（LLM）。DAM...

多模态模型 # Describe Anything 3B # 多模态大语言模型 # 英伟达

9个月前

05830

字节跳动推出多模态大语言模型ChatTS：专门用于时间序列分析

清华大学和字节跳动的研究人员推出多模态大语言模型ChatTS ，专门用于时间序列分析。它通过自然语言命令帮助用户快速理解时间序列数据，执行日常任务，并处理复杂的推理问题。ChatTS 的核心优势在于其...

多模态模型 # ChatTS # 多模态大语言模型 # 字节跳动

10个月前

02620

新型自动化 GUI交互模型 UI-TARS：能够通过感知屏幕截图作为输入，并执行类似人类操作的交互任务（如键盘输入和鼠标操作）

字节跳动与清华大学的研究人员推出新型自动化 GUI（图形用户界面）交互模型 UI-TARS，它是一种原生的 GUI 代理模型，能够通过感知屏幕截图作为输入，并执行类似人类操作的交互任务（如键盘输入和鼠...

多模态模型 # UI-TARS # 字节跳动

10个月前

03530

月之暗面推出高效开源视觉-语言模型Kimi-VL

随着AI技术的快速发展，视觉-语言模型（VLM）在多模态任务中的应用越来越广泛。然而，如何在保持高性能的同时降低计算成本，一直是研究者面临的挑战。近日，国内知名AI公司“月之暗面”推出了一款高效的开...

多模态模型 # Kimi-VL # 月之暗面

10个月前

03840

拥有20亿参数的多模态大语言模型Open-Qwen2VL

在多模态大语言模型（MLLMs）的研究与应用中，视觉与文本模态的融合正在不断拓展其边界，从图像描述到视觉问答，再到复杂文档的解读，这些模型展现出了强大的能力。然而，这一领域的进一步发展面临着诸多挑战...

多模态模型 # Open-Qwen2VL # 多模态大语言模型

10个月前

01870

统一视觉自回归模型 VARGPT-v1.1：统一视觉理解和图像生成任务

北京大学和香港中文大学的研究人员推出先进统一视觉自回归模型 VARGPT-v1.1 ，该模型在多模态理解和文本到图像生成任务中表现出色。它通过迭代指令微调和强化学习等创新训练策略，显著提升了模型的性能...

多模态模型 # VARGPT-v1.1 # 统一视觉自回归模型

10个月前

03600

腾讯推出AnimeGamer：通过多模态大语言模型实现无限动漫生活模拟

近年来，图像和视频合成技术的发展为生成游戏带来了新的可能性。特别是将动漫电影中的角色转化为可互动、可玩的实体，让玩家能够以自己喜爱的角色身份沉浸在动态的动漫世界中，通过语言指令进行生活模拟。这种游戏被...

多模态模型 # AnimeGamer # 多模态大语言模型 # 无限动漫生活模拟

10个月前

04020

增强版多模态大语言模型ILLUME+ ：通过双视觉标记化和扩散解码器来提升深度语义理解和高保真图像生成的能力

近年来，多模态大语言模型（MLLMs）在图像理解、生成和编辑任务中取得了显著进展。然而，现有的统一模型在同时处理这三种任务时面临挑战。例如，早期的模型（如 Chameleon 和 EMU3）使用 VQ...

多模态模型 # ILLUME # 图像生成 # 多模态大语言模型

10个月前

04760

加载更多

基于 Qwen2-VL-7B 开发的实时视频理解大模型LiveCC：快速分析视频内容，并同步生成自然流畅的语音或文字解说

Meta AI推出一款通过单一对比学习目标训练的通用视觉编码器Perception Encoder

TNG科技微调 olmOCR推出olmOCR-7B-faithful：更忠实的 OCR 模型，适用于业务场景中的全面信息提取

字节跳动推出多模态模型Vidi：专门用于视频理解和编辑

英伟达推出多模态大语言模型Describe Anything 3B：为图像和视频局部描述量身定制的多模态 AI 模型

字节跳动推出多模态大语言模型ChatTS：专门用于时间序列分析

新型自动化 GUI交互模型 UI-TARS：能够通过感知屏幕截图作为输入，并执行类似人类操作的交互任务（如键盘输入和鼠标操作）

月之暗面推出高效开源视觉-语言模型Kimi-VL

拥有20亿参数的多模态大语言模型Open-Qwen2VL

统一视觉自回归模型 VARGPT-v1.1：统一视觉理解和图像生成任务

腾讯推出AnimeGamer：通过多模态大语言模型实现无限动漫生活模拟

增强版多模态大语言模型ILLUME+ ：通过双视觉标记化和扩散解码器来提升深度语义理解和高保真图像生成的能力

新QoderWork

Clawdbot/Moltbot

Situation Monitor

CutCut

中国科技云数据胶囊

Skills.sh

多模态模型

网址

新QoderWork

Clawdbot/Moltbot

Situation Monitor

CutCut

中国科技云数据胶囊

Skills.sh