多模态模型,SD百科导航是专注于AI创作领域的专业导航网站。我们全面涵盖Stable Diffusion、AI绘画、AI视频、AI音乐以及大语言模型等前沿内容。不仅提供Stable Diffusion、ComfyUI、Fooocus、Flux等热门工具的详细教程和丰富资源，还为您带来行业最新进展与趋势解读。无论您是初学者还是资深创作者，都能在这里快速找到所需信息，开启AI创作之旅。

谷歌发布多语言视觉语言编码器SigLIP 2

今天，谷歌正式发布了 SigLIP 2——一个全新的多语言视觉语言编码器系列。SigLIP 2 在语义理解、定位和密集特征方面进行了显著改进，进一步提升了视觉语言模型的性能。官方说明：https:/...

17小时前

010

谷歌推出PaliGemma 2 Mix：在混合视觉语言任务上进行微调的视觉语言模型版本，涵盖 OCR、长短字幕等多种任务

去年 12 月5日，谷歌发布了 PaliGemma 2，这是一个基于 SigLIP 和 Gemma 2 的新型预训练视觉语言模型（VLM）系列。这些模型提供了三种不同的尺寸（3B、10B、28B）和三...

多模态模型 # PaliGemma 2 Mix # 视觉语言模型 # 谷歌

3天前

090

让大语言模型“看懂”图形界面！微软推出 OmniParser V2.0：将大语言模型转化为 GUI 交互智能体

微软的 OmniParser 发布了 V2 更新，这一版本的核心目标是将任何大语言模型（LLM）转化为能够理解和交互图形用户界面（GUI）的智能体。相比前一代，OmniParser V2 在检测更小可...

多模态模型 # OmniParser V2.0 # 微软 # 智能体

4天前

080

拟人化实时交互系统SpeechGPT 2.0-preview：支持多种音色，200毫秒延迟

复旦大学自然语言处理实验室近期推出了SpeechGPT 2.0-preview，这是他们为实现情景智能而开发的第一个拟人化实时交互系统。基于百万小时级别的语音数据训练而成，这款端到端的语音大模型不仅能...

多模态模型 # SpeechGPT 2.0-preview # 语音模型

2周前

0830

阿里通义实验室发布了Qwen 模型家族的旗舰视觉语言模型Qwen2.5-VL

阿里通义实验室发布了Qwen 模型家族的旗舰视觉语言模型Qwen2.5-VL，对比此前发布的 Qwen2-VL 实现了巨大的飞跃。欢迎访问 Qwen Chat 并选择 Qwen2.5-VL-72B-I...

多模态模型 # Qwen2.5-VL # 视觉语言模型

2天前

0820

深度求索开源多模态理解与生成模型 Janus-Pro，已释出两个版本Janus-Pro-7B和Janus-Pro-1B

深度求索（DeepSeek-AI）在DeepSeek-R1爆火后，又在今天释出了多模态理解与生成模型 Janus-Pro，它是之前工作 Janus 的升级版本，目前释出了两个版本Janus-Pro-7...

多模态模型 # Janus-Pro # Janus-Pro-1B # Janus-Pro-7B

2周前

01010

百川智能发布全模态开源模型Baichuan-Omni-1.5

百川智能宣布其最新研发的Baichuan-Omni-1.5开源全模态模型正式上线。这款模型支持文本、图像、音频和视频等多种格式的数据处理，并具备文本与音频的双模态生成能力。Baichuan-Omni-...

多模态模型 # Baichuan-Omni-1.5 # 百川智能

2周前

0670

新型多模态基础模型VideoLLaMA 3：提升图像和视频理解的性能

阿里巴巴达摩院的研究人员推出新型多模态基础模型VideoLLaMA 3，旨在提升图像和视频理解的性能。该模型的核心设计理念是“以视觉为中心”（vision-centric），通过高质量的图像-文本数据...

多模态模型 # VideoLLaMA 3

2周前

0770

Hugging Face发布号称同类最小的多模态模型SmolVLM系列

Hugging Face团队最近发布了两款名为SmolVLM-256M和SmolVLM-500M的新模型，它们被宣称为能够分析图像、短视频以及文本的最小AI模型。这两款模型特别设计用于在资源受限的设备...

多模态模型 # Hugging Face # SmolVLM

2周前

0630

新型自动化 GUI交互模型 UI-TARS：能够通过感知屏幕截图作为输入，并执行类似人类操作的交互任务（如键盘输入和鼠标操作）

字节跳动与清华大学的研究人员推出新型自动化 GUI（图形用户界面）交互模型 UI-TARS，它是一种原生的 GUI 代理模型，能够通过感知屏幕截图作为输入，并执行类似人类操作的交互任务（如键盘输入和鼠...

多模态模型 # UI-TARS # 字节跳动

2周前

01030

壁智能推出MiniCPM-o 2.6：手机上的 GPT-4o 级多模态大模型，可实时语音通话和视频通话

MiniCPM-o 2.6 是面壁智能推出的 MiniCPM-o 系列中最新且功能最强大的模型。该模型基于 SigLip-400M、Whisper-medium-300M、ChatTTS-200M 和...

多模态模型 # MiniCPM-o 2.6 # 壁智能 # 视频通话

2周前

01110

新型多模态大语言模型Sa2VA：将 SAM2 与 LLaVA相结合，实现对图像和视频的深入理解

加州大学默塞德分校、字节跳动、武汉大学和北京大学的研究人员推出新型多模态大语言模型Sa2VA，它将SAM-2视频分割模型与LLaVA视觉-语言模型相结合，实现了对图像和视频的密集、基于语义的理解。Sa...

多模态模型 # Sa2VA # 多模态大语言模型

2周前

0990