多模态模型

百科工具模型 ComfyUI AI合集 web UI 提示词

大语言模型多模态模型图像模型语音模型 3D模型 Flux衍生视频模型世界模型

排序

发布更新浏览点赞

CoCo：让 AI 像程序员一样“写代码画图”，彻底解决文生图的文字与布局难题

如果你曾让 AI 画一张“带有具体数据的饼图”、“排版精美的餐厅菜单”或“标注了坐标轴的数学函数图”，结果大概率会失望：文字变成乱码、布局歪七扭八、数据完全错误。这是因为现有的文生图模型依赖模糊的自...

多模态模型 # CoCo

3周前

0130

上海 AI 实验室发布 InternVL-U：40 亿参数统一多模态模型，理解、推理、生成与编辑全能合一

在人工智能领域，模型往往面临“专才”与“全才”的抉择：有的擅长理解图片内容，有的精于生成精美画作，但鲜有模型能同时精通“看、想、画、改”四项技能。上海人工智能实验室正式推出 InternVL-U，一...

多模态模型 # InternVL-U # 上海 AI 实验室

4周前

0520

谷歌发布 Gemini Embedding 2：首个原生多模态嵌入模型，支持文本/图像/音视频统一检索

谷歌今日通过 Gemini API 和 Vertex AI 正式开放 Gemini Embedding 2 的公开预览。这是谷歌首个基于 Gemini 架构构建的原生多模态嵌入模型，能够将文本、图像...

多模态模型 # Gemini Embedding 2 # 多模态嵌入模型 # 谷歌

4周前

0190

腾讯开源 Penguin-VL：抛弃 CLIP，用大语言模型初始化视觉编码器，重塑多模态效率极限

“当所有人都在堆砌数据和参数时，腾讯选择了一条更本质的路：重新设计视觉编码器，让‘看’和‘想’在同一个空间里对话。” 在视觉语言模型（VLM）领域，主流范式长期依赖通过大规模对比学习（如 CLIP、S...

多模态模型 # Penguin-VL # Penguin-VL-2B # Penguin-VL-8B

4周前

0550

浪潮开源源 3.0 Ultra：1515B 参数巨无霸瘦身至 68B 激活，企业级 RAG 与表格理解全面超越 GPT-4o

“大模型的未来不在于无限堆砌参数，而在于如何让每一分算力都产生价值。” 浪潮旗下 YuanLab.ai 团队正式开源源 3.0 Ultra (Yuan3.0 Ultra)。这是一款从零开始预训练的超...

多模态模型 # Yuan3.0 Ultra # 浪潮 # 源 3.0 Ultra

4周前

01000

微软发布 Phi-4-Reasoning-Vision-15B：150 亿参数的“小而美”多模态推理专家

在视觉语言模型（VLM）竞相追逐千亿参数、万亿训练词元的今天，微软反其道而行之，发布了 Phi-4-reasoning-vision-15B。官方介绍：https://www.microsoft.c...

多模态模型 # Phi-4-Reasoning-Vision-15B # 微软

4周前

0230

OmniLottie：全球首个端到端多模态矢量动画生成器，文字/图片/视频一键转可编辑 Lottie

在数字设计领域，动画是灵魂，但高质量动画的制作门槛却高不可攀。现有的 AI 视频生成工具大多输出“死视频”（MP4/GIF）——无法放大、无法修改颜色、无法提取元素。而设计师钟爱的 Lottie 矢量...

多模态模型 # Lottie # OmniLottie # 矢量动画

1个月前

0420

淘宝闪购开源“白泽”大模型Ostrakon-VL：基于 Qwen3-VL 打造餐饮风控神器，免费开放全行业使用

在食品安全日益受到重视的今天，如何利用 AI 技术实现高效、精准的数字化治理，成为外卖平台与餐饮零售行业共同面临的挑战。今日，淘宝闪购正式宣布，将其专为餐饮服务与零售门店打造的风控治理垂直领域大模型...

多模态模型 # Ostrakon-VL # 淘宝闪购 # 白泽

1个月前

0340

ZUNA：开源 3.8 亿参数脑电图基础模型，支持去噪、重建与上采样

脑电图（EEG）研究长期面临着一个棘手难题：信号噪声大、电极脱落导致数据缺失、以及高密度采集成本高昂。传统处理方法往往依赖复杂的数学插值或手工设计的滤波器，不仅效果有限，还难以适应多变的实际场景。 Z...

多模态模型 # ZUNA

1个月前

0400

加州理工推出Conversational Image Segmentation：对话式图像分割，让 AI 真正听懂“这个稳不稳”、“那个能不能坐”

在传统的计算机视觉中，AI 擅长回答“这是什么？”（分类）或“它在哪里？”（检测/分割）。如果你问它：“把左边那个红色的杯子框出来”，它能做得很好。但如果你问：“哪个行李箱可以单独拿走而不弄倒整堆行...

多模态模型 # Conversational Image Segmentation # 对话式图像分割

2个月前

0160

蚂蚁集团开源 ZwZ 模型：无需迭代缩放，单次 glance 实现细粒度多模态感知SOTA

当前主流的“图像思考”方法，虽能通过迭代放大感兴趣区域提升细粒度感知能力，却存在致命短板——重复的工具调用与视觉重新编码，导致推理延迟居高不下，难以适配实际应用场景。针对这一痛点，蚂蚁集团 incl...

多模态模型 # ZwZ # 蚂蚁集团

2个月前

0350

蚂蚁集团发布Ming-flash-omni 2.0 ：100B MoE 多模态全能模型，支持视觉百科、沉浸式语音、高动态图像生成与编辑

蚂蚁集团 inclusionAI 团队正式推出 Ming-flash-omni 2.0，搭载全新 Ling-2.0 混合专家（MoE）架构，以总参数 100B、激活参数 6B 的高效配置，在开源全能型...

多模态模型 # Ming-flash-omni 2.0

2个月前

0120

加载更多

CoCo：让 AI 像程序员一样“写代码画图”，彻底解决文生图的文字与布局难题

上海 AI 实验室发布 InternVL-U：40 亿参数统一多模态模型，理解、推理、生成与编辑全能合一

谷歌发布 Gemini Embedding 2：首个原生多模态嵌入模型，支持文本/图像/音视频统一检索

腾讯开源 Penguin-VL：抛弃 CLIP，用大语言模型初始化视觉编码器，重塑多模态效率极限

浪潮开源源 3.0 Ultra：1515B 参数巨无霸瘦身至 68B 激活，企业级 RAG 与表格理解全面超越 GPT-4o

微软发布 Phi-4-Reasoning-Vision-15B：150 亿参数的“小而美”多模态推理专家

OmniLottie：全球首个端到端多模态矢量动画生成器，文字/图片/视频一键转可编辑 Lottie

淘宝闪购开源“白泽”大模型Ostrakon-VL：基于 Qwen3-VL 打造餐饮风控神器，免费开放全行业使用

ZUNA：开源 3.8 亿参数脑电图基础模型，支持去噪、重建与上采样

加州理工推出Conversational Image Segmentation：对话式图像分割，让 AI 真正听懂“这个稳不稳”、“那个能不能坐”

蚂蚁集团开源 ZwZ 模型：无需迭代缩放，单次 glance 实现细粒度多模态感知SOTA

蚂蚁集团发布Ming-flash-omni 2.0 ：100B MoE 多模态全能模型，支持视觉百科、沉浸式语音、高动态图像生成与编辑

S.H.I.T

新Flova

ITELLOU

Tripo

即梦 CLI

CoPaw

多模态模型

网址

S.H.I.T

新Flova

ITELLOU

Tripo

即梦 CLI

CoPaw