模型 | 第43页 | SD百科导航

百科工具模型 ComfyUI AI合集 web UI 提示词

大语言模型多模态模型图像模型语音模型 3D模型 Flux衍生视频模型

排序

发布更新浏览点赞

SignGemma：谷歌推出全球最强手语翻译模型，为听障人群打开沟通新通道

谷歌近日宣布推出全新 AI 模型 SignGemma，作为 Gemma 家族的新成员，它专注于将手语（尤其是美式手语 ASL）翻译成英文文本或语音输出，是目前最强大的开源手语理解模型之一。 SignG...

多模态模型 # SignGemma # 手语翻译模型

7个月前

01610

像素空间推理视觉语言模型Pixel Reasoner：引入像素空间推理的概念，显著提升了视觉语言模型在视觉密集型任务中的表现

中国科学技术大学、香港科技大学和滑铁卢大学的研究人员推出基于 Qwen2 的开源视觉语言模型Pixel Reasoner，它通过引入像素空间推理（pixel-space reasoning）的概念，显...

多模态模型 # Pixel Reasoner # 视觉语言模型

7个月前

02420

谷歌发布医学多模态开源模型MedGemma：支持图像与文本理解，支持X光CT分析

谷歌近日推出了一款面向医疗领域的开源模型系列 —— MedGemma，该模型基于 Gemma 3 构建，在医学图像识别与文本理解方面表现出色，标志着医疗 AI 在开源方向上的重要进展。 MedGemm...

多模态模型 # MedGemma # 医学多模态开源模型 # 谷歌

7个月前

02020

字节跳动推出全新视频生成框架 ATI：用“画轨迹”控制视频运动，对象、视角、局部变形一应俱全！

字节跳动 AI 实验室发布了一项令人眼前一亮的视频生成技术 —— ATI（Any Trajectory Instruction），它让普通人也能通过“画轨迹”的方式，精准控制视频中物体的运动、镜头的移...

视频模型 # ATI # ATI-Wan2.1 14B # 字节跳动

7个月前

02690

蚂蚁集团开源全新统一多模态大模型 Ming-Lite-Omni：支持图像、文本、音频、视频

近日，蚂蚁集团旗下的百灵大模型（Ling）团队正式宣布开源其最新推出的统一多模态大模型 —— Ming-Lite-Omni。这是一款基于 Ling 系列轻量模型构建的 MoE 架构全模态 AI 模...

多模态模型 # Ming-Lite-Omni # 多模态大模型 # 蚂蚁集团

7个月前

02560

Snowflake 开源两款 AI 工具Arctic-Text2SQL-R1 和 Arctic Inference，专治企业最头疼的两个难题！

生成式 AI 发展到今天，很多问题已经解决，但仍有两大“顽疾”困扰着企业用户：文本转 SQL 的准确性问题：AI 写出来的 SQL 看起来像模像样，但在真实数据库上却执行失败； AI 推理的速度与成...

大语言模型 # Arctic Inference # Arctic-Text2SQL-R1 # Snowflake

7个月前

03900

DeepSeek R1 升级：推理能力逼近顶尖模型，小模型也迎来突破

DeepSeek 最新发布了其旗舰模型 DeepSeek R1 的升级版本 —— DeepSeek-R1-0528。这次更新不仅在推理深度上有了显著提升，还在幻觉控制、函数调用支持和代码生成体验等方面...

大语言模型 # DeepSeek-R1

7个月前

02780

DeepSeek推出基于Qwen3-8B的小型推理模型：DeepSeek-R1-0528-Qwen3-8B

深度求索在本周对DeepSeek R1进行了升级，还开源了此版本模型DeepSeek-R1-0528，官方还推出了一个基于Qwen3-8B的小型推理模型：DeepSeek-R1-0528-Qwen3...

大语言模型 # DeepSeek # DeepSeek-R1-0528-Qwen3-8B # 深度求索

7个月前

02310

Black Forest Labs 推出新一代上下文感知图像生成模型FLUX.1 Kontext，支持图像生成及编辑

继 FLUX.1 系列大获成功后，Black Forest Labs（黑森林实验室）在今天正式发布其最新力作 —— FLUX.1 Kontext。这是一套全新的上下文流匹配生成模型（Context...

图像模型 # Black Forest Labs # FLUX.1 Kontext # 黑森林实验室

7个月前

05540

腾讯混元项目组推出数字人头像生成模型 HunyuanPortrait ：用于高度可控且逼真的肖像动画生成

腾讯混元项目组推出基于扩散模型的条件控制方法 HunyuanPortrait ，用于高度可控且逼真的肖像动画生成。该方法通过隐式表示来控制肖像动画，能够利用单张肖像图像作为外观参考和视频片段作为驱动模...

视频模型 # HunyuanPortrait # 腾讯混元

7个月前

01740

OmniConsistency：解决图像风格化中“一致性”难题的通用插件，提升了图像风格化的一致性与美学质量

在图像风格化领域，扩散模型已经取得了显著进展。然而，两个核心问题始终困扰着研究者与开发者：如何在复杂场景下保持一致的风格化效果？尤其是在身份、构图和细节上的保留。如何防止图像到图像（I2I）流水...

图像模型 # OmniConsistency # 图像风格化

7个月前

03970

腾讯混元推出HunyuanVideo-Avatar：音频驱动、情感可控、支持多角色的虚拟人视频生成模型

近年来，音频驱动人物动画（Audio-driven Avatar Animation）取得了显著进展，但仍有几个关键挑战尚未完全解决：如何在保持角色一致性的前提下生成高度动态的视频；实现角色与音频...

视频模型 # HunyuanVideo-Avatar # 腾讯混元 # 视频生成模型

7个月前

03080

加载更多

模型

SignGemma：谷歌推出全球最强手语翻译模型，为听障人群打开沟通新通道

像素空间推理视觉语言模型Pixel Reasoner：引入像素空间推理的概念，显著提升了视觉语言模型在视觉密集型任务中的表现

谷歌发布医学多模态开源模型MedGemma：支持图像与文本理解，支持X光CT分析

字节跳动推出全新视频生成框架 ATI：用“画轨迹”控制视频运动，对象、视角、局部变形一应俱全！

蚂蚁集团开源全新统一多模态大模型 Ming-Lite-Omni：支持图像、文本、音频、视频

Snowflake 开源两款 AI 工具Arctic-Text2SQL-R1 和 Arctic Inference，专治企业最头疼的两个难题！

DeepSeek R1 升级：推理能力逼近顶尖模型，小模型也迎来突破

DeepSeek推出基于Qwen3-8B的小型推理模型：DeepSeek-R1-0528-Qwen3-8B

Black Forest Labs 推出新一代上下文感知图像生成模型FLUX.1 Kontext，支持图像生成及编辑

腾讯混元项目组推出数字人头像生成模型 HunyuanPortrait ：用于高度可控且逼真的肖像动画生成

OmniConsistency：解决图像风格化中“一致性”难题的通用插件，提升了图像风格化的一致性与美学质量

腾讯混元推出HunyuanVideo-Avatar：音频驱动、情感可控、支持多角色的虚拟人视频生成模型

人生 K 线

Fogsight (雾象)

朱雀大模型检测

BabelDOC

秒哒

Higgsfield AI

模型

网址

人生 K 线

Fogsight (雾象)

朱雀大模型检测

BabelDOC

秒哒

Higgsfield AI